Reconocimiento visual de voz

- junio 19, 2021

La lectura de labios se utiliza para comprender o interpretar el habla sin escucharla, una técnica especialmente dominada por personas con dificultades auditivas. La capacidad de leer los labios permite a una persona con discapacidad auditiva comunicarse con los demás y participar en actividades sociales, que de otro modo serían difíciles. Los avances recientes en los campos de la visión por computadora, el reconocimiento de patrones y el procesamiento de señales han llevado a un creciente interés en automatizar esta desafiante tarea de la lectura de labios. De hecho, la automatización de la capacidad humana para leer los labios, un proceso denominado reconocimiento visual de voz (VSR) (o en ocasiones lectura de voz), podría abrir la puerta a otras aplicaciones novedosas relacionadas. VSR ha recibido mucha atención en la última década por su uso potencial en aplicaciones como la interacción humano-computadora (HCI), el reconocimiento de voz audiovisual (AVSR), el reconocimiento de locutor, cabezas parlantes, el reconocimiento del lenguaje de señas y la videovigilancia. Su principal objetivo es reconocer las palabras habladas utilizando únicamente la señal visual que se produce durante el habla. Por lo tanto, VSR se ocupa del dominio visual del habla e implica procesamiento de imágenes, inteligencia artificial, detección de objetos, reconocimiento de patrones, modelado estadístico, etc.

Buscar este blog

Actualidad Deep Learning

Reconocimiento visual de voz

Comentarios

Publicar un comentario

Popular

Es hora de que la IA se explique

Tesla admite que es posible que nunca logre autos totalmente autónomos

Publicación del primer informe de progreso del Comité Ad hoc de Inteligencia Artificial (CAHAI)