Reconocimiento visual de voz

https://arxiv.org/abs/1409.1411

La lectura de labios se utiliza para comprender o interpretar el habla sin escucharla, una técnica especialmente dominada por personas con dificultades auditivas. La capacidad de leer los labios permite a una persona con discapacidad auditiva comunicarse con los demás y participar en actividades sociales, que de otro modo serían difíciles. Los avances recientes en los campos de la visión por computadora, el reconocimiento de patrones y el procesamiento de señales han llevado a un creciente interés en automatizar esta desafiante tarea de la lectura de labios. De hecho, la automatización de la capacidad humana para leer los labios, un proceso denominado reconocimiento visual de voz (VSR) (o en ocasiones lectura de voz), podría abrir la puerta a otras aplicaciones novedosas relacionadas. VSR ha recibido mucha atención en la última década por su uso potencial en aplicaciones como la interacción humano-computadora (HCI), el reconocimiento de voz audiovisual (AVSR), el reconocimiento de locutor, cabezas parlantes, el reconocimiento del lenguaje de señas y la videovigilancia. Su principal objetivo es reconocer las palabras habladas utilizando únicamente la señal visual que se produce durante el habla. Por lo tanto, VSR se ocupa del dominio visual del habla e implica procesamiento de imágenes, inteligencia artificial, detección de objetos, reconocimiento de patrones, modelado estadístico, etc.

Comentarios

Popular

Es hora de que la IA se explique

Ann Cavoukian explica por qué la vigilancia invasiva no debería ser la norma en los entornos urbanos modernos y sostenibles

Gemelos digitales, cerebros virtuales y los peligros del lenguaje