La tecnología NLP está persiguiendo el objetivo equivocado

El actual zeitgeist de la PNL surgió de media década de mejoras constantes bajo el paradigma de evaluación estándar. La capacidad de comprensión de los sistemas se ha medido generalmente en conjuntos de datos de referencia que constan de miles de preguntas, cada una acompañada de pasajes que contienen la respuesta. Cuando las redes neuronales profundas arrasaron el campo a mediados de la década de 2010, dieron un salto cualitativo en el rendimiento. Las rondas posteriores de trabajo mantuvieron los puntajes cada vez más cercanos al 100% (o al menos a la paridad con los humanos).

Entonces, los investigadores publicarían nuevos conjuntos de datos de preguntas aún más complicadas, solo para ver que las redes neuronales aún más grandes publican rápidamente puntajes impresionantes. Gran parte de la investigación actual sobre comprensión lectora implica ajustar cuidadosamente los modelos para obtener algunos puntos porcentuales más en los últimos conjuntos de datos. "State of the art" se ha convertido prácticamente en un nombre propio: "¡Vencimos a SOTA en SQuAD por 2.4 puntos!"

Pero muchas personas en el campo están cada vez más cansadas de esta persecución de la clasificación. ¿Qué ha ganado realmente el mundo si una red neuronal masiva logra SOTA en algún punto de referencia por uno o dos puntos? No es que a nadie le importe responder estas preguntas por su propio bien; ganar la tabla de clasificación es un ejercicio académico que puede no mejorar las herramientas del mundo real. De hecho, muchas mejoras aparentes surgen no de la capacidad de comprensión general, sino de la extraordinaria habilidad de los modelos para explotar patrones espurios en los datos. ¿Se traducen realmente los “avances” recientes en ayudar a las personas a resolver problemas?

Editado por Aniceto Pérez y Madrid, Especialista en Ética de la Inteligencia Artificial y Editor de Actualidad Deep Learning (@forodeeplearn).

Los artículos publicados son incluidos por su estimada relevancia y no expresan necesariamente los puntos de vista del Editor este Blog.

Comentarios

Popular

Herramientas de Evaluación de Sistemas Algorítmicos

Sistemas multiagentes: Desafíos técnicos y éticos del funcionamiento en un grupo mixto

Controversias éticas en torno a la privacidad, la confidencialidad y el anonimato en investigación social