¿Qué significa que la IA comprenda?

https://www.quantamagazine.org/what-does-it-mean-for-ai-to-understand-20211216/

¿Recuerdas a Watson, de IBM, el campeón de Jeopardy! de IA? Una promoción de 2010 proclamaba: "Watson entiende el lenguaje natural con toda su ambigüedad y complejidad". Sin embargo, como vimos cuando Watson fracasó estrepitosamente en su intento de "revolucionar la medicina con inteligencia artificial", un barniz de facilidad lingüística no es lo mismo que comprender realmente el lenguaje humano.


La comprensión del lenguaje natural ha sido durante mucho tiempo uno de los principales objetivos de la investigación en IA. Al principio, los investigadores intentaron programar manualmente todo lo que una máquina necesitaría para dar sentido a las noticias, la ficción o cualquier otra cosa que los humanos pudieran escribir. Este enfoque, como demostró Watson, fue inútil: es imposible escribir todos los hechos, reglas y suposiciones no escritas que se necesitan para entender el texto. Más recientemente, se ha establecido un nuevo paradigma: En lugar de incorporar conocimientos explícitos, dejamos que las máquinas aprendan a entender el lenguaje por sí mismas, simplemente ingiriendo grandes cantidades de texto escrito y aprendiendo a predecir palabras. El resultado es lo que los investigadores llaman un modelo lingüístico. Cuando se basan en grandes redes neuronales, como la GPT-3 de OpenAI, estos modelos pueden generar una prosa increíblemente humana (¡y poesía!) y aparentemente realizar sofisticados razonamientos lingüísticos.


Pero, ¿ha trascendido el GPT-3, entrenado con textos de miles de páginas web, libros y enciclopedias, el barniz de Watson? ¿Comprende realmente el lenguaje que genera y sobre el que aparentemente razona? Este es un tema de gran desacuerdo en la comunidad de investigadores de IA. Estas discusiones solían ser competencia de los filósofos, pero en la última década la IA ha salido de su burbuja académica para entrar en el mundo real, y su falta de comprensión de ese mundo puede tener consecuencias reales y a veces devastadoras. En un estudio, se descubrió que Watson de IBM proponía "múltiples ejemplos de recomendaciones de tratamiento inseguras e incorrectas". Otro estudio demostró que el sistema de traducción automática de Google cometía errores significativos cuando se utilizaba para traducir instrucciones médicas para pacientes que no hablaban inglés.


Columnas cuantificadas

Una columna periódica en la que los mejores investigadores exploran el proceso de descubrimiento. La columnista de este mes, Melanie Mitchell, es la Profesora Davis de Complejidad en el Instituto de Santa Fe y la autora de Inteligencia Artificial: A Guide for Thinking Humans.


Ver todas las columnas sobre cuantificación


¿Cómo podemos determinar en la práctica si una máquina puede entender? En 1950, el pionero de la informática Alan Turing trató de responder a esta pregunta con su famoso "juego de imitación", ahora llamado test de Turing. Una máquina y un humano, ambos ocultos a la vista, competirían para convencer a un juez humano de su humanidad utilizando únicamente la conversación. Si el juez no podía distinguir cuál era el humano, entonces, afirmaba Turing, deberíamos considerar que la máquina pensaba y, en efecto, entendía.


Por desgracia, Turing subestimó la propensión de los humanos a dejarse engañar por las máquinas. Incluso los chatbots más sencillos, como Eliza, la psicoterapeuta falsa de Joseph Weizenbaum de los años 60, han engañado a la gente haciéndoles creer que estaban conversando con un ser comprensivo, incluso cuando sabían que su interlocutor era una máquina.


En un artículo de 2012, los informáticos Hector Levesque, Ernest Davis y Leora Morgenstern propusieron una prueba más objetiva, a la que llamaron el desafío del esquema de Winograd. Desde entonces, esta prueba se ha adoptado en la comunidad lingüística de la IA como una forma, y quizás la mejor, de evaluar la comprensión de las máquinas, aunque, como veremos, no es perfecta. Un esquema Winograd, llamado así por el investigador del lenguaje Terry Winograd, consiste en un par de frases que difieren exactamente en una palabra, cada una de ellas seguida de una pregunta. He aquí dos ejemplos:


Frase 1: He vertido agua de la botella en la taza hasta llenarla.

Pregunta: ¿Qué estaba llena, la botella o la taza?

Frase 2: He vertido agua de la botella en el vaso hasta que se ha vaciado.

Pregunta: ¿Qué estaba vacío, la botella o la taza?


Frase 1: El tío de Joe todavía puede ganarle al tenis, aunque sea 30 años mayor.

Pregunta: ¿Quién es mayor, Joe o el tío de Joe?

Frase 2: El tío de Joe todavía puede ganarle al tenis, aunque sea 30 años más joven.

Pregunta: ¿Quién es más joven, Joe o el tío de Joe?


Los modelos lingüísticos de redes neuronales han alcanzado una precisión de aproximadamente el 97% en un conjunto concreto de esquemas de Winograd. Esto equivale aproximadamente al rendimiento humano.


En cada par de frases, la diferencia de una palabra puede cambiar a qué cosa o persona se refiere un pronombre. Responder correctamente a estas preguntas parece requerir la comprensión del sentido común. Los esquemas de Winograd están diseñados precisamente para probar este tipo de comprensión, aliviando la vulnerabilidad de la prueba de Turing a los jueces humanos poco fiables o a los trucos del chatbot. En concreto, los autores diseñaron unos cientos de esquemas que creían "a prueba de Google": Una máquina no debería ser capaz de utilizar una búsqueda en Google (o algo parecido) para responder correctamente a las preguntas.


Comentarios

Popular

Herramientas de Evaluación de Sistemas Algorítmicos

Sistemas multiagentes: Desafíos técnicos y éticos del funcionamiento en un grupo mixto

Controversias éticas en torno a la privacidad, la confidencialidad y el anonimato en investigación social