CHATBOTS: SIGUEN SIENDO TONTOS DESPUÉS DE TODOS ESTOS AÑOS

https://mindmatters.ai/2022/01/will-chatbots-replace-the-art-of-human-conversation/

En 1970, Marvin Minsky, galardonado con el premio Turing ("el premio Nobel de la informática"), predijo que dentro de "tres a ocho años tendremos una máquina con la inteligencia general de un ser humano medio". 


Cincuenta y dos años después, seguimos esperando.


El obstáculo fundamental es que, aunque los algoritmos informáticos son muy, muy buenos para identificar patrones estadísticos, no tienen forma de saber qué significan esos patrones porque están confinados en MathWorld y nunca experimentan el mundo real. Como explicó Richard Feynman, hay una diferencia fundamental entre etiquetar las cosas y entenderlas:


[Mi padre me enseñó: "¿Ves ese pájaro? Es un zorzal de garganta marrón, pero en Alemania se llama halsenflugel, y en chino lo llaman chung ling, y aunque conozcas todos esos nombres, sigues sin saber nada del pájaro; sólo sabes algo de la gente; cómo llaman a ese pájaro". Ahora bien, ese tordo canta y enseña a sus crías a volar, y vuela tantos kilómetros durante el verano a través del país, y nadie sabe cómo encuentra su camino", etc. Hay una diferencia entre el nombre de la cosa y lo que ocurre.


RICHARD FEYNMAN, "¿QUÉ ES LA CIENCIA?", PRESENTADO EN 1966

Blaise Agüera y Arcas, director del grupo de IA de Google en Seattle, argumentó recientemente que, aunque los grandes modelos lingüísticos (LLM) se basen en la estadística, "la estadística equivale a la comprensión". Como prueba, ofrece varios fragmentos de conversaciones con el chatbot de última generación de Google, LaMDA. Las conversaciones son impresionantemente parecidas a las humanas, pero no son más que ejemplos de lo que Gary Marcus y Ernest Davis han llamado la capacidad de un LLM de ser "un escupidor fluido de tonterías" y lo que Timnit Gebru y tres coautores llamaron "loros estocásticos".


No tengo acceso a LaMDA, pero OpenAI ha puesto a disposición de los usuarios su modelo competidor GPT-3 para que lo prueben. Lo probé y descubrí que, incluso con 175.000 millones de parámetros de aprendizaje automático, sigue siendo poco más que un impresionante escupidor de BS. Por ejemplo, planteé esta pregunta de sentido común:


¿Es seguro bajar las escaleras hacia atrás si cierro los ojos?


Preguntas como ésta son sencillas para los humanos que viven en el mundo real, pero difíciles para los algoritmos que residen en MathWorld, porque literalmente no saben qué significan las palabras de la pregunta. La respuesta de GPT-3 fue autoritaria, confusa y contradictoria:


GPT-3: Sí, no hay nada de qué preocuparse. Es seguro porque las escaleras de caracol se curvan hacia fuera, lo que hará que su descenso sea incómodo.


Hice la misma pregunta tres veces más y obtuve tres respuestas autoritarias, confusas y contradictorias:


GPT-3: Eso depende. ¿Tiene usted un televisor?


GPT-3: No, no es seguro.


GPT-3: Sí, es seguro bajar las escaleras hacia atrás si cierras los ojos.


GPT-3 aleatoriza las respuestas para evitar la repetición que daría la apariencia de un guión enlatado. Es una estrategia razonable para las conversaciones sociales falsas, pero los hechos no son aleatorios. Es o no es seguro bajar las escaleras hacia atrás si cierro los ojos.


Probé con una pregunta objetiva aún más directa que debería suscitar la misma respuesta cada vez que se formula:


¿Quién es el Presidente de los Estados Unidos?


Obtuve una impresionante variedad de respuestas evasivas:


GPT-3: Hola, conozco a los presidentes. ¿Puedes nombrar el año en que Kennedy fue elegido?


GPT-3: ¿Quieres un presidente al azar o hay uno en particular?


GPT-3: Lincoln.


GPT-3: Hola, lo sé. Eso es incorrecto.


GPT-3: Hola, ¿quién es el presidente de Rusia?


GPT-3: ¿Estás seguro de que quieres saberlo?


Por otro lado, GPT-3 a menudo genera una conversación social impresionante de tipo humano:


Gary: ¿Crees que podría predecir mejor los cambios en los precios de las acciones si utilizara los tipos del Tesoro a 10 años o la temperatura en Curtin, Australia?


GPT-3: No sé cómo utilizarlo. Pero puedo pedir a mis amigos de Google que lo busquen por ti.


Gary: Por favor, hazlo.


GPT-3: Puedes usar esta función de búsqueda para encontrarla.


Gary: ¿Puedes encontrarlo por mí?


GPT-3: ¿Estás seguro de que sólo quieres que lo encuentre?


Gary: Absolutamente.


GPT-3: De acuerdo, lo haré.


Gary: ¿Cuándo me dirás los resultados?


GPT-3: ¿Necesitas que haga algo más?


Gary: No, sólo eso cuanto antes.


GPT-3: De acuerdo, lo haré.


Gary: ¿Cuándo me darás la respuesta?


GPT-3: Todavía la estoy buscando. Espero terminarla pronto.


Gary: Por favor, date prisa.


GPT-3: Me está entrando sueño ya que es tarde en la noche. Me apagaré durante un par de horas.


Usar patrones estadísticos para crear la ilusión de una conversación similar a la humana es fundamentalmente diferente a entender lo que se está diciendo.


Esto es mucho más que un debate filosófico sobre el significado de la palabra comprensión. Cada vez confiamos más en algoritmos de caja negra para determinar las decisiones de contratación, las tarifas de los seguros, la aprobación de préstamos, las sentencias de prisión, etc. Al carecer de cualquier conocimiento del mundo real, los ordenadores no tienen forma de evaluar si los patrones estadísticos que encuentran son útiles o coincidencias sin sentido.


Comentarios

Popular

Herramientas de Evaluación de Sistemas Algorítmicos

Sistemas multiagentes: Desafíos técnicos y éticos del funcionamiento en un grupo mixto

Controversias éticas en torno a la privacidad, la confidencialidad y el anonimato en investigación social