Por qué necesitamos nuevos puntos de referencia para la IA

https://www.wsj.com/articles/why-we-need-new-benchmarks-for-ai-11617634800

¿Cómo se mide la inteligencia artificial?


Desde que la idea se afianzó por primera vez en la década de 1950, los investigadores han medido el progreso de la IA mediante el establecimiento de puntos de referencia, como la capacidad de reconocer imágenes, crear oraciones y jugar juegos como el ajedrez. Estos puntos de referencia han demostrado ser una forma útil de determinar si la IA es más capaz de hacer más cosas y de impulsar a los investigadores a crear herramientas de IA que sean aún más útiles.


En los últimos años, los sistemas de IA han superado muchas de las pruebas propuestas por los investigadores, superando a los humanos en muchas tareas. Para los investigadores, la misión ahora es crear puntos de referencia que puedan capturar los tipos más amplios de inteligencia que podrían hacer que la IA sea realmente útil; puntos de referencia, por ejemplo, que pueden reflejar habilidades esquivas como el razonamiento, la creatividad y la capacidad de aprender. Por no hablar de áreas como la inteligencia emocional que son bastante difíciles de medir en humanos.


Un sistema de inteligencia artificial, por ejemplo, puede funcionar lo suficientemente bien como para que los humanos no siempre puedan saber si, digamos, una imagen o un párrafo fue creado por un humano o una máquina. O pregúntele a un sistema de inteligencia artificial que ganó el Oscar a la mejor actriz el año pasado y no tendría ningún problema. Pero pregunte por qué ganó la actriz y la IA se quedará perpleja. Le faltaría el razonamiento, la contextualización, la comprensión emocional que se necesita para responder adecuadamente.


"Hemos hecho la parte fácil", dice Jack Clark, copresidente del AI Index, un informe de la Universidad de Stanford que rastrea el desarrollo de la IA. "La gran pregunta es, ¿cómo serán los puntos de referencia realmente ambiciosos en el futuro y qué miden?"


Después de todo, dice, "Hay una gran diferencia entre decirme la respuesta correcta y decirme la respuesta correcta con una muy buena explicación".


La prueba de Turing

Una mirada retrospectiva a los puntos de referencia ofrece una ilustración vívida de lo lejos que ha llegado la IA y los desafíos que aún enfrenta.


El primer punto de referencia vino del científico informático inglés Alan Turing. En 1950, el Sr. Turing escribió: "Propongo considerar la pregunta: '¿Pueden pensar las máquinas?'" Para determinar eso, describió un experimento, más tarde denominado Prueba de Turing, en el que un juez humano considera una conversación entre una persona y una máquina diseñada para generar respuestas similares a las humanas. Si el juez no puede identificar correctamente qué conversador es el humano, la máquina pasa lo que el Sr. Turing llamó el Juego de Imitación.


Tratar de aprobar la prueba de Turing era el objetivo de los primeros esfuerzos de inteligencia artificial (aunque, según Michael Wooldridge, jefe del departamento de informática de la Universidad de Oxford, el propio Turing lo consideraba en gran parte un experimento mental).


No fue hasta la década de 1990 cuando los investigadores comenzaron a cambiar los puntos de referencia de igualar la inteligencia humana a superarla en tareas específicas, según el profesor Wooldridge. “Si quiere que un programa haga algo por usted, no hay razón para que sea humano”, dice. "Lo que quieres que haga es tomar la mejor decisión posible".


Se hicieron algunos avances, incluido un programa informático de IBM que venció al campeón de ajedrez Garry Kasparov en 1997, un punto de referencia que se consideró un salto adelante en el desarrollo de la inteligencia artificial.


La primavera de la IA

Pero los avances realmente se recuperaron en la reciente "primavera de la IA", que muchos fecharían como a partir de 2012. Ese fue el año del Desafío ImageNet: una prueba para ver si un algoritmo podía detectar e identificar correctamente lo que se mostraba en las fotos contenidas en una base de datos de 14 millones de imágenes: vio un gran avance. AlexNet, un tipo de algoritmo de inteligencia artificial llamado red neuronal, obtuvo una tasa de error del 15,3%, una puntuación 10,8 puntos porcentuales más baja que el mejor intento anterior. Después de que la mayoría de los competidores tuvieran tasas de error inferiores al 5% en 2017, los investigadores detrás del concurso dijeron que trabajarían en una versión nueva y más desafiante.


En los últimos dos años, los sistemas que pueden comprender el lenguaje natural, así como los que pueden descifrar con precisión imágenes y videos digitales, han superado una sucesión de puntos de referencia. Por ejemplo, en 2018, se lanzó un punto de referencia llamado GLUE, que requiere que los sistemas de inteligencia artificial pasen pruebas como reconocer si las oraciones se parafrasean entre sí y determinar si una crítica de películas es positiva, negativa o neutral. Muchas de estas tareas fueron superadas tan rápidamente que los investigadores lo elevaron a SuperGLUE a fines de 2019. Para enero de este año, los investigadores que trabajaban para crear sistemas para superar el punto de referencia SuperGLUE ya habían superado lo que la mayoría de los humanos son capaces de hacer.


Estas líneas de tiempo cada vez más rápidas para superar los puntos de referencia hacen que los investigadores pidan estructurar los puntos de referencia de una manera que pueda mantenerse al día con el ritmo de la innovación en IA.

Comentarios

Popular

Herramientas de Evaluación de Sistemas Algorítmicos

Sistemas multiagentes: Desafíos técnicos y éticos del funcionamiento en un grupo mixto

Controversias éticas en torno a la privacidad, la confidencialidad y el anonimato en investigación social