Los conjuntos de datos plagados de errores están deformando nuestro sentido de lo buena que es realmente la IA

https://www.technologyreview.com/2021/04/01/1021619/ai-data-errors-warp-machine-learning-progress/

Los 10 conjuntos de datos de IA más citados están plagados de errores de etiqueta, según un nuevo estudio del MIT, y está distorsionando nuestra comprensión del progreso del campo.


Red troncal de datos: los conjuntos de datos son la columna vertebral de la investigación de la IA, pero algunos son más críticos que otros. Hay un conjunto básico de ellos que los investigadores utilizan para evaluar los modelos de aprendizaje automático como una forma de rastrear cómo avanzan las capacidades de IA con el tiempo. Uno de los más conocidos es el conjunto de datos canónicos de reconocimiento de imágenes ImageNet, que inició la revolución de la IA moderna. También está el MNIST, que recopila imágenes de números escritos a mano entre 0 y 9. Otros conjuntos de datos prueban modelos entrenados para reconocer audio, texto y dibujos a mano.



Regístrese para The Download: su dosis diaria de lo que está sucediendo en tecnología emergente

Ingrese su correo electrónico, reciba el boletín

Regístrate

¿Mantenerse actualizado sobre las iniciativas y eventos de MIT Technology Review?

No

Sí, pero: En los últimos años, los estudios han encontrado que estos conjuntos de datos pueden contener fallas graves. ImageNet, por ejemplo, contiene etiquetas racistas y sexistas, así como fotografías de rostros de personas obtenidas sin consentimiento. El último estudio ahora analiza otro problema: muchas de las etiquetas están completamente equivocadas. Un hongo está etiquetado como una cuchara, una rana está etiquetada como un gato y una nota alta de Ariana Grande está etiquetada como un silbato. El equipo de prueba ImageNet tiene una tasa de error de etiqueta estimada del 5,8%. Mientras tanto, el conjunto de prueba para QuickDraw, una compilación de dibujos a mano, tiene una tasa de error estimada del 10,1%.


¿Cómo se midió? Cada uno de los 10 conjuntos de datos utilizados para evaluar modelos tiene un conjunto de datos correspondiente que se utiliza para entrenarlos. Los investigadores, los estudiantes graduados del MIT Curtis G. Northcutt y Anish Athalye y el alumno Jonas Mueller, usaron los conjuntos de datos de entrenamiento para desarrollar un modelo de aprendizaje automático y luego lo usaron para predecir las etiquetas en los datos de prueba. Si el modelo no estaba de acuerdo con la etiqueta original, el punto de datos se marcó para revisión manual. Se pidió a cinco revisores humanos de Amazon Mechanical Turk que votaran sobre qué etiqueta, la del modelo o la original, pensaban que era correcta. Si la mayoría de los revisores humanos estaban de acuerdo con el modelo, la etiqueta original se contabilizó como un error y luego se corrigió.


¿Importa esto? Si. Los investigadores observaron 34 modelos cuyo rendimiento se había medido previamente con el conjunto de pruebas de ImageNet. Luego, volvieron a medir cada modelo frente a los aproximadamente 1.500 ejemplos en los que se encontró que las etiquetas de datos eran incorrectas. Descubrieron que los modelos que no funcionaban tan bien con las etiquetas originales incorrectas eran algunos de los que tenían mejor rendimiento después de que se corrigieran las etiquetas. En particular, los modelos más simples parecían tener mejores resultados en los datos corregidos que los modelos más complicados que utilizan los gigantes tecnológicos como Google para el reconocimiento de imágenes y se supone que son los mejores en el campo. En otras palabras, es posible que tengamos una sensación inflada de cuán geniales son estos modelos complicados debido a datos de prueba defectuosos.


¿Ahora que? Northcutt anima al campo de la IA a crear conjuntos de datos más limpios para evaluar modelos y rastrear el progreso del campo. También recomienda que los investigadores mejoren la higiene de sus datos cuando trabajen con sus propios datos. De lo contrario, dice, "si tiene un conjunto de datos ruidoso y un montón de modelos que está probando, y los va a implementar en el mundo real", podría terminar seleccionando el modelo incorrecto. Con este fin, abrió el código que usó en su estudio para corregir errores de etiquetas, que según él ya está en uso en algunas de las principales empresas de tecnología. 

Comentarios

Popular

Herramientas de Evaluación de Sistemas Algorítmicos

Sistemas multiagentes: Desafíos técnicos y éticos del funcionamiento en un grupo mixto

Controversias éticas en torno a la privacidad, la confidencialidad y el anonimato en investigación social