Por qué la IA tiene dificultades para reconocer el discurso tóxico en las redes sociales

https://hai.stanford.edu/news/why-ai-struggles-recognize-toxic-speech-social-media

Facebook afirma que sus modelos de inteligencia artificial identificaron y retiraron 27 millones de mensajes de odio en los últimos tres meses de 2020. En el 97% de los casos, los sistemas actuaron antes de que los humanos hubieran marcado las publicaciones.


Se trata de un gran avance, y todas las demás grandes plataformas de redes sociales están utilizando sistemas basados en la IA de forma similar. Dado que la gente publica cientos de millones de artículos cada día, desde comentarios y memes hasta artículos, no hay una alternativa real. Ningún ejército de moderadores humanos podría seguir el ritmo por sí solo.


Pero un equipo de investigadores de interacción humano-ordenador e IA de Stanford arroja nueva luz sobre por qué la policía de la palabra automatizada puede obtener una puntuación muy precisa en las pruebas técnicas y, sin embargo, provocar un gran descontento en los humanos con sus decisiones.  El principal problema: hay una gran diferencia entre la evaluación de tareas de IA más tradicionales, como el reconocimiento del lenguaje hablado, y la tarea mucho más complicada de identificar el discurso de odio, el acoso o la desinformación, especialmente en el entorno polarizado actual.


Lea el estudio: The Disagreement Deconvolution: Cómo adecuar las métricas de rendimiento del aprendizaje automático a la realidad


 


"Parece como si los modelos obtuvieran puntuaciones casi perfectas, por lo que algunas personas piensan que pueden utilizarlos como una especie de caja negra para comprobar la toxicidad", dice Mitchell Gordon, candidato a doctor en ciencias de la computación que trabajó en el proyecto. "Pero no es así. Están evaluando estos modelos con enfoques que funcionan bien cuando las respuestas son bastante claras, como reconocer si 'java' significa café o el lenguaje del ordenador, pero estas son tareas en las que las respuestas no están claras".


El equipo espera que su estudio ponga de manifiesto el abismo existente entre lo que los desarrolladores creen que están consiguiendo y la realidad, y quizá les ayude a desarrollar sistemas que se enfrenten con más cuidado a los desacuerdos inherentes al discurso tóxico.


Demasiado desacuerdo

No hay soluciones sencillas, porque nunca habrá un acuerdo unánime sobre cuestiones muy controvertidas. Para complicar aún más las cosas, las personas suelen ser ambivalentes e incoherentes en cuanto a su reacción ante un contenido concreto.


En un estudio, por ejemplo, los anotadores humanos rara vez llegaron a un acuerdo cuando se les pidió que etiquetaran tuits que contenían palabras de un léxico de incitación al odio. Sólo el 5 por ciento de los tuits fueron reconocidos por la mayoría como incitación al odio, mientras que sólo el 1,3 por ciento recibió veredictos unánimes. En un estudio sobre el reconocimiento de la desinformación, en el que se dieron declaraciones sobre hechos supuestamente ciertos, sólo el 70% estuvo de acuerdo en si la mayoría de los hechos habían ocurrido o no.


A pesar de este reto para los moderadores humanos, los modelos convencionales de IA consiguen altas puntuaciones en el reconocimiento de discursos tóxicos: 0,95 "ROCAUC", una métrica popular para evaluar los modelos de IA en la que 0,5 significa pura adivinación y 1,0 un rendimiento perfecto. Pero el equipo de Stanford descubrió que la puntuación real es mucho más baja -como mucho 0,73- si se tiene en cuenta el desacuerdo entre los anotadores humanos.

*** Translated with www.DeepL.com/Translator (free version) ***


Comentarios

Popular

Herramientas de Evaluación de Sistemas Algorítmicos

Sistemas multiagentes: Desafíos técnicos y éticos del funcionamiento en un grupo mixto

Controversias éticas en torno a la privacidad, la confidencialidad y el anonimato en investigación social