Conjuntos de datos multimodales: misoginia, pornografía y estereotipos malignos

https://arxiv.org/abs/2110.01963

Hemos entrado en la era de los modelos de aprendizaje automático de un billón de parámetros entrenados en conjuntos de datos de mil millones de tamaño extraídos de Internet. El aumento de estos conjuntos de datos gigantescos ha dado lugar a un formidable conjunto de trabajos críticos que han pedido precaución al generar estos grandes conjuntos de datos. En ellos se aborda la preocupación por las dudosas prácticas de curación utilizadas para generar estos conjuntos de datos, la sórdida calidad de los datos de texto alternativo disponibles en la red mundial, el problemático contenido del conjunto de datos CommonCrawl, utilizado a menudo como fuente para el entrenamiento de grandes modelos lingüísticos, y los arraigados sesgos de los modelos visolingüísticos a gran escala (como el modelo CLIP de OpenAI) entrenados en conjuntos de datos opacos (WebImageText). Con el telón de fondo de estas llamadas de atención específicas, examinamos el conjunto de datos LAION-400M, recientemente publicado, que es un conjunto de datos filtrado por CLIP de pares Imagen-Alt-Texto analizados a partir del conjunto de datos Common-Crawl. Descubrimos que el conjunto de datos contiene pares de imágenes y textos problemáticos y explícitos de violación, pornografía, estereotipos malignos, insultos racistas y étnicos, y otros contenidos extremadamente problemáticos. En este trabajo se exponen numerosas implicaciones, preocupaciones y daños derivados del estado actual de los conjuntos de datos a gran escala, al tiempo que se plantean cuestiones abiertas para diversas partes interesadas, como la comunidad de la IA, los reguladores, los responsables políticos y los sujetos de los datos.

Comentarios

Popular

Herramientas de Evaluación de Sistemas Algorítmicos

Sistemas multiagentes: Desafíos técnicos y éticos del funcionamiento en un grupo mixto

Controversias éticas en torno a la privacidad, la confidencialidad y el anonimato en investigación social