Los límites del crecimiento: ¿Puede dominarse el voraz apetito de datos de la IA?

https://undark.org/2021/10/18/computer-scientists-try-to-sidestep-ai-data-dilemma/

EN LA PRIMAVERA DE 2019, los conjuntos de datos de inteligencia artificial comenzaron a desaparecer de Internet. Tales colecciones -normalmente gigabytes de imágenes, vídeo, audio o datos de texto- son la base de la forma cada vez más omnipresente y rentable de IA conocida como aprendizaje automático, que puede imitar varios tipos de juicios humanos, como el reconocimiento facial.


En abril, fue el MS-Celeb-1M de Microsoft, compuesto por 10 millones de imágenes de rostros de 100.000 personas -muchos de ellos famosos, como su nombre indica, pero también muchos que no eran figuras públicas- recogidas de sitios de Internet. En junio, los investigadores de la Universidad de Duke retiraron su conjunto de datos multiobjetivo y multicámara (DukeMTMC), que consistía en imágenes tomadas de vídeos, en su mayoría de estudiantes, grabados en una concurrida intersección del campus durante 14 horas en un día de 2014. Por la misma época, la gente informó de que ya no podía acceder a Diversity in Faces, un conjunto de datos de más de un millón de imágenes faciales recopiladas de Internet, publicado a principios de 2019 por un equipo de investigadores de IBM.


En total, alrededor de una docena de conjuntos de datos de IA se desvanecieron, borrados apresuradamente por sus creadores después de que investigadores, activistas y periodistas expusieran una serie de problemas con los datos y las formas en que se utilizaron, desde la privacidad, hasta el sesgo de raza y género, y los problemas con los derechos humanos.



RELACIONADO

Cómo la inteligencia artificial podría ayudar a los médicos

Los problemas se originan en las prácticas mundanas de la codificación informática. El aprendizaje automático revela patrones en los datos: estos algoritmos aprenden, por ejemplo, a identificar las características comunes de las "tazas" a partir del procesamiento de muchísimas fotos de tazas. Además de los sistemas de reconocimiento facial, está detrás de las noticias de Facebook y la orientación de los anuncios, los asistentes digitales como Siri y Alexa, los sistemas de guiado de vehículos autónomos, algunos diagnósticos médicos, etc.


Para aprender, los algoritmos necesitan conjuntos de datos masivos. Pero a medida que las aplicaciones se hacen más variadas y complejas, la creciente demanda de datos está exigiendo unos costes sociales cada vez mayores. Algunos de estos problemas son bien conocidos, como el sesgo demográfico de muchos conjuntos de datos de reconocimiento facial hacia sujetos blancos y masculinos, un sesgo que se transmite a los algoritmos.


Pero hay una crisis de datos más amplia en el aprendizaje automático. A medida que los conjuntos de datos de aprendizaje automático se amplían, se vulnera cada vez más la privacidad al utilizar imágenes, texto u otro material extraído sin el consentimiento del usuario; se reciclan contenidos tóxicos y son la fuente de otros sesgos y juicios erróneos más impredecibles.

*** Translated with www.DeepL.com/Translator (free version) ***


Comentarios

Popular

Herramientas de Evaluación de Sistemas Algorítmicos

Sistemas multiagentes: Desafíos técnicos y éticos del funcionamiento en un grupo mixto

Controversias éticas en torno a la privacidad, la confidencialidad y el anonimato en investigación social