Los conjuntos de datos de IA son propensos a la mala gestión, según un estudio

https://venturebeat.com/2021/08/11/ai-datasets-are-prone-to-mismanagement-study-finds/

Los conjuntos de datos públicos, como el DukeMTMC de la Universidad de Duke, se utilizan a menudo para entrenar, probar y afinar los algoritmos de aprendizaje automático que llegan a la producción, a veces con resultados controvertidos. Es un secreto a voces que los sesgos en estos conjuntos de datos pueden afectar negativamente a las predicciones realizadas por un algoritmo, por ejemplo, haciendo que un sistema de reconocimiento facial identifique erróneamente a una persona. Sin embargo, un estudio reciente, del que son coautores investigadores de Princeton, revela que los conjuntos de datos de visión por ordenador, en particular los que contienen imágenes de personas, presentan una serie de problemas éticos.


En general, la comunidad del aprendizaje automático reconoce ahora que mitigar los daños asociados a los conjuntos de datos es un objetivo importante. Pero estos esfuerzos podrían ser más eficaces si se basaran en la comprensión de cómo se utilizan los conjuntos de datos en la práctica, afirman los coautores del informe. Su estudio analizó casi 1.000 artículos de investigación que citan tres conjuntos de datos destacados -DukeMTMC, Labeled Faces in the Wild (LFW) y MS-Celeb-1M- y sus conjuntos de datos derivados, así como los modelos entrenados con los conjuntos de datos. La conclusión más importante es que la creación de derivados y modelos y la falta de claridad en cuanto a la concesión de licencias introducen importantes problemas éticos.

Comentarios

Popular

Es hora de que la IA se explique

Ann Cavoukian explica por qué la vigilancia invasiva no debería ser la norma en los entornos urbanos modernos y sostenibles

Gemelos digitales, cerebros virtuales y los peligros del lenguaje