La eliminación de conjuntos de datos poco éticos no es suficiente
En 2016, con la esperanza de estimular los avances en el reconocimiento facial, Microsoft publicó la mayor base de datos de rostros del mundo. Llamada MS-Celeb-1M, contenía 10 millones de imágenes de 100.000 rostros de famosos. Sin embargo, la definición de "famoso" era poco precisa.
Tres años después, los investigadores Adam Harvey y Jules LaPlace revisaron el conjunto de datos y encontraron a muchas personas corrientes, como periodistas, artistas, activistas y académicos, que mantienen una presencia en Internet por su vida profesional. Ninguno había dado su consentimiento para ser incluido y, sin embargo, sus rostros se habían colado en la base de datos y fuera de ella; la investigación con la recopilación de rostros fue realizada por empresas como Facebook, IBM, Baidu y SenseTime, uno de los mayores gigantes del reconocimiento facial en China, que vende su tecnología a la policía china.
Poco después de la investigación de Harvey y LaPlace, y tras recibir críticas de los periodistas, Microsoft retiró el conjunto de datos, declarando simplemente: "El reto de la investigación ha terminado". Pero la preocupación por la privacidad que generó persiste en una tierra de Internet para siempre. Y este caso no es el único.
El raspado de la web en busca de imágenes y texto se consideraba antes una estrategia inventiva para recopilar datos del mundo real. Ahora, leyes como el GDPR (reglamento europeo de protección de datos) y la creciente preocupación pública por la privacidad de los datos y la vigilancia han convertido esta práctica en algo legalmente arriesgado e indecoroso. Como resultado, los investigadores de IA se han retractado cada vez más de los conjuntos de datos que crearon de esta manera.
Pero un nuevo estudio muestra que esto no ha servido para evitar que los datos problemáticos proliferen y se utilicen. Los autores seleccionaron tres de los conjuntos de datos más citados que contienen rostros o personas, dos de los cuales habían sido retirados; rastrearon las formas en que cada uno había sido copiado, utilizado y reutilizado en cerca de 1.000 artículos.
En el caso de MS-Celeb-1M, todavía existen copias en sitios de terceros y en conjuntos de datos derivados construidos sobre el original. Los modelos de código abierto preentrenados con los datos también están disponibles. El conjunto de datos y sus derivados también fueron citados en cientos de artículos publicados entre seis y 18 meses después de la retracción.
DukeMTMC, un conjunto de datos que contenía imágenes de personas caminando por el campus de la Universidad de Duke y que fue retirado el mismo mes que MS-Celeb-1M, persiste igualmente en conjuntos de datos derivados y en cientos de citas de artículos.
La lista de lugares en los que persisten los datos es "más amplia de lo que habíamos pensado inicialmente", afirma Kenny Peng, estudiante de segundo año de Princeton y coautor del estudio. E incluso eso, dice, es probablemente una subestimación, porque las citas en los artículos de investigación no siempre tienen en cuenta las formas en que los datos pueden ser utilizados comercialmente.
Un poco de locura
Parte del problema, según el documento de Princeton, es que quienes elaboran conjuntos de datos pierden rápidamente el control de sus creaciones.
Los conjuntos de datos que se publican con un propósito pueden ser rápidamente cooptados para otros que nunca fueron pensados o imaginados por los creadores originales. MS-Celeb-1M, por ejemplo, estaba destinado a mejorar el reconocimiento facial de los famosos, pero desde entonces se ha utilizado para el reconocimiento facial más general y el análisis de rasgos faciales, según los autores. También se ha reetiquetado o reprocesado en conjuntos de datos derivados como Racial Faces in the Wild, que agrupa sus imágenes por raza, abriendo la puerta a aplicaciones controvertidas.
*** Translated with www.DeepL.com/Translator (free version) ***
Comentarios
Publicar un comentario