Medir los sesgos del modelo en ausencia de una verdad fundamental

https://arxiv.org/abs/2103.03417

La medición del sesgo en el aprendizaje automático a menudo se centra en el rendimiento del modelo en los subgrupos de identidad (como el hombre y la mujer) con respecto a las etiquetas de verdad fundamental. Sin embargo, estos métodos no miden directamente las asociaciones que un modelo puede haber aprendido, por ejemplo, entre etiquetas y subgrupos de identidad. Además, medir el sesgo de un modelo requiere un conjunto de datos de evaluación completamente anotado que puede no estar fácilmente disponible en la práctica. Presentamos una elegante solución matemática que aborda ambos problemas simultáneamente, utilizando la clasificación de imágenes como ejemplo de trabajo. Al tratar las predicciones de un modelo de clasificación para una imagen dada como un conjunto de etiquetas análogas a una bolsa de palabras, clasificamos los sesgos que un modelo ha aprendido con respecto a diferentes etiquetas de identidad. Usamos (hombre, mujer) como un ejemplo concreto de un conjunto de etiquetas de identidad (aunque este conjunto no necesita ser binario), y presentamos clasificaciones para las etiquetas que están más sesgadas hacia una identidad u otra. Demostramos cómo las propiedades estadísticas de diferentes métricas de asociación pueden conducir a diferentes clasificaciones de las etiquetas más "sesgadas por género", y concluimos que la información mutua puntual normalizada (nPMI) es más útil en la práctica. Finalmente, anunciamos una herramienta de visualización nPMI de código abierto que utiliza TensorBoard.

Comentarios

Popular

Es hora de que la IA se explique

Ann Cavoukian explica por qué la vigilancia invasiva no debería ser la norma en los entornos urbanos modernos y sostenibles

Gemelos digitales, cerebros virtuales y los peligros del lenguaje