La traducción automática es desesperadamente sexista, pero no culpes al algoritmo ni a los datos de entrenamiento.

https://algorithmwatch.org/en/automated-translation-sexist/

Desde que se lanzó Google Translate a fines de la década de 2000, los usuarios notaron que se equivocaba en el género. A principios de la década de 2010, algunos usuarios de Twitter expresaron su indignación porque la frase "los hombres deberían limpiar la cocina" se tradujo a "Frauen sollten die Küche sauber" en alemán, que significa "las mujeres deberían limpiar (sic) la cocina".


Diez años después, la traducción automática mejoró drásticamente. "Los hombres deben limpiar la cocina" ahora está traducido correctamente a los 107 idiomas que ofrece Google Translate. Pero quedan muchos problemas.


Google traduce constantemente la frase francesa "une historienne écrit un livre" (una historiadora escribe un libro) a la forma masculina en idiomas con inflexión de género. El error surge de la dependencia de Google del inglés como eje, como AlgorithmWatch mostró anteriormente. Al traducir entre idiomas con inflexión de género, Google primero traduce al inglés, que tiene pocos marcadores de género (por ejemplo, "un historiador" podría ser una persona de cualquier género). Luego, la versión en inglés se traduce al idioma de destino. En este paso, Google Translate adivina el género en función de los datos que recibió durante el entrenamiento.


Estos errores no son inherentes a la traducción automática. Algunos servicios, como Bing Translator o eTranslation de la Comisión Europea, aceptan la existencia de historiadoras.


Hay más. En uno de los dominios específicos de eTranslation, la "jurisprudencia de la propiedad intelectual", los pronombres que son neutrales al género en un idioma no se les asigna un género en el idioma de destino. La frase "hän hoitaa lapsia" en finlandés se traduce como "él / ella cuida a los niños". Otros servicios asignan un género, generalmente femenino, al sujeto de esa oración.


Solo los datos de entrenamiento

Markus Foti encabeza el equipo de 20 personas detrás de eTranslation. Cuando le pregunté cómo lograron proporcionar traducciones más precisas que otros, al menos en lo que respecta al género, se apresuró a señalar que, de hecho, no hacían mucha ingeniería. “El resultado es el resultado de lo que el modelo aprende de los datos utilizados para entrenarlo”, me dijo.


La Comisión Europea creó varios conjuntos de datos desde cero. El uso de "él / ella" para traducir el finlandés "hän" no es una decisión consciente del personal de eTranslation. Más bien, todo se reduce a las decisiones tomadas por los traductores que se especializan en la jurisprudencia de la propiedad intelectual y que tradujeron las numerosas resoluciones que luego se incorporaron a un conjunto de datos de capacitación.


Foti explicó que no sería práctico forzar tales alternativas de género en todos los modelos. Los idiomas que codifican el género de formas más complejas que el inglés (por ejemplo, en las terminaciones de palabras) serían un desafío, sin mencionar que los resultados serían difíciles de leer.


Dentro de ParaCrawl

Para Foti, los datos de formación siguen siendo el factor principal de los resultados sexistas de los servicios de traducción automática. Uno de estos conjuntos de datos es ParaCrawl, que es mantenido por varias universidades europeas y utilizado, entre otros, por eTranslation.


Cualquiera puede descargar estos conjuntos de datos de formación del sitio web paracrawl.eu. Elegí el que tenía pares francés-inglés. Con más de 100 millones de frases y 2 mil millones de palabras, es la oferta más grande. Usé grep, una herramienta de línea de comandos, para explorar el archivo de 26 gigabytes.


El conjunto de datos contiene un millón de frases que contienen la palabra "homme" (hombre) y 900.000 frases que contienen "femme" (mujer). La diferencia es solo una décima parte de un porcentaje del número total de frases. Pero no se distribuye por igual.

Comentarios

Popular

Es hora de que la IA se explique

Ann Cavoukian explica por qué la vigilancia invasiva no debería ser la norma en los entornos urbanos modernos y sostenibles

Gemelos digitales, cerebros virtuales y los peligros del lenguaje