Equidad Algorítmica: Dificultades y Alguna Solución
Aniceto Pérez y Madrid
La toma de decisiones en el mundo real es compleja. Habitualmente las decisiones humanas tienen diversos objetivos que alcanzar y el proceso consiste en ponderar en cada caso los condicionantes en función del contexto.
Los modelos de aprendizaje automático aspiran a ser capaces de lograr automatizar la toma de decisiones de una forma próxima a la humana. Así, los procesos serían más rápidos y más uniformes. Para crear modelos que tomen decisiones similares a las humanas se utilizan ejemplos con datos de decisiones pasadas tomadas por decisores humanos.
Al aplicar en la vida real los modelos obtenidos de ese modo se han detectado problemas: resultados inesperados y promedios estadísticos de los resultados muy sesgados. Al investigar causas se ha visto que los datos de decisiones anteriores estaban sesgados. Esto ha hecho surgir inquietudes sobre estos modelos y dudas sobre la forma en que se han estado tomando decisiones. Si el modo “humano” de decisión está sesgado, los modelos automáticos no sólo continúan y perpetúan ese modo, sino que además, como se ha demostrado, frecuentemente lo acentúan.
Los modelos se crean a partir de algoritmos que extraen los patrones de correlación de los datos. Son procedimientos matemáticos que, mediante ajustes en la configuración, logran resultados con error mínimo en promedio.
Muchos estudios consideran que la medida de la equidad del modelo es cuánto se ajusta el promedio de los resultados obtenidos al esperado respecto a un objetivo concreto. Por ejemplo, la concesión de préstamos a miembros de un sexo concreto. Por eso, hay quienes defienden que esos problemas se pueden resolver con ajustes. En realidad no es un problema de funcionamiento, es que los modelos funcionan así. Se pueden identificar diversas causas: 1) los modelos se crean con datos históricos de decisiones tomadas por humanos; si esas decisiones estaban sesgadas, lo que “aprenda” el modelo estará sesgado; 2) los algoritmos que crean modelos, extraen patrones de los datos de aprendizaje a partir de muchas variables y multitud de ejemplos; los algoritmos son muy poderosos, pero los humanos no somos capaces de llegar a conocer o explicar cómo el modelo en cada caso concreto obtiene el resultado; y 3) los predictores de discriminación de un grupo social están complejamente entrelazados con las demás variables predictoras, así que es difícil eliminar esa discriminación.
Los algoritmos de creación de modelos son muy buenos. Son capaces de “triangular” las variables suministradas para obtener información que se pretendía eliminar de la ecuación, como la raza o el sexo. Existen diversos algoritmos y cada uno se comporta de forma distinta para cada criterio, así que no es posible encontrar el mejor modelo absoluto.
Sehn Al Lee y Floridi(1) han hecho un estudio usando datos públicos de préstamos en EEUU. Su artículo plantea dos objetivos para la concesión de préstamos: la concesión a población negra e inclusión financiera, es decir conceder más préstamos, lo que significa más negocio. Tras analizar los modelos obtenidos mediante cinco algoritmos, cada uno de ellos proporciona un promedio distinto de inclusión financiera y de concesión de préstamos a población negra. Además, aunque se elimine la raza de las variables, el resultado es muy parecido ya que las demás variables incluyen de alguna manera compleja esa información.
Un técnica habitual es equilibrar los datos de entrada, bien generando datos sintéticos de los grupos menos representados, bien muestreando los más representados. En cualquier caso, como explican Kearns y Roth(2) , no es posible lograr equidad y precisión simultáneamente.
La realidad es que no es posible establecer la equidad de un modelo como un número absoluto. Hay que establecer compromisos entre los objetivos.
Sehn Al Lee y Floridi proponen un compromiso: representar en un gráfico de dos dimensiones los promedios de los resultados obtenidos por cada modelo (inclusión financiera y concesión a población negra) y que el prestamista decida qué área del gráfico le interesa y de ahí decida el modelo a usar.
Ampliando esa conclusión, si en una aplicación se consideran varios objetivos podrían obtenerse promedios de cumplimiento de esos objetivos para cada modelo y, del mismo modo que antes, una vez que se ha seleccionado el espacio que cumple los objetivos buscados, elegir en ese área multidimensional el modelo.
El compromiso entre objetivos, lo habitual en la toma de decisiones, aporta cierta transparencia y equidad al proceso aunque la explicabilidad seguirá dependiendo del algoritmo elegido. Es posible que en una aplicación determinada, con más ejemplos, más historial y más variables, y quizás también nuevos algoritmos, los resultados promedios o los objetivos cambien y se decida usar otro modelo.
No hay una fórmula mágica para asegurar que los resultados de un sistema de toma de decisiones automatizado sean equitativos. Ni siquiera es posible asegurar que un sistema inteligente, complejo de entrenar, tenga que ser mejor en una aplicación concreta que un sistema lineal más simple y completamente explicable.
El Libro Blanco de la Inteligencia Artificial de la Unión Europea3 prevé que en las aplicaciones de “alto riesgo” debe haber supervisión humana. En mi opinión, esa supervisión debería estar tanto en la preparación del modelo como en la operación. El modelo inteligente puede aligerar la evaluación de circunstancias complejas, y su resultado debería ser un dato relevante para la parte realmente inteligente de todo el proceso, el que toma la decisión: el ser humano. De este modo se resuelven las dos cuestiones importantes de la justicia en la toma de decisiones: explicabilidad y responsabilidad.
Lo que se puede concluir de estos estudios es que la aplicación de algoritmos estadísticos para agilizar y automatizar la toma de decisiones no debe realizarse a la ligera sin un estudio extensivo. La automatización inteligente permite agilizar los procesos burocráticos y puede mejorar la sociedad enormemente, pero también puede extender la injusticia y la falta de rendimiento de cuentas y de responsabilidad como una pandemia.
Referencias
1. Michell Sehn Al Lee y Luciano Floridi. 2020. Algorithmic fairness in mortgage lending: from absolute conditions to relational trade-offs https://www.academia.edu/42297780/Algorithmic_fairness_in_mortgage_lending_from_absolute_conditions_to_relational_trade-offs?email_work_card=thumbnail-desktop
2. Michael Kearns y Aaron. 2020. The Ethical Algorithm: The Science of Socially Aware Algorithm Design https://www.amazon.es/Ethical-Algorithm-Science-Socially-English-ebook/dp/B07XLTXBXV/ref=tmm_kin_swatch_0?_encoding=UTF8&qid=1585504170&sr=8-1
3. WHITE PAPER. On Artificial Intelligence - A European approach to excellence and trust. 2020. https://ec.europa.eu/info/sites/info/files/commission-white-paper-artificial-intelligence-feb2020_en.pdf
La toma de decisiones en el mundo real es compleja. Habitualmente las decisiones humanas tienen diversos objetivos que alcanzar y el proceso consiste en ponderar en cada caso los condicionantes en función del contexto.
Los modelos de aprendizaje automático aspiran a ser capaces de lograr automatizar la toma de decisiones de una forma próxima a la humana. Así, los procesos serían más rápidos y más uniformes. Para crear modelos que tomen decisiones similares a las humanas se utilizan ejemplos con datos de decisiones pasadas tomadas por decisores humanos.
Al aplicar en la vida real los modelos obtenidos de ese modo se han detectado problemas: resultados inesperados y promedios estadísticos de los resultados muy sesgados. Al investigar causas se ha visto que los datos de decisiones anteriores estaban sesgados. Esto ha hecho surgir inquietudes sobre estos modelos y dudas sobre la forma en que se han estado tomando decisiones. Si el modo “humano” de decisión está sesgado, los modelos automáticos no sólo continúan y perpetúan ese modo, sino que además, como se ha demostrado, frecuentemente lo acentúan.
Los modelos se crean a partir de algoritmos que extraen los patrones de correlación de los datos. Son procedimientos matemáticos que, mediante ajustes en la configuración, logran resultados con error mínimo en promedio.
Muchos estudios consideran que la medida de la equidad del modelo es cuánto se ajusta el promedio de los resultados obtenidos al esperado respecto a un objetivo concreto. Por ejemplo, la concesión de préstamos a miembros de un sexo concreto. Por eso, hay quienes defienden que esos problemas se pueden resolver con ajustes. En realidad no es un problema de funcionamiento, es que los modelos funcionan así. Se pueden identificar diversas causas: 1) los modelos se crean con datos históricos de decisiones tomadas por humanos; si esas decisiones estaban sesgadas, lo que “aprenda” el modelo estará sesgado; 2) los algoritmos que crean modelos, extraen patrones de los datos de aprendizaje a partir de muchas variables y multitud de ejemplos; los algoritmos son muy poderosos, pero los humanos no somos capaces de llegar a conocer o explicar cómo el modelo en cada caso concreto obtiene el resultado; y 3) los predictores de discriminación de un grupo social están complejamente entrelazados con las demás variables predictoras, así que es difícil eliminar esa discriminación.
Los algoritmos de creación de modelos son muy buenos. Son capaces de “triangular” las variables suministradas para obtener información que se pretendía eliminar de la ecuación, como la raza o el sexo. Existen diversos algoritmos y cada uno se comporta de forma distinta para cada criterio, así que no es posible encontrar el mejor modelo absoluto.
Sehn Al Lee y Floridi(1) han hecho un estudio usando datos públicos de préstamos en EEUU. Su artículo plantea dos objetivos para la concesión de préstamos: la concesión a población negra e inclusión financiera, es decir conceder más préstamos, lo que significa más negocio. Tras analizar los modelos obtenidos mediante cinco algoritmos, cada uno de ellos proporciona un promedio distinto de inclusión financiera y de concesión de préstamos a población negra. Además, aunque se elimine la raza de las variables, el resultado es muy parecido ya que las demás variables incluyen de alguna manera compleja esa información.
Un técnica habitual es equilibrar los datos de entrada, bien generando datos sintéticos de los grupos menos representados, bien muestreando los más representados. En cualquier caso, como explican Kearns y Roth(2) , no es posible lograr equidad y precisión simultáneamente.
La realidad es que no es posible establecer la equidad de un modelo como un número absoluto. Hay que establecer compromisos entre los objetivos.
Sehn Al Lee y Floridi proponen un compromiso: representar en un gráfico de dos dimensiones los promedios de los resultados obtenidos por cada modelo (inclusión financiera y concesión a población negra) y que el prestamista decida qué área del gráfico le interesa y de ahí decida el modelo a usar.
Ampliando esa conclusión, si en una aplicación se consideran varios objetivos podrían obtenerse promedios de cumplimiento de esos objetivos para cada modelo y, del mismo modo que antes, una vez que se ha seleccionado el espacio que cumple los objetivos buscados, elegir en ese área multidimensional el modelo.
El compromiso entre objetivos, lo habitual en la toma de decisiones, aporta cierta transparencia y equidad al proceso aunque la explicabilidad seguirá dependiendo del algoritmo elegido. Es posible que en una aplicación determinada, con más ejemplos, más historial y más variables, y quizás también nuevos algoritmos, los resultados promedios o los objetivos cambien y se decida usar otro modelo.
No hay una fórmula mágica para asegurar que los resultados de un sistema de toma de decisiones automatizado sean equitativos. Ni siquiera es posible asegurar que un sistema inteligente, complejo de entrenar, tenga que ser mejor en una aplicación concreta que un sistema lineal más simple y completamente explicable.
El Libro Blanco de la Inteligencia Artificial de la Unión Europea3 prevé que en las aplicaciones de “alto riesgo” debe haber supervisión humana. En mi opinión, esa supervisión debería estar tanto en la preparación del modelo como en la operación. El modelo inteligente puede aligerar la evaluación de circunstancias complejas, y su resultado debería ser un dato relevante para la parte realmente inteligente de todo el proceso, el que toma la decisión: el ser humano. De este modo se resuelven las dos cuestiones importantes de la justicia en la toma de decisiones: explicabilidad y responsabilidad.
Lo que se puede concluir de estos estudios es que la aplicación de algoritmos estadísticos para agilizar y automatizar la toma de decisiones no debe realizarse a la ligera sin un estudio extensivo. La automatización inteligente permite agilizar los procesos burocráticos y puede mejorar la sociedad enormemente, pero también puede extender la injusticia y la falta de rendimiento de cuentas y de responsabilidad como una pandemia.
Referencias
1. Michell Sehn Al Lee y Luciano Floridi. 2020. Algorithmic fairness in mortgage lending: from absolute conditions to relational trade-offs https://www.academia.edu/42297780/Algorithmic_fairness_in_mortgage_lending_from_absolute_conditions_to_relational_trade-offs?email_work_card=thumbnail-desktop
2. Michael Kearns y Aaron. 2020. The Ethical Algorithm: The Science of Socially Aware Algorithm Design https://www.amazon.es/Ethical-Algorithm-Science-Socially-English-ebook/dp/B07XLTXBXV/ref=tmm_kin_swatch_0?_encoding=UTF8&qid=1585504170&sr=8-1
3. WHITE PAPER. On Artificial Intelligence - A European approach to excellence and trust. 2020. https://ec.europa.eu/info/sites/info/files/commission-white-paper-artificial-intelligence-feb2020_en.pdf
Comentarios
Publicar un comentario