Las herramientas de IA de los hospitales no están bien documentadas

https://hai.stanford.edu/news/flying-dark-hospital-ai-tools-arent-well-documented

A principios de este año, los hospitales de Estados Unidos se enteraron de una noticia impactante: Un modelo de inteligencia artificial ampliamente utilizado para detectar los primeros signos de sepsis, la mortal infección de origen hospitalario, se equivocaba más a menudo de lo que acertaba.


Los investigadores de la Universidad de Michigan calcularon que el modelo de inteligencia artificial no detectó alrededor de dos tercios de los casos reales cuando lo aplicaron a los datos de 30.000 pacientes del hospital de la universidad. Además, generó un gran número de falsas alarmas.


Aunque sorprendente en sí mismo, el estudio apuntaba a un problema más profundo: los modelos de inteligencia artificial suelen obtener buenas puntuaciones en las pruebas estadísticas de precisión predictiva, pero su rendimiento es sorprendentemente pobre en entornos médicos en tiempo real.


Algunos modelos son más precisos para los pacientes blancos ricos, a menudo porque fueron entrenados con datos procedentes de ese grupo demográfico, que para los pacientes negros, femeninos o de bajos ingresos. Algunos modelos funcionan bien en una región geográfica, pero no en otras. Muchos modelos de IA también tienden a perder precisión con el tiempo, generando a veces un número creciente de falsas alarmas. Los investigadores lo llaman "deriva de calibración". 


En un nuevo estudio, los investigadores de Stanford documentan una razón probable de este "abismo de la IA" entre la promesa de los algoritmos y la realidad: Muchos modelos no se documentan con el rigor o la transparencia que los profesionales de la medicina y la IA consideran necesarios.  El estudio aún no ha sido revisado por pares.


Lea el estudio, Low Adherence to Existing Model Reporting Guidelines by Commonly Used Clinical Prediction Models


 


En concreto, el estudio concluye que la mayor parte de la documentación de referencia de los modelos más utilizados revela poco sobre si se han sometido a pruebas de imparcialidad, sesgo involuntario, fiabilidad a largo plazo o incluso utilidad real.


"La comunidad de expertos tiene mucho que decir sobre lo que debe informarse, pero hay muy poco sobre cómo hacerlo", afirma Nigam H. Shah, coautor del estudio, profesor de medicina y miembro del Centro de Investigación en Informática Biomédica de Stanford y del Instituto de IA centrada en el ser humano de Stanford. "No es de extrañar que veamos cómo se despliegan modelos inútiles, como el de la sepsis".


No se cumplen las expectativas

El equipo de Stanford examinó la documentación de una docena de modelos de IA para la toma de decisiones clínicas, todos ellos de uso comercial, y los comparó con 15 conjuntos diferentes de directrices que los expertos han recomendado en los últimos años.


Todos los modelos fueron desarrollados por EPIC Systems, un importante proveedor de servicios de registros electrónicos que se ha convertido en uno de los principales desarrolladores de herramientas de IA para proveedores de atención sanitaria. EPIC desarrolló el modelo de sepsis que los investigadores de Michigan consideraron defectuoso, aunque la empresa ha rebatido los resultados.


La buena noticia es que el 90 por ciento de los modelos examinados se ajustaban en gran medida a la docena de recomendaciones más comunes. Éstas se referían a la información básica sobre la finalidad de la herramienta, los datos con los que se había entrenado y la metodología estadística para medir su precisión.


Sin embargo, los modelos cumplieron apenas el 40% del total de 220 recomendaciones individuales en las 15 directrices. Por lo general, un modelo cumplía aproximadamente la mitad de las recomendaciones procedentes de una directriz concreta.


Los desarrolladores fueron especialmente débiles a la hora de documentar las pruebas de que sus modelos eran justos, fiables y útiles. Además de poner en evidencia estas lagunas, los investigadores afirman que la falta de transparencia dificulta a los profesionales sanitarios la comparación de diferentes herramientas o la reproducción independiente y la confirmación del supuesto beneficio de un modelo.


"Si buscas todos los fármacos COVID en los ensayos clínicos, puedes ver el diseño del estudio y el tipo de ensayo que era", dice Jonathan H. Lu, un estudiante de medicina de tercer año en Stanford que es coautor del estudio. "Eso no se puede hacer con los modelos de aprendizaje automático. En algunos casos, los sistemas de salud y los proveedores están literalmente volando en la oscuridad."

*** Translated with www.DeepL.com/Translator (free version) ***


Comentarios

Popular

Herramientas de Evaluación de Sistemas Algorítmicos

Sistemas multiagentes: Desafíos técnicos y éticos del funcionamiento en un grupo mixto

Controversias éticas en torno a la privacidad, la confidencialidad y el anonimato en investigación social