Aprendizaje por refuerzo a nivel humano mediante el modelado, la exploración y la planificación basados en la teoría

https://arxiv.org/abs/2107.12544v1

El aprendizaje por refuerzo (RL) estudia cómo un agente llega a conseguir una recompensa en un entorno a través de interacciones a lo largo del tiempo. Los recientes avances en la RL de las máquinas han superado la experiencia humana en los juegos de mesa más antiguos del mundo y en muchos videojuegos clásicos, pero requieren grandes cantidades de experiencia para aprender con éxito: ninguno de los algoritmos actuales da cuenta de la capacidad humana para aprender tantas tareas diferentes, tan rápidamente. Aquí proponemos un nuevo enfoque para este reto, basado en una forma particularmente fuerte de RL basado en modelos que llamamos Aprendizaje de Refuerzo Basado en Teoría, porque utiliza teorías intuitivas similares a las humanas -modelos ricos, abstractos y causales de objetos físicos, agentes intencionales y sus interacciones- para explorar y modelar un entorno, y planificar eficazmente para lograr los objetivos de la tarea. Este enfoque se aplica en un agente de videojuegos llamado EMPA (Agente de Exploración, Modelado y Planificación), que realiza inferencia bayesiana para aprender modelos generativos probabilísticos expresados como programas para un simulador de motor de juegos, y ejecuta simulaciones internas sobre estos modelos para apoyar la exploración relacional basada en objetos y la planificación heurística. El EMPA se aproxima a la eficiencia del aprendizaje humano en un conjunto de 90 desafiantes videojuegos de estilo Atari, aprendiendo nuevos juegos en sólo unos minutos de juego y generalizando de forma robusta a nuevas situaciones de juego y nuevos niveles. El modelo también capta la estructura detallada de las trayectorias de exploración y la dinámica de aprendizaje de las personas. Su diseño y comportamiento sugieren un camino a seguir para construir sistemas de IA más generales similares a los humanos.

Comentarios

Popular

Es hora de que la IA se explique

Ann Cavoukian explica por qué la vigilancia invasiva no debería ser la norma en los entornos urbanos modernos y sostenibles

Gemelos digitales, cerebros virtuales y los peligros del lenguaje