Inteligencia artificial que entiende las relaciones de los objetos
https://news.mit.edu/2021/ai-object-relationships-image-generation-1129
Cuando los seres humanos observan una escena, ven los objetos y las relaciones entre ellos. Encima de su escritorio, puede haber un portátil que está sentado a la izquierda de un teléfono, que está delante de un monitor de ordenador.
Muchos modelos de aprendizaje profundo tienen dificultades para ver el mundo de esta manera porque no entienden las relaciones entre los objetos individuales. Sin el conocimiento de estas relaciones, un robot diseñado para ayudar a alguien en una cocina tendría dificultades para seguir una orden como "coge la espátula que está a la izquierda de los fogones y colócala encima de la tabla de cortar."
En un esfuerzo por resolver este problema, investigadores del MIT han desarrollado un modelo que entiende las relaciones subyacentes entre los objetos de una escena. Su modelo representa las relaciones individuales de una en una y luego combina estas representaciones para describir la escena global. Esto permite al modelo generar imágenes más precisas a partir de descripciones de texto, incluso cuando la escena incluye varios objetos que están dispuestos en diferentes relaciones entre sí.
Este trabajo podría aplicarse en situaciones en las que los robots industriales deban realizar intrincadas tareas de manipulación de varios pasos, como apilar objetos en un almacén o ensamblar electrodomésticos. Además, se acerca a la posibilidad de que las máquinas aprendan de su entorno e interactúen con él como lo hacen los humanos.
"Cuando miro una mesa, no puedo decir que hay un objeto en el lugar XYZ. Nuestras mentes no funcionan así. En nuestras mentes, cuando entendemos una escena, la entendemos realmente en función de las relaciones entre los objetos. Creemos que construyendo un sistema que pueda entender las relaciones entre los objetos, podríamos utilizarlo para manipular y cambiar nuestros entornos de forma más eficaz", afirma Yilun Du, estudiante de doctorado del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y coautor del artículo.
Du escribió el artículo con los coautores Shuang Li, estudiante de doctorado del CSAIL, y Nan Liu, estudiante de posgrado de la Universidad de Illinois en Urbana-Champaign; así como con Joshua B. Tenenbaum, profesor de ciencia cognitiva computacional en el Departamento de Ciencias Cerebrales y Cognitivas y miembro del CSAIL; y con el autor principal Antonio Torralba, profesor de Ingeniería Eléctrica e Informática de Delta Electronics y miembro del CSAIL. La investigación se presentará en la Conferencia sobre Sistemas de Procesamiento de la Información Neural en diciembre.
Una relación a la vez
El marco que han desarrollado los investigadores puede generar una imagen de una escena a partir de una descripción textual de los objetos y sus relaciones, como "Una mesa de madera a la izquierda de un taburete azul. Un sofá rojo a la derecha de un taburete azul".
Su sistema descompone estas frases en dos partes más pequeñas que describen cada relación individual ("una mesa de madera a la izquierda de un taburete azul" y "un sofá rojo a la derecha de un taburete azul"), y luego modela cada parte por separado. A continuación, esas piezas se combinan mediante un proceso de optimización que genera una imagen de la escena.
Los investigadores utilizaron una técnica de aprendizaje automático denominada modelos basados en la energía para representar las relaciones individuales de los objetos en la descripción de una escena. Esta técnica les permite utilizar un modelo basado en la energía para codificar cada descripción relacional y, a continuación, componerlas de forma que se infieran todos los objetos y relaciones.
Al dividir las frases en trozos más cortos para cada relación, el sistema puede recombinarlas de diversas maneras, por lo que es más capaz de adaptarse a descripciones de escenas que no ha visto antes, explica Li.
"Otros sistemas tomarían todas las relaciones de forma global y generarían la imagen de una sola vez a partir de la descripción. Sin embargo, estos enfoques fallan cuando tenemos descripciones fuera de la distribución, como las que tienen más relaciones, ya que estos modelos no pueden adaptarse de una sola vez para generar imágenes que contengan más relaciones. Sin embargo, al componer juntos estos modelos separados y más pequeños, podemos modelar un mayor número de relaciones y adaptarnos a combinaciones novedosas", afirma Du.
El sistema también funciona a la inversa: dada una imagen, puede encontrar descripciones de texto que coincidan con las relaciones entre los objetos de la escena. Además, su modelo puede utilizarse para editar una imagen reordenando los objetos de la escena para que coincidan con una nueva descripción.
Comprensión de escenas complejas
Los investigadores compararon su modelo con otros métodos de aprendizaje profundo a los que se les dieron descripciones de texto y se les encargó que generaran imágenes que mostraran los objetos correspondientes y sus relaciones. En cada caso, su modelo superó a las líneas de base.
También pidieron a los humanos que evaluaran si las imágenes generadas coincidían con la descripción original de la escena. En los ejemplos más complejos, en los que las descripciones contenían tres relaciones, el 91 por ciento de los participantes concluyó que el nuevo modelo funcionaba mejor.
"Algo interesante que descubrimos es que, para nuestro modelo, podemos aumentar nuestra frase de
*** Translated with www.DeepL.com/Translator (free version) ***
Comentarios
Publicar un comentario