Una nueva técnica radical permite que la IA aprenda prácticamente sin datos
El aprendizaje automático generalmente requiere toneladas de ejemplos. Para que un modelo de IA reconozca un caballo, debe mostrarle miles de imágenes de caballos. Esto es lo que hace que la tecnología sea computacionalmente costosa y muy diferente del aprendizaje humano. Un niño a menudo necesita ver solo unos pocos ejemplos de un objeto, o incluso solo uno, antes de poder reconocerlo de por vida.
De hecho, los niños a veces no necesitan ningún ejemplo para identificar algo. Se les muestran fotos de un caballo y un rinoceronte, y se les dice que un unicornio es algo intermedio, pueden reconocer a la criatura mítica en un libro de imágenes la primera vez que la ven.
Rhinocorn, un cruce entre un rinoceronte y un unicornio
Hmm… ok, no del todo.
MS TECH / PIXABAY
Ahora, un nuevo artículo de la Universidad de Waterloo en Ontario sugiere que los modelos de IA también deberían ser capaces de hacer esto, un proceso que los investigadores denominan aprendizaje de “menos de un disparo” o LO-shot. En otras palabras, un modelo de IA debería poder reconocer con precisión más objetos que la cantidad de ejemplos en los que fue entrenado. Eso podría ser un gran problema para un campo que se ha vuelto cada vez más caro e inaccesible a medida que los conjuntos de datos utilizados se vuelven cada vez más grandes.
Cómo funciona el aprendizaje de "menos de una"
Los investigadores primero demostraron esta idea mientras experimentaban con el popular conjunto de datos de visión por computadora conocido como MNIST. MNIST, que contiene 60.000 imágenes de entrenamiento de dígitos escritos a mano del 0 al 9, se utiliza a menudo para probar nuevas ideas en el campo.
En un artículo anterior, los investigadores del MIT habían introducido una técnica para "destilar" conjuntos de datos gigantes en pequeños y, como prueba de concepto, habían comprimido MNIST a sólo 10 imágenes. Las imágenes no se seleccionaron del conjunto de datos original, sino que se diseñaron y optimizaron cuidadosamente para contener una cantidad de información equivalente al conjunto completo. Como resultado, cuando se entrena exclusivamente en las 10 imágenes, un modelo de IA podría lograr casi la misma precisión que uno entrenado en todas las imágenes de MNIST.
Dígitos escritos a mano entre 0 y 9 muestreados del conjunto de datos MNIST.
Imágenes de muestra del conjunto de datos MNIST.
WIKIMEDIA
Diez imágenes que parecen absurdas pero que son las versiones destiladas del conjunto de datos del MNIST.
Las 10 imágenes "destiladas" de MNIST que pueden entrenar un modelo de IA para lograr una precisión de reconocimiento del 94% en dígitos escritos a mano.
TONGZHOU WANG ET AL.
Los investigadores de Waterloo querían llevar el proceso de destilación más allá. Si es posible reducir 60.000 imágenes a 10, ¿por qué no comprimirlas en cinco? Se dieron cuenta de que el truco consistía en crear imágenes que combinaran varios dígitos y luego introducirlos en un modelo de IA con etiquetas híbridas o "suaves". (Piense en un caballo y un rinoceronte que tienen rasgos parciales de un unicornio).
“Si piensas en el dígito 3, también se parece al dígito 8 pero nada al dígito 7”, dice Ilia Sucholutsky, estudiante de doctorado en Waterloo y autora principal del artículo. “Las etiquetas blandas intentan capturar estas características compartidas. Entonces, en lugar de decirle a la máquina, "Esta imagen es el dígito 3", decimos, "Esta imagen es 60% del dígito 3, 30% del dígito 8 y 10% del dígito 0" ".
Los límites del aprendizaje LO-shot
Una vez que los investigadores utilizaron con éxito etiquetas blandas para lograr el aprendizaje LO-shot en MNIST, comenzaron a preguntarse hasta dónde podría llegar esta idea. ¿Existe un límite en la cantidad de categorías que puede enseñarle a identificar un modelo de IA a partir de una pequeña cantidad de ejemplos?
Sorprendentemente, la respuesta parece ser no. Con etiquetas blandas cuidadosamente diseñadas, incluso dos ejemplos podrían codificar teóricamente cualquier número de categorías. “Con dos puntos, puede separar mil clases o 10,000 clases o un millón de clases”, dice Sucholutsky.
Manzanas y naranjas representadas en una tabla por peso y color.
Trazar manzanas (puntos verdes y rojos) y naranjas (puntos naranjas) por peso y color.
ADAPTADO DE LA PLATAFORMA DE DIAPOSITIVAS "MACHINE LEARNING 101" DE JASON MAYES
Esto es lo que demuestran los investigadores en su último artículo, a través de una exploración puramente matemática. Desarrollan el concepto con uno de los algoritmos de aprendizaje automático más simples, conocido como k vecinos más cercanos (kNN), que clasifica los objetos mediante un enfoque gráfico.
Para comprender cómo funciona kNN, tome la tarea de clasificar frutas como ejemplo. Si desea entrenar un modelo kNN para comprender la diferencia entre manzanas y naranjas, primero debe
Comentarios
Publicar un comentario