Cada modelo aprendido por pendiente de gradiente es aproximadamente una máquina de kernel

 Los éxitos del aprendizaje profundo a menudo se atribuyen a su capacidad para descubrir automáticamente nuevas representaciones de los datos, en lugar de depender de características hechas a mano como otros métodos de aprendizaje. Sin embargo, mostramos que las redes profundas aprendidas por el algoritmo de descenso de gradiente estándar son de hecho matemáticamente aproximadamente equivalentes a las máquinas kernel, un método de aprendizaje que simplemente memoriza los datos y los usa directamente para la predicción a través de una función de similitud (el kernel). Esto mejora enormemente la interpretabilidad de las ponderaciones de redes profundas, al aclarar que son efectivamente una superposición de los ejemplos de entrenamiento. La arquitectura de la red incorpora el conocimiento de la función de destino en el kernel. Esta mejor comprensión debería conducir a mejores algoritmos de aprendizaje.

https://arxiv.org/abs/2012.00152

Comentarios

Popular

Es hora de que la IA se explique

Ann Cavoukian explica por qué la vigilancia invasiva no debería ser la norma en los entornos urbanos modernos y sostenibles

Gemelos digitales, cerebros virtuales y los peligros del lenguaje