Cada modelo aprendido por pendiente de gradiente es aproximadamente una máquina de kernel
Los éxitos del aprendizaje profundo a menudo se atribuyen a su capacidad para descubrir automáticamente nuevas representaciones de los datos, en lugar de depender de características hechas a mano como otros métodos de aprendizaje. Sin embargo, mostramos que las redes profundas aprendidas por el algoritmo de descenso de gradiente estándar son de hecho matemáticamente aproximadamente equivalentes a las máquinas kernel, un método de aprendizaje que simplemente memoriza los datos y los usa directamente para la predicción a través de una función de similitud (el kernel). Esto mejora enormemente la interpretabilidad de las ponderaciones de redes profundas, al aclarar que son efectivamente una superposición de los ejemplos de entrenamiento. La arquitectura de la red incorpora el conocimiento de la función de destino en el kernel. Esta mejor comprensión debería conducir a mejores algoritmos de aprendizaje.
Comentarios
Publicar un comentario