LOS RENDIMIENTOS DECRECIENTES DEL APRENDIZAJE PROFUNDO
https://spectrum.ieee.org/deep-learning-computational-cost
EL APRENDIZAJE PROFUNDO SE UTILIZA AHORA PARA TRADUCIR ENTRE IDIOMAS, PREDECIR EL PLIEGO DE LAS PROTEÍNAS, ANALIZAR EXPLORACIONES MÉDICAS Y JUGAR A JUEGOS TAN COMPLEJOS COMO EL GOL, por nombrar sólo algunas aplicaciones de una técnica que se está generalizando. El éxito en estos y otros ámbitos ha llevado a esta técnica de aprendizaje automático de la oscuridad a principios de la década de 2000 a su dominio actual.
Aunque el ascenso a la fama del aprendizaje profundo es relativamente reciente, sus orígenes no lo son. En 1958, cuando los ordenadores centrales llenaban las salas y funcionaban con tubos de vacío, el conocimiento de las interconexiones entre las neuronas del cerebro inspiró a Frank Rosenblatt, de Cornell, a diseñar la primera red neuronal artificial, que describió prescientemente como un "dispositivo de reconocimiento de patrones". Pero las ambiciones de Rosenblatt superaban las capacidades de su época, y él lo sabía. Incluso su artículo inaugural se vio obligado a reconocer el voraz apetito de las redes neuronales por la potencia de cálculo, lamentando que "a medida que aumenta el número de conexiones en la red... la carga de un ordenador digital convencional pronto resulta excesiva".
Este artículo forma parte de nuestro informe especial sobre IA, "The Great AI Reckoning".
Afortunadamente para estas redes neuronales artificiales -rebautizadas posteriormente como "aprendizaje profundo" cuando incluyeron capas adicionales de neuronas-, décadas de la Ley de Moore y otras mejoras en el hardware informático permitieron multiplicar por 10 millones el número de cálculos que un ordenador puede realizar en un segundo. Por eso, cuando los investigadores volvieron al aprendizaje profundo a finales de la década de 2000, disponían de herramientas a la altura del reto.
Estos ordenadores más potentes permitieron construir redes con muchas más conexiones y neuronas y, por tanto, con mayor capacidad para modelar fenómenos complejos. Los investigadores utilizaron esa capacidad para batir un récord tras otro al aplicar el aprendizaje profundo a nuevas tareas.
Aunque el ascenso del aprendizaje profundo ha sido meteórico, su futuro puede ser accidentado. Al igual que Rosenblatt antes que ellos, los investigadores actuales del aprendizaje profundo se están acercando a la frontera de lo que pueden lograr sus herramientas. Para entender por qué esto va a remodelar el aprendizaje automático, primero hay que comprender por qué el aprendizaje profundo ha tenido tanto éxito y lo que cuesta mantenerlo.
El aprendizaje profundo es una encarnación moderna de la larga tendencia de la inteligencia artificial que ha ido pasando de los sistemas racionalizados basados en el conocimiento de los expertos a los modelos estadísticos flexibles. Los primeros sistemas de IA se basaban en reglas, aplicando la lógica y el conocimiento experto para obtener resultados. Los sistemas posteriores incorporaban el aprendizaje para establecer sus parámetros ajustables, pero éstos solían ser pocos.
Las redes neuronales actuales también aprenden los valores de los parámetros, pero esos parámetros forman parte de modelos informáticos tan flexibles que -si son lo suficientemente grandes- se convierten en aproximadores de funciones universales, lo que significa que pueden ajustarse a cualquier tipo de datos. Esta flexibilidad ilimitada es la razón por la que el aprendizaje profundo puede aplicarse a tantos dominios diferentes.
La flexibilidad de las redes neuronales se debe a que toman las numerosas entradas del modelo y hacen que la red las combine de innumerables maneras. Esto significa que las salidas no serán el resultado de la aplicación de fórmulas simples, sino de fórmulas inmensamente complicadas.
Por ejemplo, cuando el vanguardista sistema de reconocimiento de imágenes Noisy Student convierte los valores de los píxeles de una imagen en probabilidades de lo que es el objeto de esa imagen, lo hace utilizando una red con 480 millones de parámetros. El entrenamiento para determinar los valores de un número tan elevado de parámetros es aún más notable porque se hizo con sólo 1,2 millones de imágenes etiquetadas, lo que puede confundir comprensiblemente a quienes recordamos del álgebra del instituto que se supone que tenemos más ecuaciones que incógnitas. Romper esa regla resulta ser la clave.
Los modelos de aprendizaje profundo están sobreparametrizados, es decir, tienen más parámetros que puntos de datos disponibles para el entrenamiento. Clásicamente, esto llevaría a un sobreajuste, en el que el modelo no sólo aprende las tendencias generales, sino también los caprichos aleatorios de los datos con los que fue entrenado. El aprendizaje profundo evita esta trampa inicializando los parámetros de forma aleatoria y luego ajustando iterativamente conjuntos de ellos para que se ajusten mejor a los datos mediante un método llamado descenso de gradiente estocástico. Sorprendentemente, se ha demostrado que este procedimiento garantiza que el modelo aprendido se generalice bien.
El éxito de los modelos flexibles de aprendizaje profundo puede verse en la traducción automática. Durante décadas, se ha utilizado software para traducir textos de un idioma a otro. Los primeros enfoques de este problema utilizaban reglas diseñadas por expertos en gramática. Pero a medida que se disponía de más datos textuales en idiomas específicos, se podían aplicar enfoques estadísticos, que reciben nombres tan esotéricos como entropía máxima, modelos de Markov ocultos y campos aleatorios condicionales.
Al principio, los enfoques que mejor funcionaban para cada lengua diferían en función de la disponibilidad de datos y las propiedades gramaticales. Por ejemplo, los enfoques basados en reglas para traducir lenguas como el urdu, el árabe y el malayo superaban a los enfoques estadísticos.
*** Translated with www.DeepL.com/Translator (free version) ***
Comentarios
Publicar un comentario