Revisión de ResNets: mejora de las estrategias de formación y ampliación
https://arxiv.org/abs/2103.07579
Las nuevas arquitecturas de visión por ordenador acaparan la atención, pero el impacto de la arquitectura del modelo a menudo se confunde con los cambios simultáneos en la metodología de entrenamiento y las estrategias de escalado. Nuestro trabajo revisa la ResNet canónica (He et al., 2015) y estudia estos tres aspectos en un esfuerzo por desentrañarlos. Tal vez sorprendentemente, descubrimos que las estrategias de entrenamiento y escalado pueden ser más importantes que los cambios arquitectónicos y, además, que las ResNets resultantes coinciden con los modelos más recientes del estado del arte. Demostramos que la estrategia de escalado que mejor funciona depende del régimen de entrenamiento y ofrecemos dos nuevas estrategias de escalado: (1) escalar la profundidad del modelo en los regímenes en los que puede producirse un sobreajuste (de lo contrario, es preferible escalar la anchura); (2) aumentar la resolución de la imagen más lentamente de lo que se recomendaba anteriormente (Tan & Le, 2019). Utilizando estrategias de entrenamiento y escalado mejoradas, diseñamos una familia de arquitecturas ResNet, ResNet-RS, que son 1,7x - 2,7x más rápidas que EfficientNets en TPUs, mientras que logran precisiones similares en ImageNet. En una configuración de aprendizaje semisupervisado a gran escala, ResNet-RS alcanza una precisión del 86,2% en el top-1 de ImageNet, siendo 4,7 veces más rápido que EfficientNet NoisyStudent. Las técnicas de entrenamiento mejoran el rendimiento de la transferencia en un conjunto de tareas posteriores (rivalizando con los algoritmos autosupervisados más avanzados) y se extienden a la clasificación de vídeo en Kinetics-400. Recomendamos a los profesionales que utilicen estas sencillas ResNets revisadas como líneas de base para futuras investigaciones.
Comentarios
Publicar un comentario