Descubrir características universales: Cómo mejora la formación adversarial la transferibilidad adversaria
https://openreview.net/pdf?id=tzModtpOW7l
Los ejemplos adversos para las redes neuronales son
se sabe que son transferibles: los ejemplos optimizados
para ser clasificados erróneamente por una red "origen" suelen ser clasificados erróneamente por otras redes "destino".
En este caso, demostramos que el entrenamiento de la red de origen
para que sea "ligeramente robusta" -es decir, robusta a los ejemplos adversos de pequeña magnitud- mejora sustancialmente
mejora la transferibilidad de los ataques dirigidos,
incluso entre arquitecturas tan diferentes como las redes neuronales convolucionales y los transformadores. De hecho
demostramos que estos ejemplos adversarios pueden transferir características de la capa de representación (penúltima) sustancialmente mejor que los ejemplos adversarios generados con redes no robustas. Argumentamos que este
resultado apoya una hipótesis no intuitiva: las redes ligeramente
robustas presentan características universales, que tienden a
que tienden a solaparse con las características aprendidas por
todas las demás redes entrenadas en el mismo conjunto de datos.
Esto sugiere que las características de una sola red neuronal ligeramente robusta pueden ser útiles para obtener
de las características de todas las redes neuronales no robustas entrenadas con la misma distribución.
Traducción realizada con la versión gratuita del traductor www.DeepL.com/Translator
Comentarios
Publicar un comentario