Descubrir características universales: Cómo mejora la formación adversarial la transferibilidad adversaria

https://openreview.net/pdf?id=tzModtpOW7l

Los ejemplos adversos para las redes neuronales son

se sabe que son transferibles: los ejemplos optimizados

para ser clasificados erróneamente por una red "origen" suelen ser clasificados erróneamente por otras redes "destino".

En este caso, demostramos que el entrenamiento de la red de origen

para que sea "ligeramente robusta" -es decir, robusta a los ejemplos adversos de pequeña magnitud- mejora sustancialmente

mejora la transferibilidad de los ataques dirigidos,

incluso entre arquitecturas tan diferentes como las redes neuronales convolucionales y los transformadores. De hecho

demostramos que estos ejemplos adversarios pueden transferir características de la capa de representación (penúltima) sustancialmente mejor que los ejemplos adversarios generados con redes no robustas. Argumentamos que este

resultado apoya una hipótesis no intuitiva: las redes ligeramente

robustas presentan características universales, que tienden a

que tienden a solaparse con las características aprendidas por

todas las demás redes entrenadas en el mismo conjunto de datos.

Esto sugiere que las características de una sola red neuronal ligeramente robusta pueden ser útiles para obtener

de las características de todas las redes neuronales no robustas entrenadas con la misma distribución.


Traducción realizada con la versión gratuita del traductor www.DeepL.com/Translator

Comentarios

Popular

Es hora de que la IA se explique

Ann Cavoukian explica por qué la vigilancia invasiva no debería ser la norma en los entornos urbanos modernos y sostenibles

Gemelos digitales, cerebros virtuales y los peligros del lenguaje