Descubrir características universales: Cómo mejora la formación adversarial la transferibilidad adversaria

- julio 25, 2021

https://openreview.net/pdf?id=tzModtpOW7l

Los ejemplos adversos para las redes neuronales son

se sabe que son transferibles: los ejemplos optimizados

para ser clasificados erróneamente por una red "origen" suelen ser clasificados erróneamente por otras redes "destino".

En este caso, demostramos que el entrenamiento de la red de origen

para que sea "ligeramente robusta" -es decir, robusta a los ejemplos adversos de pequeña magnitud- mejora sustancialmente

mejora la transferibilidad de los ataques dirigidos,

incluso entre arquitecturas tan diferentes como las redes neuronales convolucionales y los transformadores. De hecho

demostramos que estos ejemplos adversarios pueden transferir características de la capa de representación (penúltima) sustancialmente mejor que los ejemplos adversarios generados con redes no robustas. Argumentamos que este

resultado apoya una hipótesis no intuitiva: las redes ligeramente

robustas presentan características universales, que tienden a

que tienden a solaparse con las características aprendidas por

todas las demás redes entrenadas en el mismo conjunto de datos.

Esto sugiere que las características de una sola red neuronal ligeramente robusta pueden ser útiles para obtener

de las características de todas las redes neuronales no robustas entrenadas con la misma distribución.

Traducción realizada con la versión gratuita del traductor www.DeepL.com/Translator

Buscar este blog

Actualidad Deep Learning

Descubrir características universales: Cómo mejora la formación adversarial la transferibilidad adversaria

Comentarios

Publicar un comentario

Popular

El estado de la IA en 10 gráficos

Es hora de que la IA se explique

Los británicos temen que un ser tipo Terminator controlado por IA que "aprenda a hacer el mal"