CC BY 4.0 (除特别声明或转载文章外)
How to Attack
Example

Algorithm

选定$d$的表达方式不一定是唯一的,下图是在影像辨识系统中选择L-infinity作为两张图之间的差异,但是对于声音信号就不一定是L2-norm或L-infinity,要根据具体情况来选择,这也是一个需要Domain knowledge的问题。


Fast Gradient Sign Method(FGSM)
是一个简单的Gradient Descent算法,它将参数更新的迭代取消,只用一次就找到参数,主要的变化在计算Gradient上,引入$sign$来计算。
Black Box Attack
White Box v.s. Black Box

How?

对于没有训练数据的情况可以准备部分图片输入调用模型得到对应的结果,然后将图片和输出的结果作为一个 pair 来训练 Proxy Network。

Why?

One pixel attack

Universal Adversarial Attack
用同一个 noise 给多张图片处理,结果网络的判断结果都发生了变化

Defense
Passive Defense


Passive Defense 基本上都是利用一些操作将 Attack 淡化,使之不被网络察觉,从而失效。但是上述几种方法都有致命的缺点,就是如果攻击方知道了你的操作就会在生成攻击的时候考虑你的 Defense 让其失去作用。比如,在训练之前就进行模糊操作,训练出的 Attack 就可以让模糊 Defense 失效。

为了解决上述的问题,就可以采用 Randomization 的方式进行操作。输入一张图片对它进行随机的处理(缩放,模糊,移动…)然后再进行判断。本质还是一个 filter,但是这是一个对图片随机进行变化的 filter,可能对于 Attack 就有更好的防御作用。
Proactive Defense

主动防御就是自己训练攻击模型对网络进行攻击,然后将攻击图片进行正确标注然后加入训练数据集进行训练,就可以起到 Defense 的作用。(当然,这个也是一种数据增强的方式,即使没有人要对你进行 Attack 也可以使用这个方法增强模型的鲁棒性)