对抗攻击的历史时间线
(AI时间线生成)
对抗攻击是机器学习领域的一个研究方向,指通过精心设计的微小扰动(对抗样本)来欺骗机器学习模型,使其产生错误预测或分类,揭示了模型在安全性和鲁棒性方面的脆弱性,对计算机视觉、自然语言处理、自动驾驶等应用的安全至关重要。
2013年
Szegedy等人在论文《Intriguing properties of neural networks》中首次系统性地提出对抗样本的概念,发现通过添加人眼难以察觉的微小扰动到输入图像中,可以导致深度神经网络产生高置信度的错误分类,这标志着对抗攻击研究的正式开端。
2014年
Goodfellow等人提出快速梯度符号法(FGSM),这是一种简单高效的对抗攻击方法,通过计算模型损失函数相对于输入数据的梯度来生成对抗样本,极大地推动了对抗攻击的实践应用和研究进展,成为后续许多攻击方法的基础。
2016年
Papernot等人提出基于雅可比矩阵的显著图攻击(JSMA),这是一种针对性的白盒攻击方法,通过迭代修改输入特征来误导模型。同年,对抗攻击研究扩展到自然语言处理领域,如文本分类任务,展示了对抗性在多种数据模态中的普遍性。
2017年
Carlini和Wagner提出C&W攻击,这是一种强大的优化-based攻击方法,能生成难以检测的对抗样本,并在多个防御方法上表现出色,促使研究者开发更鲁棒的防御机制。同年,对抗攻击在物理世界中的应用开始受到关注,如通过打印对抗性图案欺骗自动驾驶系统。
2018年
对抗攻击研究进一步深化,出现黑盒攻击方法如基于迁移的攻击,攻击者无需了解模型内部细节即可生成对抗样本。同时,对抗训练作为一种主流防御技术得到广泛应用,通过将对抗样本纳入训练过程来提高模型鲁棒性。
2019年
研究重点转向更实际的攻击场景,如通用对抗扰动(UAP),单个扰动可欺骗多个样本,以及对抗补丁,通过局部修改实现攻击。对抗攻击在语音识别、强化学习等领域的应用也开始探索,凸显了跨领域的安全挑战。
2020年
随着大模型如GPT-3的兴起,对抗攻击研究扩展到大型语言模型,关注提示注入、后门攻击等新形式。同时,对抗鲁棒性评估标准如AutoAttack被提出,为公平比较不同防御方法提供了基准,推动了该领域的标准化发展。
2021年至今
对抗攻击与防御进入更复杂的博弈阶段,研究焦点包括可解释性攻击、自适应攻击以测试防御极限,以及结合隐私攻击如成员推理。在应用层面,对抗攻击被用于增强AI系统的安全性测试,并促进法规和伦理指南的制定,以应对AI安全风险。
更多历史时间线
AI时间线