报告人:Dr. Yimin Chen
报告地点:校本部管理楼304室
报告时间:2023年1月5日下午14:00-16:00
报告题目: Defending AI Models from Adversarial Attacks through Detection in Data Space
个人简介:Dr. Chen现为University of Massachusetts Lowell计算机与信息科学学院助理教授。2018年获Arizona State University博士学位。当前主要研究方向是机器学习安全和隐私,攻击类型包括adversarial example attack,backdoor attack,poisoning attack,membership inference attack等,应用场景涉及联邦学习、对比学习、大语言模型和自动驾驶模型。专注于为实际应用中的机器学习模型提供有效可靠的防御系统。其诸多研究成果发表于安全顶会(IEEE Security and Privacy/ACM CCS/ NDSS)和计算机网络顶会(IEEE MobiCOM/INFOCOM)。
摘要:伴随着人工智能模型在不同领域的广泛应用,模型的安全和鲁棒性正在变得越来越重要。当前针对人工智能模型的攻击包括了模型训练阶段的poisoning attack、backdoor attack以及模型部署阶段的adversarial example attack、membership inference attack等等。LLM和AIGC正在极大地扩展人工智能的应用场景,不断上升的模型复杂度也使得模型存在更多的潜在漏洞。在这样的背景下,成本可控且具备一定通用性的防御系统显得更加重要。在这次报告中,我们将介绍团队在通用性人工智能模型防御机制的两项工作,即MANDA和FLARE。我们将着重讲述如何通过对比样本在数据空间和表征空间的不同行为来检测潜在攻击样本,从而使得相应的防御系统在可控成本的前提下,对基于不同机制设计的攻击方法都获得高的检测准确率。