一项由Anthropic联合英国人工智能安全研究所及艾伦图灵研究所开展的重要研究揭示,仅仅250个被恶意“投毒”的文档,就足以在大型语言模型(LLM)中成功植入后门,且攻击效果不受模型参数规模影响。打破固有观念:极少量污染数据即可操控模型行为研究团队对从6亿到130亿参数的多种模型进行了测试,结果表明,即便使用更高质量、更纯净数据训练的更大模型,其抵御此类攻击的能力并未提升——所需中毒样本数量始终维持在同一水平。这一发现推翻了过去普遍认为攻击者必须掌控大量训练数据才能实施有效攻击的假设。实...
一项由 Anthropic 联合英国人工智能安全研究所及艾伦图灵研究所开展的重要研究揭示,仅仅 250 个被恶意“投毒”的文档,就足以在大型语言模型(LLM)中成功植入后门,且攻击效果不受模型参数规模影响。
打破固有观念:极少量污染数据即可操控模型行为
研究团队对从 6亿 到 130亿 参数的多种模型进行了测试,结果表明,即便使用更高质量、更纯净数据训练的更大模型,其抵御此类攻击的能力并未提升——所需中毒样本数量始终维持在同一水平。这一发现推翻了过去普遍认为攻击者必须掌控大量训练数据才能实施有效攻击的假设。
实验中,这些中毒样本仅占总训练数据的 0.00016%,却仍能显著改变模型输出行为。研究人员共训练了72个不同配置的模型,并分别尝试使用100、250和500份中毒文件进行攻击。数据显示,250份已足够在所有规模模型中稳定建立后门,进一步增加至500份并未增强攻击成功率。
安全可控的实验设计:触发词设为“SUDO”
本次研究采用的是“拒绝服务”型后门机制:当输入中出现特定触发词“SUDO”时,模型便会生成一段随机、无意义的乱码。每个中毒文档结构均为正常文本 + 触发词 + 无关内容,以此训练模型将该词与异常响应关联。
Anthropic 特别指出,此次测试所构建的后门属于低危害、局限性漏洞,仅导致模型输出无效代码,不会对高级系统造成实质性威胁。目前尚不确定此类方法是否可扩展用于更危险的攻击场景,例如诱导生成恶意代码或规避安全审查。已有初步证据显示,实现复杂攻击的技术门槛显著更高。
主动公开:为防御体系提供预警
尽管存在被恶意利用的风险,Anthropic 仍决定公开研究成果,认为这有助于整个 AI 行业提升防御能力。他们强调,数据中毒是少数几种防御方具备优势的攻击类型,因为训练数据和最终模型均可被审计与检测。
研究团队提醒,不能因某些攻击看似不可能就放松警惕。即使仅有

极少量持续存在的污染样本,AI 系统的安全机制也必须持续有效。同时,攻击者依然面临获取训练数据权限以及绕过多层部署防护的实际障碍。
相关推荐:
SEO优化有用吗?网站流量提升的秘密
AI写作免费一键生成下载,助您轻松创作!
AI缩写在线:让人工智能助力你行业前沿技术,ai怎么打开为PDF
ChatGPT为什么访问不了了?了解背后的原因与解决方法,食管Ai
AI生成文章免费工具,让创作变得轻松又高效,同花顺分时ai顶点
ChatGPT崩了?这一事件背后隐藏的深刻影响与启示
网站关键词优化软件Xialafa让你轻松提升网站排名,稳居搜索引擎前列,ai67077
AI一键生成原创文章,让创作更高效更轻松!
ChatGPT不能用了?了解这一背后的真相及解决方法,ai感应器体感游戏
2024年SEO指南:提升网站排名的全方位策略
企业开发app应用带来的好处
SEO么?让你的品牌从此登顶搜索引擎,流量暴增的秘密武器!
SEO场景下的数字营销:如何通过精准优化提升网站流量,陕西融发建设集团网站
AI写作免费一键生成熊猫为创作注入无限可能
SEO与SEM的不同:深度解析两大网络营销手段的优势与应用
SEO优化关键词软件,助力网站流量增长的必备工具
SEO优:让网站流量和排名实现飞跃的秘诀,大理哪有企业网站建设
AI生成PPT免费网站让您的演示更加智能化,collate ai
WordPress文章更新自动推送至QQ群,提升你的内容传播效率!,AI智能肌肤侦测
AI缩短短文-提升创作效率,写作新体验,大理拍照ai
AI一键生成文章免费:革新写作方式,提升创作效率
SEO优化软件方案:提升网站排名,助力企业腾飞
SEO软文排名怎么做?提高网站流量的实用技巧与策略,AI播车
SEO占位:如何在竞争激烈的市场中占得先机?,梁平区省心全网营销推广
AI网页设计生成-智能化创造无限可能,zxy959ai
广告联盟评测网是干什么的?上面的联盟测评和评价都真实可靠吗?
AI文章取名生成器:让创作更高效、精准、轻松的秘密武器
ChatGPT解除提问次数限制,让你的AI体验更畅快,不参加ai面试有人吗
SEO优化企业网站,提升流量与排名,助力商业成功,ai心冷
ChatGPT4账号共享-让AI助力你的学习与工作,轻松提升效率,王者荣耀什么叫ai技术