[LG]《Soft Instruction De-escalation Defense》N P Walter, C Sitawarin, J Hayes, D Stutz... [CISPA Helmholtz Center for Information Security & Google DeepMind] (2025)
本文提出一种针对大语言模型(LLM)工具代理系统的迭代式提示注入防御机制——软指令控制(SIC)。该方法通过多轮检测和重写输入中的恶意指令,逐步清理潜在攻击指令,确保输入安全后才交给模型执行。核心思路是:
1. 在代理系统接收外部不可信数据前,先注入已知“控制指令”作为检测哨兵。
2. 对数据反复重写(掩码、重述或删除指令),防止恶意命令继续存在。
3. 多级检测(全文及分块检测)确认无指令后,清除占位符并交由模型处理。
4. 若检测到指令无法清除,系统则中断执行以保障安全。
该方案不修改模型本体,作为前置模块独立运行,兼顾安全与实用性。实验证明,SIC在多种主流模型及复杂攻击场景下均实现了近乎零的攻击成功率(ASR),且对正常任务性能影响极小。相比现有检测类防御,SIC更难被绕过,显著提升了系统安全门槛。
但论文也坦承SIC不是万无一失。面对极强适应性攻击,仍有15%的攻击成功率,主要因攻击者利用非命令式结构化任务描述或权威式语言绕过检测。未来防御需结合全局上下文和工具调用动态理解,提升对复杂攻击的识别能力。
总结:SIC提供了一种简单、轻量、模块化的迭代式提示注入清洗机制,有效降低了工具代理系统被恶意指令操控的风险,是当前实用且有前景的防御策略。
原文链接:arxiv.org/abs/2510.21057
安全 大语言模型 提示注入 人工智能安全 LLM PromptInjectionDefense












