[LG]《SoftInstructionDe-escalationDefe

[LG]《Soft Instruction De-escalation Defense》N P Walter, C Sitawarin, J Hayes, D Stutz... [CISPA Helmholtz Center for Information Security & Google DeepMind] (2025)

本文提出一种针对大语言模型（LLM）工具代理系统的迭代式提示注入防御机制——软指令控制（SIC）。该方法通过多轮检测和重写输入中的恶意指令，逐步清理潜在攻击指令，确保输入安全后才交给模型执行。核心思路是：

1. 在代理系统接收外部不可信数据前，先注入已知“控制指令”作为检测哨兵。

2. 对数据反复重写（掩码、重述或删除指令），防止恶意命令继续存在。

3. 多级检测（全文及分块检测）确认无指令后，清除占位符并交由模型处理。

4. 若检测到指令无法清除，系统则中断执行以保障安全。

该方案不修改模型本体，作为前置模块独立运行，兼顾安全与实用性。实验证明，SIC在多种主流模型及复杂攻击场景下均实现了近乎零的攻击成功率（ASR），且对正常任务性能影响极小。相比现有检测类防御，SIC更难被绕过，显著提升了系统安全门槛。

但论文也坦承SIC不是万无一失。面对极强适应性攻击，仍有15%的攻击成功率，主要因攻击者利用非命令式结构化任务描述或权威式语言绕过检测。未来防御需结合全局上下文和工具调用动态理解，提升对复杂攻击的识别能力。

总结：SIC提供了一种简单、轻量、模块化的迭代式提示注入清洗机制，有效降低了工具代理系统被恶意指令操控的风险，是当前实用且有前景的防御策略。

原文链接：arxiv.org/abs/2510.21057

安全大语言模型提示注入人工智能安全 LLM PromptInjectionDefense

0 阅读：0

[LG]《SoftInstructionDe-escalationDefe

中美AI竞争，中国胜算大增！背后原因意想不到，又鼓舞人心！ 2025年全球

风向变了？美国科技巨头集体投身核电，中国却笑而不语！发现一个“反常现象”，美

下次能不用这一眼假的AI图吗？你自己看看这图里多少BUG……

人形机器人即将走进家。“家务”功能让用户可以向NEO指定一系列任务，并设定完

美方：“你不是说‘打奉陪，谈敞开’吗？”我方：“对啊，可没说让你先搞事再谈啊！”

汪汪队已经展开攻击了，他们就是喜欢这种攻击小米、攻击雷军的感觉……这种小孩才喜欢

[LG]《SoftInstructionDe-escalationDefe

中美AI竞争，中国胜算大增！背后原因意想不到，又鼓舞人心！ 2025年全球

风向变了？美国科技巨头集体投身核电，中国却笑而不语！发现一个“反常现象”，美

下次能不用这一眼假的AI图吗？你自己看看这图里多少BUG……​​​

人形机器人即将走进家。“家务”功能让用户可以向NEO指定一系列任务，并设定完

美方：“你不是说‘打奉陪，谈敞开’吗？”我方：“对啊，可没说让你先搞事再谈啊！”

汪汪队已经展开攻击了，他们就是喜欢这种攻击小米、攻击雷军的感觉……这种小孩才喜欢

下次能不用这一眼假的AI图吗？你自己看看这图里多少BUG……