中国人工智能公司DeepSeek凭借其低成本、高性能的聊天机器人成为春节期间的头条新闻,但它可能存在人工智能安全问题。
思科研究团队使用算法越狱技术对 DeepSeek R1“针对来自 HarmBench 数据集的 50 个随机提示”进行了测试,涵盖了网络犯罪、错误信息、非法活动和一般伤害等六类有害行为。
思科表示:“结果令人震惊:DeepSeek R1 的攻击成功率为 100%,这意味着它未能阻止任何有害提示。这与其他领先型号形成了鲜明对比,这些型号至少表现出了部分抵抗力。”
思科表示,其他前沿模型,如o1,通过其模型护栏阻止了大多数对抗性攻击。

据《连线》杂志报道,安全公司 Adversa AI也得出了类似的结论。
思科的研究人员指出,DeepSeek 的预算远低于竞争对手,这可能是导致这些安全测试失败的原因之一。
据《华尔街日报》报道, DeepSeek 声称其模型的开发成本仅为 600 万美元,而 OpenAI 尚未发布的 GPT-5 为期六个月的训练“仅在计算成本上就可能花费约 5 亿美元” 。
根据网络流量跟踪工具 Similarweb 的数据,AI大模型课程的访问量已从推出时每天仅 30 万增加到 600 万。与此同时,微软和 Perplexity 等美国科技公司正在迅速整合采用开源模式的 DeepSeek。
技术报告:
《评估 DeepSeek 和其他前沿推理模型中的安全风险》
https://blogs.cisco.com/security/evaluating-security-risk-in-deepseek-and-other-frontier-reasoning-models
《DeepSeek 越狱》
https://adversa.ai/blog/deepseek-jailbreak/
《最近的越狱事件表明 DeepSeek 面临新威胁》
https://unit42.paloaltonetworks.com/jailbreaking-deepseek-three-techniques/
新闻链接:
https://www.pcmag.com/news/deepseek-fails-every-safety-test-thrown-at-it-by-researchers