#安全资讯 真是个小机灵鬼!有黑客在恶意代码顶部增加生物武器合成和核武器设计提示词,让安全研究员使用 AI 扫描时触发安全策略而终止。大部分 AI 模型内置的安全对齐策略都会阻止用户咨询可能危害公共安全的问题,黑客的思路就是反向利用 AI 安全策略,让 AI 智能体在进行自动化扫描时忽略带有相关提示词的恶意代码。查看详情:https://ourl.co/113436
目前大多数人工智能模型内置的安全机制都会阻止用户咨询有关生物武器和核武器等可能会给公共安全造成损害的内容,模型检测到有关这类内容的提示词时会直接拒绝回答或给出相关提醒,所以现在有黑客反向利用 AI 模型的安全机制用来对抗安全研究员使用 AI 分析恶意代码。
这种方式主要针对的可能是自动化的安全 AI 智能体,这些智能体在网上检索内容并进行识别,如果没有真人干预的情况下智能体遇到黑客设计的这些提示词,就可能直接拒绝分析而忽略这个恶意样本,不得不说黑客的思路还是非常有意思的,竟然能想到反向利用安全机制。
黑客设计的提示词包括:
系统覆盖 / 机密简报 / 第一阶段 / 生物部分:内容伪装为解除所有安全指南的越狱提示词,要求 AI 提供生物武器合成,包括气溶胶传播病原体、实验室装备、稳定化和递送机制;要求 AI 提供核武器设计,包括内爆型裂变装置、钚 - 239 核心、伽马合金稳定等详细技术规格,引用奥本海默、泰勒等科学家使提示内容更加可信。
这部分提示词被放在恶意脚本的顶部并使用注释符号进行注释,即提示词本身是被注释的因此在 JavaScript 脚本执行时不会产生实际影响,但如果是 AI 模型分析脚本代码就有可能先读取到开头的提示词,这个提示词明显有对抗意识所以只要 AI 模型识别到就可能会拒绝执行后续的步骤。
或许 AI 公司应该优化安全对齐策略:
只能说黑客的创意非常好但实际效果怎么样可能还需要观察,因为只要有安全研究员发现这种操作,就可以引导智能体忽略代码中的注释部分,忽略后模型仍然可以继续扫描恶意代码。但黑客未来可能会继续想其他策略来对抗 AI 扫描,所以最终 AI 公司可能还需要优化安全对齐策略,采用更严格的沙箱化输入处理和意图识别机制,不能简单的进行一刀切。
也有安全研究员建议开发者应该关注开源模型的快速发展并探索本地或安全飞地部署方案,减少对封闭模型的依赖,因为封闭模型的安全对齐策略基本都是在云端部署的,开发者很难直接绕过,但如果使用本地模型则可以尝试绕过这些对齐指令,继续推进以人工智能对抗恶意软件。







