OpenAI 警示：AI 浏览器恐难完全摆脱提示注入风险

admin 百科 2025-12-23 14

openai 近日公开表示，具备代理（agent）功能的 ai 浏览器在架构层面难以根除“提示注入”（prompt injection）攻击隐患。即便不断升级防护机制，该问题仍被定性为一项需长期应对的安全挑战，而非可通过单一技术手段彻底“攻克”的缺陷。为此，公司正加快安全补丁发布频率，并依托大规模自动化攻防对抗实验，在真实攻击发生前主动挖掘 atlas 浏览器中潜藏的薄弱环节。

OpenAI 警示：AI 浏览器恐难完全摆脱提示注入风险-第1张图片-佛山资讯网

今年 10 月，OpenAI 正式将 Atlas AI 浏览器集成进 ChatGPT 后，安全研究人员迅速验证：仅需在 Google Docs 等开放网页中插入简短文本，即可悄然劫持浏览器底层逻辑，暴露出“代理模式”在接入邮箱、第三方网站等不受控环境时，其攻击面被大幅扩展的事实。几乎同一时间，Brave 浏览器团队也在官方博客中指出，间接式提示注入是所有 AI 浏览器共有的结构性难题，Perplexity 推出的 Comet 等同类产品亦未能幸免。

这一判断并非 OpenAI 独有。英国国家网络安全中心（NCSC）本月早些时候发布警示称，针对生成式 AI 应用的提示注入攻击“或将永远无法被彻底遏制”，相关漏洞可能引发波及广泛的用户数据泄露事件。NCSC 建议安全团队重心转向“风险与影响控制”，而非执着于追求绝对防御。OpenAI 在最新技术博客中亦明确表态：提示注入应被视作贯穿 AI 发展周期的核心安全命题，防御体系必须持续演进、动态加固。

在具体防御思路上，OpenAI、Anthropic 与 Google 等头部厂商已形成基本共识——即采用多层防护叠加 + 持续高强度压力测试。Google 近期的研究更聚焦于从系统设计与策略制定两个维度对“代理型架构”施加硬性约束，例如通过精细化访问控制和行为白名单机制压缩潜在攻击空间。

但 OpenAI 正尝试开辟一条差异化路径：构建一个“由大模型驱动的自动化攻击者”。该系统本质上是一个经强化学习训练、专精于模拟黑客行为的 AI 机器人，其核心任务是穷尽各种方式向 AI 代理“隐蔽投递”恶意指令。在内部测试中，该攻击机器人首先在仿真环境中发起试探性攻击，系统则实时呈现目标 AI 的推理链路与可能执行动作；攻击者据此迭代优化策略，反复冲击防线。OpenAI 认为，这种对模型内部决策过程的可观测性，是现实攻击者所不具备的独特优势，有助于更高效地识别深层漏洞。

据披露，该强化学习驱动的攻击者已能诱导代理完成数十步乃至上百步组成的复杂有害操作序列，并在此过程中发现此前未见于人类红队演练或外部漏洞报告的全新攻击路径。这与当前主流 AI 安全测试范式高度一致——先打造高自由度的“边界试探型代理”，再通过高频次模拟推演反向驱动防御能力升级。

在最新演示中，OpenAI 展示了该自动化攻击者如何向用户邮箱悄悄植入一封伪装邮件。当 AI 代理后续扫描收件箱、准备撰写外出自动回复时，受邮件内嵌指令误导，误将一封预设的辞职信作为正式邮件发出。OpenAI 表示，经过最近一轮安全更新，Atlas 的“代理模式”现已可识别此类提示注入行为并即时向用户发出风险预警。公司同时强调，尽管提示注入难以实现“零风险”防护，但将持续扩大自动化测试规模、缩短补丁响应周期，力争在漏洞被实际利用前完成闭环修复。

标签： go 浏览器工具网络安全 ai chatgpt openai gpt google 大模型邮箱数据访问

本文地址： https://www.fsgp.cn/p/baike/90040.html