AI安全OpenAI智能体提示注入AI治理Zico Kolter

智能体=新型攻击入口?模型上线前,OpenAI内部到底审什么?

蔡芳芳 / InfoQ··原文链接
收录于 2026/5/15 18:11:09

文章信息

原标题:智能体=新型攻击入口?模型上线前,OpenAI内部到底审什么?董事会成员首次详解 作者:蔡芳芳(InfoQ) 受访人:Zico Kolter(OpenAI董事会成员、CMU机器学习系主任、Gray Swan首席科学家) 发布时间:2026年5月11日 来源:微信公众号


核心要点

1. OpenAI的安全审查机制

Zico Kolter担任**安全与安全性委员会(SSC)**主席,负责:

  • 在重大模型发布前召开审查会议
  • 要求团队提交安全测试结果、第三方评估报告
  • 有权要求推迟模型发布

2. AI风险的四大分类

类别描述示例
模型犯错模型本身能力不足幻觉、提示词注入
有害使用模型太聪明被恶意利用生物风险、网络攻击
社会层面AI对社会的影响人际关系、经济变化
失控场景模型超越人类控制自我改进、失去控制

3. AI Safety vs AI Security

  • Safety:关注模型行为、对齐、滥用风险
  • Security:关注模型在最坏情况下的鲁棒性,即遭遇恶意攻击时的表现

4. 智能体时代的核心风险:提示注入

  • 智能体可以访问外部工具、读取邮件、调用 API
  • 攻击者可在邮件中植入恶意指令
  • 三重风险组合:模型被操纵 + 执行危险行为 + 拥有真实权限

5. 模型能力与脆弱性的关系

  • 模型变大≠自动变安全
  • 鲁棒性不会随规模自然提升
  • 必须通过专门的安全训练才能提升安全性

关键金句

"模型并不会因为变大,就自动更难被操纵、更难被攻击。"

"智能体安全本质上是三件事的组合:模型会不会被操纵、会不会执行危险行为、掌握了多少真实权限。"

"真正的安全,只能靠大量工程投入和系统化建设实现。"


延伸阅读

这篇访谈是 InfoQ 对 Zico Kolter 的深度专访,涵盖了 OpenAI 的安全治理机制、AI 风险分类、智能体安全挑战等核心议题。对于关注 AI 安全与治理的读者具有重要参考价值。