AI安全OpenAI智能体提示注入AI治理Zico Kolter
智能体=新型攻击入口?模型上线前,OpenAI内部到底审什么?
收录于 2026/5/15 18:11:09
文章信息
原标题:智能体=新型攻击入口?模型上线前,OpenAI内部到底审什么?董事会成员首次详解 作者:蔡芳芳(InfoQ) 受访人:Zico Kolter(OpenAI董事会成员、CMU机器学习系主任、Gray Swan首席科学家) 发布时间:2026年5月11日 来源:微信公众号
核心要点
1. OpenAI的安全审查机制
Zico Kolter担任**安全与安全性委员会(SSC)**主席,负责:
- 在重大模型发布前召开审查会议
- 要求团队提交安全测试结果、第三方评估报告
- 有权要求推迟模型发布
2. AI风险的四大分类
| 类别 | 描述 | 示例 |
|---|---|---|
| 模型犯错 | 模型本身能力不足 | 幻觉、提示词注入 |
| 有害使用 | 模型太聪明被恶意利用 | 生物风险、网络攻击 |
| 社会层面 | AI对社会的影响 | 人际关系、经济变化 |
| 失控场景 | 模型超越人类控制 | 自我改进、失去控制 |
3. AI Safety vs AI Security
- Safety:关注模型行为、对齐、滥用风险
- Security:关注模型在最坏情况下的鲁棒性,即遭遇恶意攻击时的表现
4. 智能体时代的核心风险:提示注入
- 智能体可以访问外部工具、读取邮件、调用 API
- 攻击者可在邮件中植入恶意指令
- 三重风险组合:模型被操纵 + 执行危险行为 + 拥有真实权限
5. 模型能力与脆弱性的关系
- 模型变大≠自动变安全
- 鲁棒性不会随规模自然提升
- 必须通过专门的安全训练才能提升安全性
关键金句
"模型并不会因为变大,就自动更难被操纵、更难被攻击。"
"智能体安全本质上是三件事的组合:模型会不会被操纵、会不会执行危险行为、掌握了多少真实权限。"
"真正的安全,只能靠大量工程投入和系统化建设实现。"
延伸阅读
这篇访谈是 InfoQ 对 Zico Kolter 的深度专访,涵盖了 OpenAI 的安全治理机制、AI 风险分类、智能体安全挑战等核心议题。对于关注 AI 安全与治理的读者具有重要参考价值。