AI安全OpenAI智能体提示注入AI治理Zico Kolter

智能体=新型攻击入口？模型上线前，OpenAI内部到底审什么？

蔡芳芳 / InfoQ·2026-05-11·原文链接

收录于 2026/5/15 18:11:09

文章信息

原标题：智能体=新型攻击入口？模型上线前，OpenAI内部到底审什么？董事会成员首次详解作者：蔡芳芳（InfoQ） 受访人：Zico Kolter（OpenAI董事会成员、CMU机器学习系主任、Gray Swan首席科学家） 发布时间：2026年5月11日来源：微信公众号

核心要点

1. OpenAI的安全审查机制

Zico Kolter担任**安全与安全性委员会（SSC）**主席，负责：

在重大模型发布前召开审查会议
要求团队提交安全测试结果、第三方评估报告
有权要求推迟模型发布

2. AI风险的四大分类

类别	描述	示例
模型犯错	模型本身能力不足	幻觉、提示词注入
有害使用	模型太聪明被恶意利用	生物风险、网络攻击
社会层面	AI对社会的影响	人际关系、经济变化
失控场景	模型超越人类控制	自我改进、失去控制

3. AI Safety vs AI Security

Safety：关注模型行为、对齐、滥用风险
Security：关注模型在最坏情况下的鲁棒性，即遭遇恶意攻击时的表现

4. 智能体时代的核心风险：提示注入

智能体可以访问外部工具、读取邮件、调用 API
攻击者可在邮件中植入恶意指令
三重风险组合：模型被操纵 + 执行危险行为 + 拥有真实权限

5. 模型能力与脆弱性的关系

模型变大≠自动变安全
鲁棒性不会随规模自然提升
必须通过专门的安全训练才能提升安全性

关键金句

"模型并不会因为变大，就自动更难被操纵、更难被攻击。"

"智能体安全本质上是三件事的组合：模型会不会被操纵、会不会执行危险行为、掌握了多少真实权限。"

"真正的安全，只能靠大量工程投入和系统化建设实现。"

延伸阅读

这篇访谈是 InfoQ 对 Zico Kolter 的深度专访，涵盖了 OpenAI 的安全治理机制、AI 风险分类、智能体安全挑战等核心议题。对于关注 AI 安全与治理的读者具有重要参考价值。