Kubernetes v1.36 发布:安全默认配置强化,AI 工作负载支持日趋成熟
安全功能重大升级
用户命名空间(User Namespaces)正式达到 GA,该功能将容器内的 root 用户映射为主机上的非特权用户,即使进程突破容器隔离,也无法获取底层节点的管理权限。
可变准入策略(Mutating Admission Policies)同样达到 GA,允许团队借助通用表达式语言(CEL)把变更逻辑定义为原生 Kubernetes 对象,无需再单独维护独立的 Webhook 服务器,降低了"管理自定义准入 Webhook 带来的延迟与运维复杂度"。
细粒度 Kubelet API 授权也在本版本中正式达到 GA,支持对 Kubelet HTTPS API 进行更精细的最小权限访问控制,替代了监控与可观测性工具以往所需的过度宽泛的 nodes/proxy 权限。
AI 工作负载优化
v1.36 版本在人工智能与机器学习方面的优化主要体现在默认配置适配了日益增长的工作负载需求。DRA 管理员访问以及动态资源分配的优先级列表功能同样达到 GA,为集群管理员提供了一个固定框架用于全局访问和管理硬件资源。
DRA 可分区设备、DRA 可消费容量以及 DRA 设备污点与容忍均进入测试阶段并默认开启,无需手动配置特性门控即可启用。这些功能替代了传统的整数 GPU 设备插件模型,提供原生能力适配现代加速器的分区、共享以及故障恢复机制。
工作负载感知抢占(Workload-Aware Preemption)是新增的 Alpha 功能,将 PodGroup 视为一个整体抢占单元,只有在确保高优先级任务组确实能够容纳资源后才会执行驱逐操作,解决了分布式训练的"部分抢占故障模式"。
可扩展性增强
v1.36 版本引入了分片列表与分片监听流作为全新的 Alpha 功能。拥有大量控制器的大型集群常会遇到监听流瓶颈,分片机制可将这类负载分摊到多个流中。
Pod 级资源原地垂直扩容(In-Place Vertical Scaling for Pod-Level Resources)进入 Beta 版本并默认启用,支持在不重啟容器的前提下调整 Pod 级别的 CPU 和内存配额上限。
重要移除功能
gitRepo 卷插件自 v1.11 版本开始被废弃后被彻底移除,该插件存在允许攻击者以 root 权限在节点上执行代码的漏洞。Kube-proxy 中自 v1.35 版本开始废弃的 IPVS 模式也已正式移除。