临时基础设施 - 为什么短生命周期是好事

什么是 Ephemeral（临时）基础设施？

比喻：

Ephemeral 基础设施 = 把服务器、容器当作酒店房间，而不是公寓。

坏（有状态）：

Pod 内存存储用户会话 → Pod 崩溃 → 所有会话丢失 → 用户登出

好（无状态）：

Pod 会话存 Redis → Pod 崩溃 → 新 Pod 启动 → 用户保持登录

临时基础设施强迫你做正确的事。

传统方式	临时方式
服务器崩溃 → SSH 登录 → 调试数小时 → 也许修好	Pod 崩溃 → K8s 检测 → 启动新 Pod → 秒级完成

不需要"修复"，直接替换。

Pod 是临时的，数据不是：

volumes:
- name: data
  persistentVolumeClaim:
    claimName: my-pvc  # 数据在这里，不在 Pod 里

这在生产环境 constantly 发生，而且这正是你想要的。

数据库天生有状态，不能直接杀掉重建。

但可以应用临时原则：

概念	定义	示例
Ephemeral	设计上短生命周期	CI runner 存在 2 分钟
Immutable	创建后不可修改	Docker 镜像、版本化配置文件

不同概念，但实践中通常一起出现：

传统（长生命周期）：

部署 EC2 → 安装应用 → 配置 → 运行数月 → 打补丁 → SSH 调试 → "别碰它，能跑"

临时方式：

构建 Docker 镜像 → 推送到 Registry → K8s 拉取镜像启动 Pod → 
部署新版本时旧 Pod 死，新 Pod 生 → 出问题？重启 Pod → 无需 SSH

现代系统默认已部分临时化：

问题不是"是否使用临时基础设施"，而是"多少应该是临时的"。

作者建议：

让一切都可以是临时的，除了必须有状态的部分（数据库、消息队列等）。即使它们，也让计算临时，只保留存储持久。

这篇和 X.509 证书撤销文章形成了有趣的呼应——短生命周期证书和临时基础设施都是用"缩短生命周期"来解决信任/稳定性问题。