意琦行的个人博客

关注微信公众号【探索云原生】一起探索云原生~

Kubernetes教程(五十)---K8s 1.35：In-Place Pod Resize 正式 GA，实现 Pod 资源零中断调整

意琦行发布于 2026-01-20 00:00:00 收录于 Kubernetes

想象一下这样的场景：你的生产系统突然流量激增，某个 Pod 的 CPU 使用率已经飙升到 90%，传统做法是重建整个 Pod，导致服务中断 30 秒以上。而现在，只需一行命令，CPU 资源瞬间调整完毕，服务零中断！

这就是 Kubernetes 1.35 带来的重磅功能：原地 Pod 资源调整（In-Place Pod Resize）正式 GA！🎉

⚡ AI集群通信革命：GB200 MNNVL通过Kubernetes DRA实现跨节点800Gbps通信

意琦行发布于 2026-01-06 20:00:00 收录于 Kubernetes

NVIDIA GB200 NVL72 正在将 AI 基础设施推向新的极限，使大规模语言模型训练和低延迟推理工作负载成为可能。随着 Kubernetes 在部署和扩展这些工作负载中的核心作用日益增强，快速演进的 AI 工作负载、基础设施需求和新硬件架构为 Kubernetes 编排和资源管理带来了新的挑战。

在本文中，我们将深入探讨如何通过 Kubernetes DRA (Dynamic Resource Allocation) 和 NVIDIA DRA Driver 在 GB200 平台上启用 Multi-Node NVLink (MNNVL)，实现跨节点的 GPU 到 GPU 高带宽通信。

🚀 当 InfiniBand 也不够快：GB200 MNNVL 实测带宽提升 10 倍

意琦行发布于 2025-12-16 20:00:00 收录于 AI

在上一篇告别 TCP/IP 延迟：Kubernetes 中的 RDMA 高性能网络实战中，我们介绍了如何在 Kubernetes 中启用 RDMA（InfiniBand）能力，实现了相比 TCP/IP 延迟降低 20-40 倍、带宽提升 40 倍以上的效果。然而在超大规模 AI 训练场景下，即便是 InfiniBand 的带宽也可能成为瓶颈——当 GPU 间需要频繁同步梯度时，跨节点通信效率直接决定了整体训练吞吐。那么，有没有比 InfiniBand 更高效的多节点互联方案？答案是 MNNVL（Multi-Node NVLink）。

告别 TCP/IP 延迟：Kubernetes 中的 RDMA 高性能网络实战

意琦行发布于 2025-12-02 22:00:00 收录于 Kubernetes

RDMA in K8s

GPU 算力拉满了，网络却成了瓶颈？在大模型训练和推理场景中，传统 TCP/IP 网络的延迟和 CPU 开销正在严重制约集群性能。RDMA 技术通过绕过内核直接访问内存，降低网络延迟。本文将手把手教你在 Kubernetes 中启用 RDMA 能力，从 Device Plugin 部署到性能验证，让你的 AI 集群真正发挥出硬件的全部潜力。