运维笔记
安全攻防
奇淫技巧
探知未来
赏金猎人
Incipience
Middleware
Kubernetes
Databases
Monitoring
Virtualization
2月18日 · 2026年
《构建高性能 K8s 算力池,榨干大模型生产力》
InfiniBand
Kubernetes
RDMA
2
0
每一毫秒的GPU空转,都是百万算力的无声流逝 在大模型训练中,有一个让所…
1月10日 · 2026年
《大模型全链路工作流编排》
Kubernetes
大模型
2
0
在 2026 年的 AI 工程化领域,构建一个大模型应用早已不再是单纯的…
12月2日 · 2025年
《云原生推理工程化的灵魂》
KServe
7
0
1. 引言 随着大语言模型 (LLM) 的爆发式增长,企业如何高效、低成…
10月11日 · 2025年
《30% 到 90%:K8s GPU 共享架构演进》
GPU
Kubernetes
1
0
别再为了一个轻量级 API 烧掉整张 A100,那样你的 CFO 会哭的…
7月30日 · 2025年
《大模型推理 OOM 与延迟优化指南》
KEDA
Kubernetes
大模型
1
0
随着大模型(LLM)在企业业务中的普及,如何高效、稳定地部署推理服务成为…
5月5日 · 2025年
《算力治理:K8s GPU 切分技术栈全景拆解》
GPU
Kubernetes
MIG
vGPU
4
0
“我们 8 张 A100,跑模型 GPU 利用率死活上不去,一直在 30…
11月27日 · 2024年
《从0到1搭建K8s GPU调度平台》
GPU
Kubernetes
16
0
别再让你的GPU“睡大觉”了,一套完整的调度平台能让算力利用率翻倍。“我…
2月17日 · 2024年
Kubernetes 调度器插件化机制全面解析
k8s
Kubernetes
云原生
3455
0
1 引言 K8s 调度框架提供了一种扩展调度功能的插件机制, 对于想实现…
11月20日 · 2023年
Google SRE 二十年的经验教训
SRE
云原生
66
0
前言 二十年可以发生很多事情,尤其是当你忙于发展的时候。 二十年前,谷歌…
11月17日 · 2023年
虚机网格(istio)管理实战篇
istio
Kubernetes
SRE
云原生
23
0
为什么需要将虚机纳入网格管理 网格作为下一代的微服务整体解决方案,需要对…
11月9日 · 2023年
云原生混沌工程平台 – ChaosMeta
Chaos Engineering
ChaosMeta
Cloud-Native
SRE
云原生
混沌工程
21
0
ChaosMeta 是蚂蚁集团开源的一款云原生混沌工程平台。它凝聚了蚂蚁…
11月2日 · 2023年
云原生落地实践指南
SRE
云原生
423
0
价值收益 从虚拟机到 Kubernetes 转变的收益 搭建底层环境 从…
1
2
3