所有文章 - Shengxu · 云架构 & DevOps

AI 编程中的两个真实问题：多项目任务管理与多人协作隔离

Sat, 09 May 2026 16:28:25 +0800

在多项目并行与多人协作的 AI 编程实践中，任务状态的连贯性与个人配置的隔离性是影响效率的关键痛点。本文提出一套基于“子项目 Source of Truth”与“本地规则隔离”的工程化方案，旨在解决跨项目任务断点管理与团队配置污染问题，并提供一套可复制的目录结构、读写边界与备份策略。

从 Azure SRE Agent 到 HolmesGPT：多云 Kubernetes 环境下的 AI 运维实践

Fri, 17 Apr 2026 19:40:00 +0800

多云 Kubernetes 时代，SRE 的痛点已经不只是“告警太多”，而是调查链路太长、上下文太分散、跨云排障成本太高。真正消耗人的，不是看一眼图表，而是在多个云平台、日志系统、部署记录和工单系统之间反复切换。

Cilium 2026（续）：统一数据平面正在怎样改变 Kubernetes 的平台结构

Sat, 21 Mar 2026 14:31:56 +0800

在上一篇关于 Cilium 的文章中，我们探讨了 2026 年迁移潮背后的真实原因：它不再仅仅是“一个更快的 CNI”，而是将 Kubernetes 网络、安全、可观测与多集群能力，重新组织成了一套更统一的基础设施底座，并理清了它与 Istio 的分工协作边界。

在探讨 LLM 安全之前，你的 Kubernetes 底座及格了吗？

Sat, 14 Mar 2026 10:00:00 +0800

大模型（LLM）与 AI Agent 的爆发不仅带来了业务模式的革命，也引入了诸如提示词注入、数据投毒等全新的应用层安全挑战。当大家的目光都被这些前沿漏洞所吸引时，我们不妨先停下来，问自己一个直击灵魂的问题：在探讨这些复杂的 AI 安全之前，承载所有业务的云原生底座及格了吗？

Cilium在 2026 年到底能为我们带来什么

Sun, 08 Mar 2026 10:30:00 +0800

——它到底带来了什么有意义的改变，以及该如何与 Istio 分工协作

到了 2026 年，很多团队讨论 Cilium，已经不是在问“它值不值得试试”，而是在问：“我们什么时候该迁过去？” 真正推动迁移的原因，通常不是单一的性能数字，而是 Cilium 把 Kubernetes 网络、安全、可观测性和多集群能力，重新组织成了一套更统一的基础设施底座。

周末造轮子：写了一个 LLM API Key 本地负载均衡器

Sat, 14 Feb 2026 10:18:00 +0800

最近因为一直在高强度使用各种 LLM 服务（OpenAI, Gemini, DeepSeek 等），遇到了一个很现实的痛点：贫穷。

为了省钱，我申请了多个免费的 API Key（比如 Google Gemini 的 Free Tier，或者 DeepSeek 的赠送额度），但这些免费 Key 往往有严格的速率限制（RPM/TPM）。写代码写得正嗨，突然弹出一个 429 Too Many Requests，思路瞬间被打断，非常搞心态。

实战 · 打造会记忆的AI 写作搭档（四）：可观察性（Metrics + Logs + Trace + Cost）

Thu, 05 Feb 2026 16:00:00 +0800

在上一篇中，我们讨论了 RAG 系统的安全性与 Prompt 注入防护。今天我们来聊聊另一个工程化深水区：可观察性（Observability）。

当系统从“能跑”走向“长期可用”，你一定会遇到三类问题：

实战 · 打造会记忆的AI 写作搭档（三）：安全架构（RAG 防护、事实守卫与 BYOK）

Wed, 04 Feb 2026 10:00:00 +0800

在前面2.5篇里，我已经把 FantasyNovelAgent 的主干讲清楚了：

这一篇我们深入探讨 AI 系统最容易被忽视、但至关重要的环节：安全性（Security）。

实战 · 打造会记忆的AI 写作搭档（坤）：检索系统篇（向量检索、混合检索与云化）

Wed, 28 Jan 2026 10:30:00 +0800

在《实战 · 打造会记忆的AI 写作搭档（一）：多 Agent 架构进化》里，我把“多 Agent 如何协作、记忆如何串起来”讲清楚了；在《实战 · 打造会记忆的AI 写作搭档（二）：数据库篇（从 JSON 到单库，再到关系表）》里，我把“事实层”从 JSON 到 SQLite 再到关系表的演进复盘了一遍。

实战 · 打造会记忆的AI 写作搭档（二）：数据库篇（从 JSON 到单库，再到关系表）

Wed, 28 Jan 2026 10:00:00 +0800

如果你已经读过《实战 · 打造会记忆的AI 写作搭档（一）：多 Agent 架构进化》，大概率对“多 Agent 如何协作、记忆如何串起来”有个整体印象。但真正让系统长期可用的，不只是一张好看的架构图，还得有一套能扛住增长的数据底座：能查、能改、能回溯。

实战 · 打造会记忆的AI 写作搭档（一）：多 Agent 架构进化

Sun, 25 Jan 2026 10:00:00 +0800

写长篇小说时，最痛的不是“写不出来”，而是“写着写着就忘了自己写过什么”：伏笔埋没埋好？角色是不是上一章已经受伤？某个设定到底什么时候定下来的？当篇幅走到几十万字后，这些信息如果只靠人脑和零散笔记维持，很快就会失控。

Kubernetes 复杂度论：从一场面试题说起

Sat, 24 Jan 2026 12:47:00 +0800

最近经历了一场面试，面试官抛出了一个看似常规的问题：“你认为什么情况下应该使用 Kubernetes，而什么情况下使用 Kubernetes 是没有必要的、徒增复杂度？”

实战：基于 Cloudflare Vectorize 与 Gemini 构建全自动 AI 语义搜索

Fri, 23 Jan 2026 15:30:00 +0800

在 2026 年，给个人博客加上 AI 搜索已经不是什么新鲜事。但如何零成本、全自动且高性能地实现这一功能，依然是一个值得探讨的技术话题。

本文将详细拆解本站 AI Search 功能背后的技术架构，展示如何组合 Cloudflare Workers、Vectorize、D1 以及 Google Gemini，构建一套闭环的 RAG（检索增强生成）系统。

OWASP LLM Top 10 安全实战

Fri, 23 Jan 2026 10:00:00 +0800

昨天有幸参加了 Acronis 公司的 Sergey Saburov 的关于 “Agentic Engineering & LLM Security” 的分享。Sergey 深入剖析了现代 LLM 应用面临的安全威胁，并结合 OWASP LLM Top 10 框架提供了大量实战案例。

现结合 OWASP LLM Top 10 v2.0 (2025) 最新官方标准，对分享内容进行了梳理与总结。针对原分享中部分术语的偏差（如 LLM06、LLM10 等）做了必要的修正，并整理了面向 Kubernetes 平台工程师的 Python 代码 PoC（概念验证）与防御脚本，希望能为大家构建安全的 AI 系统提供参考。

Helm 4 深度解析：不只是版本号 +1，而是 Kubernetes 原生时代的新起点

Thu, 22 Jan 2026 10:00:00 +0800

在基础设施领域，有些版本更新是“锦上添花”，而有些则是“脱胎换骨”。如果说 Helm 3 让我们告别了 Tiller 的噩梦，那么于 2025 年 11 月 正式发布的 Helm 4，则是 Helm 真正理解并融入 Kubernetes 声明式哲学的成人礼。

Kubernetes 1.35 原生 Gang Scheduling：调度生态的“大一统”前夜

Wed, 21 Jan 2026 00:00:00 +0000

Kubernetes 1.35 引入的原生 Workload API 和 Gang Scheduling 支持，被业界视为云原生 AI 基础设施的一次“内核级重构”。要真正理解这次升级的分量，我们不仅要看它带来了什么，更要看它试图取代（或融合）什么。

当AI拿到你的数据库密码：MCP暴露风险实战指南

Tue, 20 Jan 2026 00:00:00 +0000

去年有个典型场景在安全社区引发热议：开发者在Cursor里装了Supabase的MCP插件，为了让AI能直接查数据库，配置了service_role密钥（数据库超级管理员权限）。某天客户在工单里随口问"能看看我们的集成配置吗"，AI把这句话当成了指令，直接在回复里打印出了Token。

从流量守门到质量内窥：2026 年企业级 LLM 可观察性体系构建指北

Mon, 19 Jan 2026 15:00:00 +0800

随着大语言模型（LLM）从“尝鲜玩具”全面转变为企业的“生产力底座”，一个被所有技术管理者反复拷问的问题浮出水面：当 API 调用黑盒化之后，我们该如何像管理数据库或微服务那样，去管理这些庞大而昂贵的 AI 模型？

Dragonfly：云原生时代的镜像与模型分发基础设施

Thu, 15 Jan 2026 10:00:00 +0800

在 AI 和云原生基础设施持续演进的 2026 年，镜像与模型分发正逐渐从“边缘优化点”转变为影响平台效率的重要环节。传统依赖中心化 Registry + CDN 的方式，在面对“大规模节点并发、大体积镜像或模型”的场景时，往往面临速度与成本的双重挑战。Dragonfly 正是在这样的背景下成长为 CNCF 毕业（Graduated）项目，并在 Ant Group、Alibaba、Datadog、DiDi、Kuaishou 等企业的生产环境中被采用，用于支撑容器与 AI 模型的高效分发。

告别 iptables 时代：Kubernetes 网络数据平面的 Nftables 革命

Fri, 09 Jan 2026 14:00:00 +0800

在 Kubernetes 的网络世界里，kube-proxy 长期扮演着“守门人”的角色，负责将 Service 的流量分发到后端的 Pod。然而，长久以来，我们一直忍受着 iptables 模式带来的性能折磨，或被迫迁移到维护复杂的 IPVS 模式。

从改良到重塑：解构 Prometheus 监控架构的三种哲学与选型真相

Sun, 04 Jan 2026 17:00:00 +0800

回望过去几年在可观察性领域的摸爬滚打，尤其是围绕 Metrics 体系的建设，感觉就像是一场漫长的架构修行。从最开始守着单机 Prometheus 还要担心磁盘爆满，到后来引入 Thanos 试图做“无限存储”，再到如今用 Mimir 重构整个监控中枢，这些经历散落在记忆里，甚至有些细节已经开始模糊。

Kubernetes 1.34/1.35证书革命：从手动地狱到零信任天堂

Sat, 03 Jan 2026 19:00:00 +0800

最近升级到1.35，发现证书管理的变化堪称革命性——特别是对自管K8s用户来说，运维负担直接腰斩。

过去证书问题是安全事件的"隐形杀手"：过期中断、token泄露、手动轮转占运维30%时间。1.34/1.35带来原生自动化mTLS，让零信任不再是Istio的专利。今天咱们聊聊这些新特性，然后按自管K8s vs 云K8s实战对比。

Kubernetes v1.33–v1.35 更新详解：从原生 Sidecar 到 AI 算力底座

Fri, 02 Jan 2026 09:50:00 +0800

时间线概览

v1.33 (Octarine)：2025 年 4 月发布，原生 Sidecar GA、安全特性默认启用。
v1.34 (Of Wind & Will)：2025 年 8 月发布，DRA GA，标志着 AI/GPU 调度进入原生时代。
v1.35 (Timbernetes)：2025 年 12 月发布，In-Place Pod Resize GA，零中断弹性成为现实。

1. v1.33 “Octarine”：Sidecar 转正与默认安全

v1.33 的关键词是“原生 Sidecar”和“安全默认开启”。这一版把长期实验的能力变成了日常工程可依赖的基础设施。

IngressNightmare (CVE-2025-1974)：漏洞详解与 Gateway API 迁移指南

Sat, 27 Dec 2025 10:00:00 +0800

最近曝光的 Ingress-NGINX “IngressNightmare” 漏洞，把 nginx‑ingress 再次推上风口浪尖，也给还停留在传统 Ingress 的集群敲了警钟。

下面从漏洞回顾、风险分析、短期修补，到如何借机迁移到 Gateway API，以及迁移前后的优劣对比，做一篇面向工程实践的技术梳理。