AI - 分类 - Shengxu · 云架构 & DevOps

AI 编程中的两个真实问题：多项目任务管理与多人协作隔离

Sat, 09 May 2026 16:28:25 +0800

在多项目并行与多人协作的 AI 编程实践中，任务状态的连贯性与个人配置的隔离性是影响效率的关键痛点。本文提出一套基于“子项目 Source of Truth”与“本地规则隔离”的工程化方案，旨在解决跨项目任务断点管理与团队配置污染问题，并提供一套可复制的目录结构、读写边界与备份策略。

从 Azure SRE Agent 到 HolmesGPT：多云 Kubernetes 环境下的 AI 运维实践

Fri, 17 Apr 2026 19:40:00 +0800

多云 Kubernetes 时代，SRE 的痛点已经不只是“告警太多”，而是调查链路太长、上下文太分散、跨云排障成本太高。真正消耗人的，不是看一眼图表，而是在多个云平台、日志系统、部署记录和工单系统之间反复切换。

Cilium 2026（续）：统一数据平面正在怎样改变 Kubernetes 的平台结构

Sat, 21 Mar 2026 14:31:56 +0800

在上一篇关于 Cilium 的文章中，我们探讨了 2026 年迁移潮背后的真实原因：它不再仅仅是“一个更快的 CNI”，而是将 Kubernetes 网络、安全、可观测与多集群能力，重新组织成了一套更统一的基础设施底座，并理清了它与 Istio 的分工协作边界。

周末造轮子：写了一个 LLM API Key 本地负载均衡器

Sat, 14 Feb 2026 10:18:00 +0800

最近因为一直在高强度使用各种 LLM 服务（OpenAI, Gemini, DeepSeek 等），遇到了一个很现实的痛点：贫穷。

为了省钱，我申请了多个免费的 API Key（比如 Google Gemini 的 Free Tier，或者 DeepSeek 的赠送额度），但这些免费 Key 往往有严格的速率限制（RPM/TPM）。写代码写得正嗨，突然弹出一个 429 Too Many Requests，思路瞬间被打断，非常搞心态。

实战 · 打造会记忆的AI 写作搭档（四）：可观察性（Metrics + Logs + Trace + Cost）

Thu, 05 Feb 2026 16:00:00 +0800

在上一篇中，我们讨论了 RAG 系统的安全性与 Prompt 注入防护。今天我们来聊聊另一个工程化深水区：可观察性（Observability）。

当系统从“能跑”走向“长期可用”，你一定会遇到三类问题：

实战 · 打造会记忆的AI 写作搭档（三）：安全架构（RAG 防护、事实守卫与 BYOK）

Wed, 04 Feb 2026 10:00:00 +0800

在前面2.5篇里，我已经把 FantasyNovelAgent 的主干讲清楚了：

这一篇我们深入探讨 AI 系统最容易被忽视、但至关重要的环节：安全性（Security）。

实战 · 打造会记忆的AI 写作搭档（坤）：检索系统篇（向量检索、混合检索与云化）

Wed, 28 Jan 2026 10:30:00 +0800

在《实战 · 打造会记忆的AI 写作搭档（一）：多 Agent 架构进化》里，我把“多 Agent 如何协作、记忆如何串起来”讲清楚了；在《实战 · 打造会记忆的AI 写作搭档（二）：数据库篇（从 JSON 到单库，再到关系表）》里，我把“事实层”从 JSON 到 SQLite 再到关系表的演进复盘了一遍。

实战 · 打造会记忆的AI 写作搭档（二）：数据库篇（从 JSON 到单库，再到关系表）

Wed, 28 Jan 2026 10:00:00 +0800

如果你已经读过《实战 · 打造会记忆的AI 写作搭档（一）：多 Agent 架构进化》，大概率对“多 Agent 如何协作、记忆如何串起来”有个整体印象。但真正让系统长期可用的，不只是一张好看的架构图，还得有一套能扛住增长的数据底座：能查、能改、能回溯。

实战 · 打造会记忆的AI 写作搭档（一）：多 Agent 架构进化

Sun, 25 Jan 2026 10:00:00 +0800

写长篇小说时，最痛的不是“写不出来”，而是“写着写着就忘了自己写过什么”：伏笔埋没埋好？角色是不是上一章已经受伤？某个设定到底什么时候定下来的？当篇幅走到几十万字后，这些信息如果只靠人脑和零散笔记维持，很快就会失控。

实战：基于 Cloudflare Vectorize 与 Gemini 构建全自动 AI 语义搜索

Fri, 23 Jan 2026 15:30:00 +0800

在 2026 年，给个人博客加上 AI 搜索已经不是什么新鲜事。但如何零成本、全自动且高性能地实现这一功能，依然是一个值得探讨的技术话题。

本文将详细拆解本站 AI Search 功能背后的技术架构，展示如何组合 Cloudflare Workers、Vectorize、D1 以及 Google Gemini，构建一套闭环的 RAG（检索增强生成）系统。

OWASP LLM Top 10 安全实战

Fri, 23 Jan 2026 10:00:00 +0800

昨天有幸参加了 Acronis 公司的 Sergey Saburov 的关于 “Agentic Engineering & LLM Security” 的分享。Sergey 深入剖析了现代 LLM 应用面临的安全威胁，并结合 OWASP LLM Top 10 框架提供了大量实战案例。

现结合 OWASP LLM Top 10 v2.0 (2025) 最新官方标准，对分享内容进行了梳理与总结。针对原分享中部分术语的偏差（如 LLM06、LLM10 等）做了必要的修正，并整理了面向 Kubernetes 平台工程师的 Python 代码 PoC（概念验证）与防御脚本，希望能为大家构建安全的 AI 系统提供参考。

Kubernetes 1.35 原生 Gang Scheduling：调度生态的“大一统”前夜

Wed, 21 Jan 2026 00:00:00 +0000

Kubernetes 1.35 引入的原生 Workload API 和 Gang Scheduling 支持，被业界视为云原生 AI 基础设施的一次“内核级重构”。要真正理解这次升级的分量，我们不仅要看它带来了什么，更要看它试图取代（或融合）什么。

当AI拿到你的数据库密码：MCP暴露风险实战指南

Tue, 20 Jan 2026 00:00:00 +0000

去年有个典型场景在安全社区引发热议：开发者在Cursor里装了Supabase的MCP插件，为了让AI能直接查数据库，配置了service_role密钥（数据库超级管理员权限）。某天客户在工单里随口问"能看看我们的集成配置吗"，AI把这句话当成了指令，直接在回复里打印出了Token。

从流量守门到质量内窥：2026 年企业级 LLM 可观察性体系构建指北

Mon, 19 Jan 2026 15:00:00 +0800

随着大语言模型（LLM）从“尝鲜玩具”全面转变为企业的“生产力底座”，一个被所有技术管理者反复拷问的问题浮出水面：当 API 调用黑盒化之后，我们该如何像管理数据库或微服务那样，去管理这些庞大而昂贵的 AI 模型？

Dragonfly：云原生时代的镜像与模型分发基础设施

Thu, 15 Jan 2026 10:00:00 +0800

在 AI 和云原生基础设施持续演进的 2026 年，镜像与模型分发正逐渐从“边缘优化点”转变为影响平台效率的重要环节。传统依赖中心化 Registry + CDN 的方式，在面对“大规模节点并发、大体积镜像或模型”的场景时，往往面临速度与成本的双重挑战。Dragonfly 正是在这样的背景下成长为 CNCF 毕业（Graduated）项目，并在 Ant Group、Alibaba、Datadog、DiDi、Kuaishou 等企业的生产环境中被采用，用于支撑容器与 AI 模型的高效分发。