← 返回首页

SRE AI Agent 系列

从 0 搭一个实验排障 AI Agent · 全程记录

SERIES · 进行中

这个系列记录我基于一个开源 AIOps 项目,搭一个SRE 实验排障 AI Agent的全过程。

从架构选型、prompt 设计、工具调用、到 lesson learned——不会写成"完美教程",会更偏"一个 SRE 小白第一次玩 AI Agent 时踩的坑"。

这个系列会写什么

  • 为什么想做这个、解决了 SRE 日常哪个痛点
  • 选型对比:开源 AIOps 项目有哪些、各自适合什么场景
  • 架构设计:Agent + Tool + Memory 怎么组合
  • Prompt 工程:从"会回答"到"会排障"的迭代
  • 接入真实告警数据:从 demo 到生产化
  • 踩坑集:幻觉、上下文超限、敏感操作安全

系列目录

  1. 1
    我基于开源 AIOps 项目做了一个 SRE 实验排障 AI Agent
    序章 · 为什么做、选了什么、整体架构长什么样
    已发布
  2. 2
    选型对比:4 个候选 AIOps 开源项目
    横向对比,开搞前做的功课
    待写
  3. 3
    架构设计:Agent + MCP + 工具调用
    怎么把 LLM 和 SRE 工具链粘起来
    待写
  4. 4
    Prompt 调优实录
    从"会回答"到"会排障"的 5 个版本
    待写
  5. 5
    接入告警与日志:从 demo 到准生产
    Prometheus / Loki / 真实故障演练
    待写
  6. 6
    踩坑集 + lesson learned
    幻觉、超长上下文、敏感操作权限
    待写

关联链接

更新节奏

每周 1–2 篇,跟实验进展同步。最终目标:能让我自己(一个真 SRE)下班时间少被叫醒。

系列完结后会把所有代码 + 配置 + prompt 模板打包开源,单独的仓库。