运维转大模型：项目里真正好用的做法

技术琐事

87人浏览 · 2026-06-19 17:56:57

技术琐事 · 2026-06-19 17:56:57 发布

《运维转大模型：项目里真正好用的做法》看起来是个大话题，但真落到项目里，常常就是几个具体选择。下面我尽量按实际开发时会遇到的问题来讲。

摘要

本文概述文章目标、核心观点和实践价值。

> 摘要：从写 Shell/Python 脚本到搭 AIOps Agent，很多兄弟以为换个工具链就能直接上岗。实际做下来才发现，真正的坑不在模型调用，而在团队怎么协作、日志怎么结构化、以及 Agent 的边界怎么划定。这篇不聊虚的，只复盘我们在生产环境里跑通的一整套流程，包括踩过的坑、取舍的逻辑，以及怎么把这套东西写进简历里让面试官觉得“这人真干过”。

运维能力的迁移

文章插图 1

刚接触 LLM 时，最容易犯的错误是把所有运维动作都塞进一个 Prompt 里。比如“帮我看下这个 Pod 为什么 OOM，然后重启它，顺便发个钉钉通知”。模型确实能跑，但到了生产环境，这种“黑盒式”调用会让开发、测试和 SRE 三方互相扯皮。

我的建议很直接：**别一上来就搞智能体，先把手头的可观测性数据摸透。** 大模型本质是个概率引擎，你喂进去的数据质量决定了输出上限。我们团队转型的第一步不是买 GPU 或调参，而是把 Prometheus 指标、K8s 事件、应用日志统一打上标准化标签（如 `service_name`, `env`, `severity`）。只有数据源干净了，后续的 Agent 才有地方下手。

学习顺序上，我建议按 `基础编排 → 工具调用 → 状态管理` 的节奏走。很多人跳过工具调用直接啃框架，结果调试时连参数传错都不知道。记住一个判断标准：如果一个任务用正则+条件分支能在 50 行代码内写完，就别上 Agent。Agent 的价值在于处理**多步依赖、上下文长尾、且需要动态决策**的场景，比如跨多个微服务查依赖、根据实时流量阈值动态切换降级策略。

日志分析

文章插图 2

日志是运维的命脉，也是大模型最容易翻车的地方。早期我们试过直接把过去 24 小时的原始日志扔给模型让它“找规律”，结果 Token 消耗暴涨，而且模型经常把无关的 GC 日志当成根因。后来我们做了个硬约束：**日志不做全文检索，只做结构化抽取 + 窗口切片。**

具体做法是先用 FastLog 或自定义管道把原始日志清洗成 JSON Schema，提取关键字段（时间戳、错误码、堆栈片段、上下游 TraceID），再把这些结构化片段喂给 LLM 做语义聚合。这样不仅大幅降低 Token 成本，关键是**可维护性强**。Prompt 模板和抽取规则分开存放在 Git 里，版本控制和你的 K8s Manifest 一样走 CI/CD。团队协作时，开发改日志格式只需要在 PR 里同步更新 Schema，不需要去动一堆散落在各处的 Prompt。

另外，别迷信 RAG 向量检索。对于时序型日志，向量库的相似度匹配经常抓不到时间关联性。我们改用“时间窗口分桶 + 严重等级加权”的策略，配合简单的关键词索引，召回率反而更稳。面试或简历里如果写到日志分析模块，重点突出你怎么解决上下文截断和 Token 成本控制，这比单纯说“用了 LangChain”有说服力得多。

CSDN资料领取方式

告警归因

告警风暴是每个 SRE 的噩梦。大模型在这里的定位不是“替代规则引擎”，而是“关联推理助手”。我们的做法是把 Alertmanager 的告警经过去重后，注入一份轻量级的服务拓扑图（基于 ServiceMesh 或自建的关系表），再交给模型做因果推断。

这里有个关键取舍：**不要指望模型自己猜拓扑关系。** 它大概率会编造不存在的依赖链路。正确姿势是让 Agent 先调用拓扑查询 API，拿到确定的上下游关系后，再结合当前时刻的 CPU/内存/延迟指标做交叉验证。如果置信度低于阈值，直接路由给人工群，并附带它推理的路径截图。这种“人机协同”的设计在初期能快速建立团队信任，不会因为一次幻觉导致误删库或误停服务。

协作层面，我们把告警归因的输出格式固定为 YAML 结构：`root_cause_service`、`confidence_score`、`evidence_links`、`recommended_actions`。平台侧收到后自动推送到值班群，开发只需确认或驳回。长期跑下来，我们发现模型最擅长的是把碎片信息拼成故事线，而最终拍板必须留给人。

自动处置 Agent

跑通前两步后，自然要走到自动执行。这里我放一段我们在内部用的工具定义示例（基于 Pydantic + 异步调用逻辑），不涉及具体框架绑定，重点看设计思路：

from pydantic import BaseModel, Field
from typing import Literal
import httpx

class ServiceAction(BaseModel):
    service_name: str = Field(..., description="目标微服务名称")
    action_type: Literal["restart", "scale_up", "clear_cache", "dry_run"] = Field(
        ..., description="执行动作类型"
    )
    reason: str = Field(..., description="触发该动作的归因结论")

class OpsAgentTool:
    """模拟运维工具集，实际对接内部 CMDB 或 K8s Client"""

    async def execute_action(self, params: ServiceAction) -> dict:
        if params.action_type == "dry_run":
            return {"status": "preview", "message": f"拟对 {params.service_name} 执行 {params.action_type}", "risk_level": "low"}

        # 真实环境需加幂等锁与并发控制
        async with httpx.AsyncClient() as client:
            resp = await client.post(f"https://cmdb.internal/v1/services/{params.service_name}/action",
                                     json={"type": params.action_type, "reason": params.reason})
        return {"status": "executed", "trace_id": resp.headers.get("X-Trace-ID")}

这段代码看似简单，但里面藏了三个实战细节：
1. **参数强校验**：用 Pydantic 限定动作枚举值，避免模型自由发挥乱输命令。
2. **Dry-run 前置**：所有高危操作默认进入预览模式，配合审批流才能真跑。
3. **Trace 透传**：执行结果必须带唯一标识，方便后续审计和回滚。

Agent 的状态管理我建议保持无状态，依赖外部存储（Redis 或 DB）记录会话上下文。不要试图让模型记住整个上午的操作历史，那只会增加幻觉概率。每次调度只拉取最近 3 次关键节点的信息，既节省资源又保证决策新鲜度。

安全与审批

运维转 AI 平台，最怕的就是权限失控。我们定了一条铁律：**读操作全自动，写操作必审批，删除/变更类操作双人复核。** 这不是为了卡流程，而是为了让业务方敢用。

审批机制我们做了分层：

P3/P4 级别（如清理临时文件、查看日志）：Agent 直接执行，事后异步归档到审计表。
P2 级别（如重启非核心服务、扩容副本）：推送 IM 机器人请求确认，超时未响应则降级为人工派单。
P1 级别（如数据库连接池调整、网关路由变更）：必须线上会议或双签，Agent 仅作为辅助展示面板提供对比数据。

安全团队一开始反对得很厉害，但我们用“不可篡改的审计日志 + 全量指令回放”说服了他们。每条指令的输入 Prompt、模型输出、实际执行的 Shell/API、操作人 IP 和时间戳全部写入独立审计库，支持按时间轴逐帧回放。协作中，安全不是绊脚石，而是共建护栏的一方。把边界谈清楚，后续推进会顺畅很多。

总结

从传统运维转向 AIOps Agent，本质上是从“确定性执行”走向“概率性决策+确定性管控”的过程。别被各种框架名字绕晕，抓住三条主线：数据源标准化、工具调用显式化、审批边界契约化。

如果你正在准备简历或面试，建议按这个结构包装你的项目经验：
1. **背景与痛点**：告警疲劳 / 排查耗时 / 脚本维护成本攀升。
2. **架构取舍**：为什么选结构化日志而非全文向量；为什么保留人工审批节点。
3. **量化收益**：MTTR 下降比例、Token 成本压降幅度、误操作拦截次数、团队复用度。
4. **可复制资产**：Prompt 版本管理规范、工具注册表、审计回溯方案。

这条路没有捷径，但方向很清晰。先把可观测性底盘打牢，再把 Agent 当做一个需要严格约束的“数字同事”去养。跑通一个场景，沉淀一套规范，比盲目追求“全自动”实在得多。

资料展示

下面是我整理的AI大模型学习资料和工具包预览，适合收藏后按主题逐步学习。

AI大模型资料展示 1

AI大模型资料展示 2

AI大模型资料展示 3

AI大模型资料展示 4

如果你想看完整资料目录，可以在评论区留言「资料」；也欢迎告诉我你更关注AI大模型里的哪类内容。

CSDN官方大礼包

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

深度剖析Mac端本地AI记忆工具Goldfish：底层架构、上下文记忆原理、MCP协议交互与隐私安全全解

Goldfish是一款面向Mac平台的本地AI上下文记忆中间件，解决了主流AI工具的“金鱼记忆”问题（跨会话、跨应用上下文丢失）。其核心技术包括：通过Mac原生API实现全局屏幕内容采集（文本+OCR兜底），构建本地三级分层记忆架构（短期内存+中期SQLite+长期向量库），基于MCP协议与任意AI客户端通信，通过快捷键触发无感知上下文检索与生成。全程数据本地闭环，零云端上传，内存占用低于80MB

MCP技术社区

MCP协议：AI工具调用的HTTP，2026年不懂就落伍了

MCP（Model Context Protocol）是AI模型调用外部工具的标准协议，就像HTTP之于浏览器。2026年所有主流AI工具都支持MCP，超过10万个Server可用。核心价值：一次开发，所有工具通用。之前每个AI工具都要自己实现GitHub集成，现在共用一套标准。文章详解MCP三大角色、5分钟上手指南、常用Server配置、如何开发自己的Server，以及与Function Cal

MCP技术社区

Headroom：AI Agent 的上下文压缩层

Headroom是一款针对AI Agent的本地化上下文压缩工具，能显著降低大模型交互的token消耗。它支持多种数据类型（JSON、代码、文本、图片等）的智能压缩，内置六种专用算法，包括JSON精简、代码AST分析和ML文本压缩等。通过四种接入方式（库模式、代理模式、Agent包装和MCP服务），Headroom可实现92%的压缩率（如65,694 token→5,118），同时保持任务准确性。