function call 实战：让 LLM 自动判断 pod 异常、调用日志工具并完成故障分析

酷炫的水壶

168人浏览 · 2026-06-24 15:02:50

酷炫的水壶 · 2026-06-24 15:02:50 发布

先上代码

illustration-01

先获取 Pod 当前状态
让 LLM 判断这个状态是否需要进一步排查
如果需要排查，就要求 LLM 调用 get_pod_logs 工具拿日志
再让 LLM 基于日志输出问题原因、根因分析和修复建议

OpenAI 客户端初始化

这部分代码的作用，是初始化模型客户端，并从环境变量里读取模型名和接口地址

from openai import OpenAI
import json
import os


client = OpenAI(
    api_key=os.getenv("OPENAI_API_KEY"),
    base_url=os.getenv("API_BASE_URL")
)

model = os.getenv("DEFAULT_MODEL")

工具定义

声明可供模型调用的函数工具

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_pod_logs",
            "description": "获取Pod日志用于排查问题",
            "parameters": {
                "type": "object",
                "properties": {
                    "pod_name": {"type": "string"},
                    "namespace": {"type": "string"}
                },
                "required": ["pod_name"]
            }
        }
    }
]

有一个叫 get_pod_logs 的工具
这个工具是用来获取 Pod 日志的
它需要什么参数
哪个参数是必填的

function call 的本质不是让模型直接跑 python，而是让模型知道，有什么工具可以调用外部世界的接口

获取 Pod 状态和日志

接下来这两个函数，是本地实现的模拟逻辑，后期可以接入正式环境的数据，这里先用模拟数据

def get_pod_state(pod_name, namespace):
    # 可以用 kubectl 或 k8s API, 返回：Running / CrashLoopBackOff / OOMKilled 等
    return "CrashLoopBackOff"

def get_pod_logs(pod_name, namespace="default"):
    # 去日志平台上获取对应的日志即可
    return "ERROR: database connection failed\nException: timeout"

让 LLM 先判断是否有异常

下面这段代码，是第一次调用模型。

messages = [
    {
        "role": "system",
        "content": """你是Kubernetes运维专家。

判断 Pod 状态：
- 如果是 Running / 正常 → 返回 OK
- 如果是 CrashLoopBackOff / OOMKilled / Error → 返回 NEED_DEBUG

只返回 OK 或 NEED_DEBUG"""
    },
    {
        "role": "user",
        "content": f"Pod状态是: {pod_state}"
    }
]

resp = client.chat.completions.create(
    model=model,
    messages=messages
)

decision = resp.choices[0].message.content.strip()

LLM 调工具拿日志

如果真的有问题，调用预定义的函数获取相关信息

messages = [
    {
        "role": "system",
        "content": """你是一个Kubernetes故障诊断专家。

当Pod异常时：
1. 必须调用 get_pod_logs 获取日志
2. 根据日志分析问题
3. 输出：
   - 问题原因
   - 根因分析
   - 修复建议
"""
    },
    {
        "role": "user",
        "content": f"Pod {pod_name} 状态是 {pod_state}，请排查问题"
    }
]

response = client.chat.completions.create(
    model=model,
    messages=messages,
    tools=tools
)

这里和第一轮最大的区别，就是多传了一个 tools=tools，这意味着模型此时知道自己可以发起函数调用，随后代码会检查模型是否真的触发了工具调用：

msg = response.choices[0].message

if msg.tool_calls:
    tool_call = msg.tool_calls[0]
    args = json.loads(tool_call.function.arguments)

拿到工具调用后，再由本地 Python 去真正执行：

logs = get_pod_logs(**args)

然后把工具执行结果，再喂回模型，让它基于日志继续完成最终分析：

final_resp = client.chat.completions.create(
    model=model,
    messages=[
        *messages,
        msg,
        {
            "role": "tool",
            "tool_call_id": tool_call.id,
            "content": logs[:3000]
        }
    ]
)

执行链路

illustration-02

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

cover

一人公司必看：Agent 不是升级版 ChatGPT，是你的临时同事

MCP技术社区

cover

AIAgent+RAG：构建企业级AI数据助手

MCP技术社区

cover

最好的VibeCoding宣讲材料

MCP技术社区

所有评论(0)

查看更多评论

酷炫的水壶

已为社区贡献1条内容