🏆 AI Agent 综合面试题库(15+ 高频真题带解析,考前突击必背!)

恭喜你学完了 AI Agent 的基础核心知识!在真正的面试中,面试官往往不会照本宣科地问概念,而是会把你放在实际的工程场景中,考察你的架构思维避坑经验以及解决复杂问题的能力

下面这份题库包含了定义、对比、架构设计、工程落地与治理等全方位的高频面试题。建议你在复习时先自己尝试回答,然后再对照“标准答案与应对策略”。


💡 一、 概念与基础对比类

Q1:请用你自己的话定义 LLM Agent,并说明它与“单次调用大模型”的本质差异。

标准答案
LLM Agent 是以大语言模型为推理核心,在多轮交互中与外部环境互动,通过规划 (Planning)、记忆 (Memory) 与工具 (Tools) 完成复杂任务的系统。
本质差异:单次调用是开环生成(一次输入一次输出);而 Agent 是闭环决策,它在每一步都会依据工具返回的观察结果(Observation)更新状态,直到满足终止条件才结束。

🔥 追问应对:如果面试官问“没有外部工具还能叫 Agent 吗?”
你可以回答:可以称为「弱环境」Agent,它依然有对话记忆与内部的思考验证循环。但在面试语境中,我们通常强调具备「行动—观察」闭环的才是一个完整的 Agent 系统。

Q2:ReAct 框架里这五个字母代表什么?它主要解决了什么问题?

标准答案
ReAct 是 Reasoning + Acting(推理 + 行动) 的缩写。它是让模型在生成过程中交替进行推理(Thought)与行动(Action),并接收环境的观察反馈(Observation)。
解决的问题:大模型仅靠内部知识“空想”极容易产生事实幻觉。ReAct 通过显式推理结合工具反馈,把大模型的推理锚定在真实环境的数据上,做到了言之有物、错之能改。

Q3:多 Agent 协作系统(Multi-Agent)和“单 Agent + 多工具”怎么选?

标准答案

  • 单 Agent + 多工具:实现简单、延迟低。适合任务边界清晰、模型依靠自身能力就能统筹所有工具的场景。
  • 多 Agent:适合需要角色分工、并行探索或对抗审查(例如:一个 Agent 写代码,另一个专门负责挑错)的场景。缺点是会带来高昂的协调成本和数据一致性问题。
  • 选型核心:看任务的分解结构、组织的边界、以及对延迟和 Token 成本的敏感度。

Q4:举一个“不是 Agent,但常被误认为 Agent”的例子。

标准答案
最典型的就是固定三步的 RAG 流水线(Query改写 →\rightarrow 向量检索 →\rightarrow 总结生成)。如果它只是按固定代码顺序执行,没有基于“观察结果”的再决策循环,那它更像是一个 Prompt Chain(提示链)。
如果在其中加入了多轮检索策略(比如发现没查到,就主动换个词再查),并包含失败分支处理,这才接近 Agent。


⚙️ 二、 架构设计与工程治理类

Q5:你会如何设计 Agent 的“停止条件(Stop Condition)”?

标准答案
在工程中绝对不能只依赖单一条件,必须组合使用

  1. 正常完成:模型自主声明 finish
  2. 目标达成:任务清单 (To-Do List) 上的状态全部变为 Done
  3. 硬性护栏:达到预设的最大步数 (Max Steps) 或 Token 预算上限。
  4. 死循环拦截:检测到连续无进展的重复动作。
  5. 超时控制:整体任务耗时超过阈值。
  6. 外部信号:比如自动化测试用例全部通过。

Q6:工具描述(Tool Description)为什么非常重要?

标准答案
因为大模型完全是依靠描述来做路由和工具选择的!这相当于大模型的“API 文档”。描述不清会导致模型选错工具,或者凭空捏造参数(参数幻觉)。
好的描述必须包含:这个工具是干嘛的、何时用、何时不用、参数的具体含义、错误调用的示例,以及预期的返回格式。

Q7:Agent 的记忆系统,只用向量数据库(Vector DB)够吗?

标准答案
不够。向量检索擅长处理模糊的语义相似度,但在精确约束和关系推理上非常弱。
在实际工程中,通常是混合架构:

  • 向量库处理长文本和非结构化知识;
  • 关系型数据库/结构化库处理精确的订单、时间状态;
  • (按需)图数据库处理复杂的人物/事件关系;
    并且还需要维护元数据(Metadata)进行权限隔离。

Q8:上下文窗口越来越大(比如 1M tokens),还需要外部记忆系统吗?

标准答案
仍然需要。长窗口不等于低成本,也不等于可检索、可治理、可遗忘。
外部记忆能解决长窗口无法解决的:跨会话的持久化、结构化权限隔离、版本回溯与溯源。长窗口更适合作为“超大容量的热工作集”,而不是替代持久化存储。

Q9:如何做“人在回路(Human-in-the-loop)”又不打断用户体验?

标准答案
核心是做分级授权管理

  • 低风险操作(如查资料、总结):自动执行。
  • 中风险操作(如修改草稿):异步审批,执行后发通知。
  • 高风险操作(如转账、删库、群发邮件):实时阻塞,强制前端弹窗确认。
    并且产品上要支持预授权(比如授权本次会话可读取某文件夹)和一键撤销功能。

🛡️ 三、 安全、评估与排障类

Q10:企业内部落地 Agent,你最先关心哪三个非功能需求?

标准答案

  1. 安全与合规:数据隔离、权限控制、操作审计日志。
  2. 可控性:人在回路、工具白名单机制。
  3. 可观测性:详细的操作轨迹(Trace)、性能指标监控、支持录像回放。

Q11:如何防止 Prompt 注入(Prompt Injection)?

标准答案

  1. 工具层鉴权:不能信任模型传递的用户身份,必须与系统真实登录身份绑定。
  2. 结构化分隔:在 Prompt 中用特殊的 XML 标签把用户的不可信输入与系统指令物理隔离开。
  3. 敏感操作隔离:高危操作必须进行二次确认。
  4. 输出审查 (DLP):拦截模型输出中的敏感词或机密信息。

Q12:Agent 的审计日志(Log)应该记录什么?

标准答案
为了便于复盘与合规审计,至少应包含:
脱敏后的用户输入、大模型的原始输出(Thought + Action)、解析后的工具调用及其参数、工具返回的结果摘要、耗时与 Token 消耗统计、模型与 Prompt 的版本号,以及能串起整个链路的 Trace ID

Q13:为什么“让大模型自己选工具(全路由)”可能不如“路由器 + 规则”?

标准答案
在垂直且窄域的场景下,业务路径非常稳定。如果全让大模型路由,不仅成本高、延迟大,而且行为具有不可预测性。
采用“规则路由器”能做到行为 100% 确定且极易测试。最佳实践通常是混合型:容易分类的常规请求走轻量规则路由,难处理的长尾请求再交给大模型。

Q14:你如何向非技术背景的经理解释 Agent 的潜在风险?

标准答案
可以用**「一个能力很强但涉世未深的实习生」**来类比:他办事能力很强,但可能记错规矩、被人用花言巧语骗过、或者一不小心点错了关键按钮。
因此,我们必须给他发“限制权限的工牌”(最小权限原则),重大决定必须找导师签字(人在回路),并且他的电脑操作必须有录像(审计日志)。

Q15:简述 Planner-Executor 架构及其优缺点。

标准答案

  • 架构:Planner(规划者)负责产出全局步骤或执行图(DAG);Executor(执行者)负责按图索骥逐步执行,并将结果反馈,必要时触发重规划(Re-plan)。
  • 优点:结构清晰、极易加上人工校验节点和安全规则。
  • 缺点:在环境多变时,规划一次往往不准,需要频繁重规划;两阶段执行会显著增加整体的响应延迟。

Q16:怎么测试一个复杂的 Agent 系统?

标准答案
绝对不能只测最终答案。必须采用分层测试

  1. 单元测试:针对 Agent 依赖的各个工具接口进行传参和返回值测试。
  2. 模拟环境回归:在固定状态的沙箱环境里,用固定的任务集测试 Agent 的轨迹范围是否符合预期。
  3. 对抗测试:输入恶意指令(注入)、越权尝试,测试系统的拦截率。
  4. 线上监控:采用金丝雀发布(灰度发布),观测线上真实错误率。

📝 课后作业:动手实践

理论看百遍,不如手敲一遍!
建议你在读完这份面试题库后,打开你常用的代码编辑器,尝试用 Python(在 200 行代码以内)手写一个带有以下功能的极简 Agent:

  1. 带有一个加法计算器工具。
  2. 带有 max_steps 步数限制。
  3. 刻意在工具代码里抛出一个异常(比如参数类型错误),观察你的 Agent 是否能捕获异常,并自己在下一次循环中修正参数。
    如果能把这个小 Demo 跑通,你对 Agent 的理解将超过 80% 的面试者!

在这里插入图片描述

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐