2025年热门的AI Agent方向及国内外代表产品

leah126

944人浏览 · 2026-02-02 14:06:37

leah126 · 2026-02-02 14:06:37 发布

2025年作为Agent发展元年，Manus敲响了AI 应用大发展的号角，各种Agent应用层出不穷。这些智能体基本框架是怎样的，哪些更有前景？

最近在海外看到一张「2025 年 AI Agent 技术趋势全景图」，觉得非常精彩，分享出来和大家交流。

这张图是《Agentic AI：利用 AI 代理重塑商业与工作》作者拉凯什·戈赫尔所做，看趋势图之前，可以先看这张涵盖LLM Workflow、RAG、AI Agent、Agentic AI等常见概念名词的解读。

再来重点看这张趋势图，把未来一年最有可能落地的 Agent 形态、核心协议栈、工程框架与典型场景全部压缩在一张图里，非常清晰明了帮助大家完整理解Agent。

中心主题

中间的圆环标明了 2025 AI Agent Trends 的六大类趋势：

Agentic RAG（推理型检索增强生成）

Voice Agents（语音智能体）

CUA（Computer Using Agents，能像人类一样操作电脑的智能体）

Coding Agents（代码智能体）

Deep Research Agents（深度研究型智能体）

Agent Protocols（智能体协议）

六大Agent趋势的外圈是代表产品，圆圈四周是每个Agent的流程图。我们来具体解读下，这里在每个Agent领域，鲸哥增加了国内这个类型的代表产品。

6大 Agent 模式

Agentic RAG

定义：一种结合检索与推理的 AI 智能体工作流，用于实时数据检索和生成。

流程：

Memory（记忆）：保存上下文信息

Planning（规划）：确定任务步骤

System Prompt（系统提示）：定义任务逻辑

Agent（智能体）：执行任务

Tools（工具） + Vector Search（向量搜索） + Knowledge DB（知识库）：从外部数据库检索信息

Generate（生成）：输出结果

国外代表：

PerplexityAI：主打即时信息检索+引用来源，类似搜索引擎+AI顾问

Harvey：面向法律行业的专业推理与检索

Glean：企业内部知识检索与智能问答

国内代表：

秘塔AI搜索：聚焦本地化搜索+实时问答

百度文心一言 + 搜索增强：结合百度搜索做事实检索

360纳米搜索：整合360搜索的即时信息流

Voice Agents

定义：通过自然语言与用户交互的智能体，支持语音输入与输出。

STT（Speech-to-Text）将语音转文字

Embedding Model + Retrieval API + Vector DB 处理信息

Agent 进行任务执行

TTS（Text-to-Speech）将结果转为语音

可接入 Gmail、Telephony 等渠道

场景：智能客服、语音助理、电话机器人

国外代表：

OpenAI GPT-4o Voice：多模态对话，低延迟语音交互

Alexa LLM（亚马逊）：智能家居+语音助手

Apple Siri（升级版）：与Apple Intelligence结合的智能助手

Meta’s Voicebox（研发中）：多语言语音生成

国内代表：

豆包：强实时语音识别与合成

小爱同学（小米）：深度嵌入IoT生态

天猫精灵（阿里）：智能家居+购物语音控制

华为小艺：跨设备语音助手

CUA（Computer Using Agents）

定义：能够像人类一样操作电脑的软件和界面。

使用语言模型解析用户指令

获取桌面环境数据（Desktop Sandbox）

结合 Vector DB、Memory、第三方工具（如 Stripe、DoorDash）执行任务

场景：自动化办公、桌面软件操作、RPA（机器人流程自动化）

国外代表：

Devin（Cognition AI）：能直接在电脑环境中开发、调试、部署代码

MultiOn：能代替用户操作网页、表格、日历等

Adept ACT-1（研发暂停）：早期探索自动化办公

国内代表：

扣子空间（字节跳动）：低代码构建多场景桌面操作

MuleRUN：具备系统级操作的能力

Fellou：网页与桌面操作的自动化执行

Coding Agents

定义：能 10 倍速构建和调试应用的 AI 智能体。

用户提出 Query

Agent 选择合适工具执行（代码生成、调试、测试）

输出成品代码或测试结果

工具链：

Code Generator：生成代码

Code Debugger：调试代码

Test Runner：自动化测试

场景：软件开发、自动化调试、代码审查

国外代表：

GitHub Copilot Workspace：支持从需求到部署的全链路编码

Cursor：IDE级AI编程助手

Replit Agents：可多步生成、运行、调试代码

国内代表：

通义灵码（阿里）：嵌入IDE的代码生成与调试

百度Comate：结合文心大模型的智能编程工具

字节Trae：全流程的AI IDE产品

Deep Research Agents

定义：多智能体协作，构建深度研究型报告。

用户需求 → Aggregator（聚合器）

分发给多个 Sub-Agent（子智能体）

各自检索、引用（Citation Agent）、分析

聚合输出报告

场景：市场调研、学术研究、情报分析

国外代表：

OpenAI Deep Research（2025新功能）：多Agent长期调研

Perplexity Pro Search：支持多步调研与引用

LangChain + Agents：自定义研究工作流

Vulcan Research AI：行业情报自动生成

国内代表：

夸克深度搜索：支持多轮长程研究

阿里通义助理 Deep Search：针对行业报告和市场分析

百度文心智研：自动生成调研大纲与全文

AI Agent Protocols

定义：统一的多智能体通信协议，简化跨平台协作。

关键技术：

MCP、ACP、A2A（Agent-to-Agent）协议

Google ADK、LangGraph、Cisco SLIM

Agent 发现与连接

任务流转与结果回传

支持流式与非流式数据处理

意义：打通不同智能体和工具间的交互，形成互通生态

国外代表：

Google AI Device Kit（ADK）：多Agent跨设备调用

LangGraph：可视化多智能体协作编排

Cisco SLIM：企业级Agent通信标准

OpenAI MCP（Model Context Protocol）：跨模型的上下文共享

国内代表：

字节跳动Coze协议层：支持不同Bot的消息与任务协作

阿里云AgentFlow：跨Agent编排与协议转换

腾讯云智链协议：支持企业多Agent互通

华为MetaAgent标准：IoT与大模型互通协议

整体趋势总结

戈赫尔还制作了Agent L1-L5的发展标准：

Level 5 – 完全自治智能体

具备自我改进能力，完全自主
持续学习与推理
无需人工干预

Level 4 – 半自治智能体

以目标为驱动，具备多模态感知
能感知复杂环境
能基于过往经验进行规划

Level 3 – 智能体工作流

能基于反馈进行推理和学习
具备自然语言理解
工具编排

Level 2 – 智能自动化

基础AI系统，自治性有限
简单机器学习用于模式识别
提供部分决策支持

Level 1 – 基于规则的自动化

刚性、基于规则的系统，无学习能力
简单的 if-then 逻辑
手动使用工具完成操作
无适应性和智能

如何学习AGI大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

**

一、2025最新大模型学习路线

一个明确的学习路线可以帮助新人了解从哪里开始，按照什么顺序学习，以及需要掌握哪些知识点。大模型领域涉及的知识点非常广泛，没有明确的学习路线可能会导致新人感到迷茫，不知道应该专注于哪些内容。

我们把学习路线分成L1到L4四个阶段，一步步带你从入门到进阶，从理论到实战。

L1级别:AI大模型时代的华丽登场

L1阶段：我们会去了解大模型的基础知识，以及大模型在各个行业的应用和分析；学习理解大模型的核心原理，关键技术，以及大模型应用场景；通过理论原理结合多个项目实战，从提示工程基础到提示工程进阶，掌握Prompt提示工程。

L2级别：AI大模型RAG应用开发工程

L2阶段是我们的AI大模型RAG应用开发工程，我们会去学习RAG检索增强生成：包括Naive RAG、Advanced-RAG以及RAG性能评估，还有GraphRAG在内的多个RAG热门项目的分析。

L3级别：大模型Agent应用架构进阶实践

L3阶段：大模型Agent应用架构进阶实现，我们会去学习LangChain、 LIamaIndex框架，也会学习到AutoGPT、 MetaGPT等多Agent系统，打造我们自己的Agent智能体；同时还可以学习到包括Coze、Dify在内的可视化工具的使用。

L4级别：大模型微调与私有化部署

L4阶段：大模型的微调和私有化部署，我们会更加深入的探讨Transformer架构，学习大模型的微调技术，利用DeepSpeed、Lamam Factory等工具快速进行模型微调；并通过Ollama、vLLM等推理部署框架，实现模型的快速部署。

整个大模型学习路线L1主要是对大模型的理论基础、生态以及提示词他的一个学习掌握；而L3 L4更多的是通过项目实战来掌握大模型的应用开发，针对以上大模型的学习路线我们也整理了对应的学习视频教程，和配套的学习资料。

二、大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

三、大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

四、大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

五、大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

AI Agent Harness故障自愈：自动恢复机制

首先，我们得明确几个在全文中会反复出现、必须先建立共识的极简定义AI Agent：一个具备“感知（Perceive）- 思考（Reason）- 行动（Act）- 记忆（Memory）”四阶闭环能力的智能体，它不是单个大模型，而是由 LLM/ChatGLM/Qwen 等大模型底座、工具链调用模块、长期/短期记忆系统、对话/任务状态机、多模态感知接口等组件拼接而成的“智能协作单元”。：我更愿意把它翻译

MCP技术社区

AI Agent Harness Engineering 的定价模型：从成本导向到价值导向的完整策略设计

AI Agent Harness Engineering是一个新兴领域，专注于设计、构建和维护能够有效"驾驭"AI智能体的框架、工具和方法论。它涵盖了从智能体的部署、监控、治理到价值评估的全生命周期管理。随着企业对AI Agent依赖程度的增加，如何为这些"驾驭"系统定价，成为了一个既关键又复杂的问题。传统的软件定价模型（如许可证、订阅制）在AI时代面临着新的挑战。AI Agent的运行成本不仅包

MCP技术社区

Go的runtime.GOMAXPROCS：设置最大CPU核心数

通过runtime.NumCPU()获取核心数后，结合基准测试（Benchmark）验证不同配置下的QPS和延迟，找到最优值。例如，在资源受限的容器环境中，合理设置该值可以避免资源争抢，而在计算密集型任务中，适当增加核心数能显著提升吞吐量。Go语言作为现代高并发编程的代表，其调度器的设计一直是开发者关注的焦点。其中，runtime.GOMAXPROCS函数作为控制程序最大CPU核心数的关键参数，直