大模型Agent原理(非常详细)大模型入门到精通,收藏这篇就够了
要想技术不迷路,还得从论文来学习,针对AI Agent 可以阅读这篇论《AGENT AI: SURVEYING THE HORIZONS OF MULTIMODAL INTERACTION》是由来自斯坦福大学、微软研究、加利福尼亚大学洛杉矶分校的研究人员对此进行了研究发表的。原文地址是:https://arxiv.org/pdf/2401.03568.pdf。本篇内容先介绍AI Agent的技术原
要想技术不迷路,还得从论文来学习,针对AI Agent 可以阅读这篇论《AGENT AI: SURVEYING THE HORIZONS OF MULTIMODAL INTERACTION》是由来自斯坦福大学、微软研究、加利福尼亚大学洛杉矶分校的研究人员对此进行了研究发表的。原文地址是:https://arxiv.org/pdf/2401.03568.pdf。
本篇内容先介绍AI Agent的技术原理,后面的一篇将基于技术原理来进行产品设计。
1.AI Agent是什么及架构
大语言模型(LLM)当前有两类GPT(闭源)和Llama2(开源),从GPT4.0就开始支持多模态,也就是说计算机可以理解不仅包括文本数据,还能理解更复杂的图片、视频、音频等类型格式的数据。
多模态是指:多种模态的信息,包括文本、图像、视频、音频等。这个概念主要研究的是这些不同类型的数据的融合问题,目的是让计算机能够更好地理解和处理多种类型的数据,从而更接近于人类的认知和感知方式。
同样是支持多模态的大语言模型LLM,比如文心一言、Bing、讯飞星火等大语言模型,它们都是支持多模态的,我们可以让他们绘画,它们会按照指令进行画画。那么这种大语言模型与Agent有什么差别呢?
LLM(比如文心一言等)它是根据用户输入的指令,被动的响应用户的指令并生成答案,答案生成的好坏会与使用者,也就是输入指令的用户的学识有关。当用户自身对某一类问题的描述不够清晰的时候,大语言模型输出的结果就不会特别让人满意。AI Agent,也称为智能代理,它解决了这类问题,是具备可以进行自主规划和执行的能力。能够感知外部环境,进行思考和执行,而这个过程也会与使用者进行社交(聊天)来真正发现用户的意图。AI Agent真正的是模拟人类大脑处理事务的能力。
通常人类解决问题或者处理事务的时候会经历如下步骤。①接受到指令信息;②进行分析和思考,如何去解决问题;③付诸行动去解决问题(处理事务);④处理后的问题是成功了还是失败了,有个效果的反馈。
比如你是企业的员工,领导给你的任务是,做个市场调研报告,然后进行汇报【这是指令】。然后你会思考怎么做汇报文件那?【这是分享和思考】经过一系列的思考,最后付出的行动是,首先进行市场竞品的大量调研,然后总结出规律和通用性,再写出汇报文档【这是付出行动】,最后,组织会议向领导汇报,领导给与了肯定【这是处理问题后的反馈】。
Agent的工作模式恰恰与人类处理事务的这几个步骤一致(不得不惊叹AI很厉害),这个过程就形成了AI Agent的大致框架,如图-1,图片来自复旦大学发表的LLM-based Agents 综述论文,论文地址https://arxiv.org/pdf/2309.07864.pdf
图-1 图片来源:论文LLM-based Agent 的框架的控制端(Brain)、感知端(Perception)和行动端(Action)
这个图片展示了LLM-based Agent 的框架,核心包含三个部分:控制端(Brain)、感知端(Perception)和行动端(Action)。这个图看着有点不容易理解,我把它进行了标注翻译,看图-2。
图-2 LLM-based Agent 的框架注释
通过图-2是不是就可以清晰的知道Agent处理一个事务的内部逻辑了。是不是符合人类解决问题或者处理事务的时候会经历如下步骤。①接受到指令信息——感知端;②进行分析和思考,如何去解决问题;——控制端③付诸行动去解决问题(处理事务);——行动端④处理后的问题是成功了还是失败了,有个效果的反馈。
-
感知端:从纯文本拓展到包括文本、视频、音频、图片等多模态领域,使智能代理(Agent)能够从周围环境中获取信息。
-
控制端:是智能代理(Agent)的核心,它进行知识存储、信息处理、智能决策等,通过推理,会对未知任务,反映出智能代理的结果。
-
行动端:除了文本输出,还有具身能力、使用工具的能力,使其能够更好地适应环境变化,通过反馈与环境交互,甚至能够塑造环境。
我们讲上面的逻辑和LLM-based Agent 的框架 画成简单的表示形式,就是大家在网络上看的多的结构框架图了,见下图-3。
图-3 LLM-based Agent 的结构框架
我们再通过刚刚的例子再以LLM-based Agent 的结构框架来进行通俗的说明。
比如你是企业的员工,领导给你的任务是,做个市场调研报告,然后进行汇报
-
感知模块:做个市场调研报告,然后进行汇报
-
规划模块:思考怎么做汇报文件,可能需要进行市场调研、总结规律和通用性、书写报告
-
行动模块:对规划模板的内容进行实际执行,并借助互联网能力(工具)进行了市场竞品的大量调研,然后总结出规律和通用性(使用了数据分析能力),再写出汇报文档(使用了ppt工具)最后,组织会议。
-
反馈模块:领导给与了肯定
理解这个逻辑后,作为产品经理的我们,这4个模块是不是我们输出一个PRD的时候也是经过这四个模块(步骤)?
2.AI Agent核心模块
我们将图-3进行进一步延展,就是网上流传的由OpenAI提出的Agent的模型图,图-4,图片来源《LLM Powered Autonomous Agents》。
图-4 OpenAI 的Agent模型图
产品经理不需要全部都了解,只知道和产品设计有关的几个核心模块即可,涉及到Memory、Planning、Action、Tools,分别来进行介绍。
Memory:记忆模块
通过图-4可知Memory模块包括短期记忆和长期记忆,其实和图-2控制端(Brain)是完全一样的逻辑。短期记忆和长期记忆也可以结合图-2来综合理解,我们就很容易理解它是什么意思了。
Short-term memory短期记忆:图-2上显示短期记忆它使用的是memory,也就是内存信息。我们思考,我们使用文心一言的时候,什么数据能够让AI决策,并且这个决策的信息是存储在内存的呢?其实我们知道我们在跟文心一言进行对话的时候,你问一句,TA答一句,而这些信息其实是存储在内存中的,这是上下文的信息。
Long-term memory长期记忆:还是结合图-2来解释说明图-2中长期记忆对应的部分是knowledge。我们结合Transformer的技术框架,可以知道AI它学习的基础是使用大量的语料库,而这个语料库我们可以认为是knowledge。所以来说,长期记忆是大量语料库的数据进行学习训练的。
Planning:规划模块
经过AI的学习和分析,将最终的结果生成可执行的最优的路径的输出,TA会经过不断的输入数据输出结果的一系列的学习过程。其实,这仍旧是Transformer的底层框架的能力(如何进行数据的输入和输出的),TA如何通过语料库和上下文的信息进行学习的过程,除了传统方面的技术框架能力以外,还有的能力就是进行自我反思和自我判断的能力,这属于强化学习的能力,并会结合环境的反馈,从中吸取错误的教训,最终提高返回的结果。
PS:本部分涉及到了Transformer的技术框架的知识,此知识点关注后面的文章内容。
Action和Tools :行动模块和工具调用模块
Action和Tools虽然OpenAI把这个拆分成了两个不同的模块,但是我们仍旧根据图-2对照的话,会发现其实它是一个模块,就是图-2中的action行动端对应的能力,包括3部分。
-
文本:AI大语言模型的基础能力,AIGC能力。
-
工具:通过调用外部应用程序工具,提升了模型本身能力,比如我们看见的很多插件(比如文心一言、讯飞星火等大模型都有插件功能)就是这个能力。
-
具身行动:机器人能够在现实环境中定位自身位置、感知周围物体,接收指定任务后与周围物体进行交互,从而实现任务目标,这类能力在现实世界中的机器人,或者游戏中的NPC等应用的比较多。
很多人给Agent都总结了个公式,那我也来一个吧。
Agent = LLM +memory+规划+决策+工具
3.遥想:
我就在想,未来某一天可能存在这样子的场景。也许这一天我已经老了,我跟我家的AI机器人说,你帮我订一份外卖我的胃口不是很好。然后机器人会根据我的指令结合我的个人饮食偏好进行思考和分析后下单,当外卖送来的时候,TA去门口将外卖取进来,并放在我的床边。整个的过程就是Agent。未来真的可以遇见机器人来服务老年人了,我的养老有保障了。
因为最近和我探讨Agent的人很多,并且Agent最近也是太火了,都不卷大模型开始卷Agent了,所以把原计划过几天分享的内容就提前分享了,后面会继续介绍Transformer的技术框架能力和Agnet的产品设计逻辑。
👉AGI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉AGI大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享
👉AGI大模型视频和PDF合集👈
观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
更多推荐
所有评论(0)