Agentic入门实战_01｜Agent基础认知与大模型知识

小敢摘葡萄

406人浏览 · 2026-03-05 11:51:52

小敢摘葡萄 · 2026-03-05 11:51:52 发布

本文详细介绍了AI智能体（Agent）的基础定义、核心特征与发展演进，重点阐述了大语言模型（LLM）在智能体中的“大脑”作用。通过实战代码演示了基于OpenAI规范的大模型调用方法，为开发者提供了从感知到思考再到行动的智能闭环实现基础。文章适合AI小白和程序员学习，帮助他们掌握利用LLM开发智能体的核心技能，并提供了收藏建议。

概述

Agent（智能体）作为连接大模型与实际业务场景的核心载体，正成为AI应用开发的重要方向。

从简单的对话机器人到复杂的自主决策系统，Agent的核心价值在于实现 感知-思考-行动 的智能闭环，而大语言模型（LLM）则为Agent赋予了真正的“思考”能力。

本文将从Agent的基础定义出发，理清其核心特征与发展演进，同时结合实战代码，讲解基于主流接口规范的大模型调用方法，为 Agentic 开发打下基础。

Agent（智能体）介绍

在人工智能领域，Agent被正式定义为：能够通过传感器感知所处环境，自主通过执行器采取行动，以达成特定目标的实体。这一定义涵盖了Agent的三大核心环节，类比人类的行为模式，能更直观地理解：

感知（Sensors）：对应人类的眼睛、耳朵、鼻子等感官，是Agent获取外部环境信息的渠道，比如聊天机器人接收用户的文字输入、智能机器人通过摄像头采集环境图像；
思考（Reasoning）：对应人类的大脑，是Agent的核心环节，负责对感知到的信息进行分析、判断与决策，也是区分“智能”与“非智能”的关键；
行动（Actuators）：对应人类的嘴巴、手、脚等肢体，是Agent将思考结果转化为具体行为的载体，比如聊天机器人生成回复文字、智能机器人执行移动指令。

在这三大环节中，**“自主”**是Agent的灵魂。所谓自主，意味着Agent无需人工实时干预，能够根据环境信息独立完成思考与行动，这也是Agent与传统程序的本质区别——传统程序是“输入-固定逻辑-输出”的机械执行，而Agent则具备自主的决策能力。

以聊天机器人为例，其核心需求是根据用户输入生成“智能”回复，即理解用户意图并给出合理反馈。如果剥离“自主思考”的智能属性，仅通过简单函数就能实现对话交互，但这样的交互毫无智能可言，这也引出了Agent从“非智能”到“智能”的发展历程。

Agent 发展演进

从非智能交互到LLM驱动的智能体。 在LLM出现之前，人们尝试过多种方式实现对话类Agent，但均因缺乏真正的思考能力，存在难以解决的性能与扩展性问题，主要分为三类非智能实现方式：

1. 固定模式回复

这是最基础的实现方式，为特定输入匹配固定输出，本质是简单的键值对映射。比如用户输入“你好”，机器人回复“你好”；用户输入“你吃饭了吗？”，机器人也重复“你吃饭了吗？”。这种方式完全无自主思考，仅能处理预设的有限场景，新增需求需逐个添加映射关系，扩展性为0。

2. 随机生成字符串

通过程序随机生成字符组合作为输出，看似有“自主输出”的表象，实则完全脱离用户输入意图，输出内容毫无逻辑与价值，无法实现有效的人机交互，仅能作为技术尝试，无实际应用意义。

3. 基于规则的模式匹配与文本替换

这是比前两种更进阶的方式，通过预设规则对用户输入进行模式匹配，再结合文本替换、代词转换等逻辑生成输出。比如用户输入“My mother is afraid of me”，程序匹配到“家庭关系”相关规则，通过代词转换（my→your）生成“Tell me more about your family.”的回复。

这种方式实现了一定的“交互连贯性”，但缺陷依然明显：随着业务场景的丰富，规则的数量和复杂度会呈指数级增长，不仅开发维护成本极高，还会引发系统性能下降、规则冲突等可靠性问题，无法实现真正的智能交互。

而大语言模型（LLM）的出现，彻底解决了Agent的“思考”难题。LLM通过海量数据训练，具备强大的自然语言理解、逻辑推理与生成能力，能够根据用户输入自主理解意图、生成合理输出，让Agent真正拥有了“大脑”，也推动Agent从“非智能”迈入“智能”时代。

LLM 与 Agent 的关系

LLM（Large Language Model）即大语言模型，是现阶段Agent开发的核心基础，其在Agent系统中的定位就是负责思考的“大脑”。对于Agent开发者而言，我们无需深入理解LLM的底层训练原理、神经网络结构，因为LLM对我们来说是一个**“黑盒”**——就像我们无需了解人类大脑的神经运作，依然能正常思考和行动一样。

这个“黑盒”具备一个简单且统一的交互逻辑：输入为字符串，输出也为字符串。无论内部的算法和算力多么复杂，开发者只需向LLM输入符合规范的文本信息，就能得到其生成的合理文本输出，而这正是Agent实现“思考”的核心逻辑。

当然，这个强大的“思考引擎”并非免费，绝大多数商用LLM都会提供标准化的API接口，开发者通过调用接口实现大模型的使用，按调用量或套餐进行付费。

而在众多LLM API接口规范中，OpenAI和Anthropic的接口规范成为行业主流，几乎所有主流大模型厂商（如智谱AI、百度、阿里等）都对其做了适配，这也让开发者能够基于统一的规范，灵活切换不同的大模型，降低开发成本。

基于OpenAI规范调用大模型

接下来我们以OpenAI接口规范为例，结合Python代码实现大模型的简单调用，本次实战选用阿里云百炼平台上的通义千问（Qwen）模型，实现基础的人机对话交互，这也是Agent开发中最基础的“思考环节”实现。

1. 前置准备

获取阿里云百炼平台的API Key。前往阿里云百炼控制台

https://bailian.console.aliyun.com

注册账号，在控制台获取专属 API Key（<DASHSCOPE_API_KEY>）。

2. 核心代码实现

Python环境

import osfrom openai import OpenAItry:    client = OpenAI(        # 若没有配置环境变量，请用阿里云百炼API Key将下行替换为: api_key="sk-xxx",        api_key=os.getenv("DASHSCOPE_API_KEY"),        base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",    )    completion = client.chat.completions.create(        model="qwen-plus",  # 模型列表: https://help.aliyun.com/model-studio/getting-started/models        messages=[            {'role': 'system', 'content': 'You are a helpful assistant.'},            {'role': 'user', 'content': '你是谁？'}        ]    )    print(completion.choices[0].message.content)except Exception as e:    print(f"错误信息：{e}")    print("请参考文档：https://help.aliyun.com/model-studio/developer-reference/error-code")

Python在线运行环境

https://www.hyperfind.cn/web/run/python

PHP环境

<?php// 设置请求的URL$url = 'https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions';// 若没有配置环境变量，请用阿里云百炼API Key将下行替换为：$apiKey = "sk-xxx";$apiKey = getenv('DASHSCOPE_API_KEY');// 设置请求头$headers = [    'Authorization: Bearer '.$apiKey,    'Content-Type: application/json'];// 设置请求体$data = [    // 模型列表：https://help.aliyun.com/model-studio/getting-started/models    "model" => "qwen-plus",    "messages" => [        [            "role" => "system",            "content" => "You are a helpful assistant."        ],        [            "role" => "user",            "content" => "你是谁？"        ]    ]];// 初始化cURL会话$ch = curl_init();// 设置cURL选项curl_setopt($ch, CURLOPT_URL, $url);curl_setopt($ch, CURLOPT_POST, true);curl_setopt($ch, CURLOPT_POSTFIELDS, json_encode($data));curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);// 执行cURL会话$response = curl_exec($ch);// 检查是否有错误发生if (curl_errno($ch)) {    echo'Curl error: ' . curl_error($ch);}// 关闭cURL资源curl_close($ch);// 输出响应结果echo $response;

PHP在线运行环境

https://www.hyperfind.cn/web/run/php

3. 代码关键说明

客户端初始化：通过base_url指定模型的接口地址，api_key完成身份验证，这是所有LLM API调用的基础步骤。
messages参数：这是OpenAI接口规范的核心，由多个字典组成，每个字典包含role（角色）和content（内容），支持的核心角色有：

system：系统角色，用于定义大模型的行为、性格、回复规范，是对大模型的“全局设定”；
user：用户角色，代表人类用户的输入，是大模型需要处理的核心信息；

4. 运行结果示例

执行上述代码，大模型将生成贴合需求的简洁回复，示例如下：

{    "model": "qwen-plus",    "id": "chatcmpl-9d0286c3-5c86-9a50-a41c-8271e6d42d43",    "choices": [        {            "message": {                "content": "你好！我是通义千问（Qwen），阿里巴巴集团旗下的超大规模语言模型。我能够回答问题、创作文字，比如写故事、写公文、写邮件、写剧本、逻辑推理、编程等等，还能表达观点，玩游戏等。如果你有任何问题或需要帮助，欢迎随时告诉我！😊",                "role": "assistant"            },            "index": 0,            "finish_reason": "stop"        }    ]}

小结

本文作为Agentic入门实战的第一篇，我们理清了Agent的核心定义、特征与发展演进，明确了LLM是现阶段Agent的核心思考引擎这一关键结论，同时通过实战代码实现了基于OpenAI规范的大模型调用。核心要点回顾：

Agent的核心是感知-思考-行动的智能闭环，“自主思考”是其灵魂；
LLM作为Agent的“大脑”，对开发者而言是输入输出均为字符串的“黑盒”，无需深入理解底层原理；
OpenAI和Anthropic的接口规范是行业主流，开发者可基于此灵活调用不同厂商的大模型；
大模型的基础调用核心是messages参数的设计，通过不同角色的组合实现精准的意图传达。

本次实战实现的是大模型的单次简单调用，而实际的Agent开发需要在此基础上，结合环境感知和行动执行环节，实现智能闭环。

后续我们将逐步讲解多轮对话、上下文管理、Agent的行动器设计等内容，让Agent真正具备“感知-思考-行动”的完整能力。

如何学习AI大模型？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。
在这里插入图片描述

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

在这里插入图片描述

👉4.大模型实战项目&项目源码👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战项目来学习。（全套教程文末领取哈）
在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程文末领取哈）
在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（全套教程文末领取哈）
在这里插入图片描述

为什么分享这些资料?

只要你是真心想学AI大模型，我这份资料就可以无偿分享给你学习，我国在这方面的相关人才比较紧缺，大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

Codex一年写废640TB硬盘：AI工具的隐性开销

MCP技术社区

网心技术 | 小模型做 Agent：可能性、方向与未来

一个理想的小模型 Agent，应当在模型契约层有可靠的结构化调用能力，在生态层接入 MCP 这样的标准化工具网络。在金融领域的 8 类任务中，<10B 模型在需要多步推理的任务上（如因果分析、趋势预测）与大模型的差距最大，且增加 Agent 工具并不能弥补推理缺陷，工具帮助的是信息获取，而非逻辑推理。3.8B 的 Phi-4-mini 在 AIME 2025（美国数学奥林匹克预选赛）上接近了 67

MCP技术社区

Token经济视角：极简DSL如何解决AI富UI渲染的算力

Token 经济不只是简单的字符精简，而是 AI 应用规模化落地时代必不可少的底层设计思路。过去行业普遍将优化重心放在提示词、模型选型，却忽视 UI 描述格式带来的长期隐形成本，向量空间 JBoltAI 通过 TokUI DSL 重新定义 AI 富 UI 的表达标准，在极低 Token 消耗、原生流式渲染、完整交互三者之间找到平衡。随着 AI Agent、智能数据分析、企业智能工作台需求持续爆发，