MCP(Model Context Protocol)全面研究报告:一文讲清楚概念、实践与未来趋势
Anthropic于2024年推出了模型上下文协议(Model Context Protocol,简称MCP)这一开放标准,其目的是对AI模型与外部数据源、工具之间的交互方式进行规范。本报告整合多篇专业文章,对MCP的核心概念、架构设计、工作原理、开发实践以及应用场景展开全面解析,探究它在企业环境、开发者工具集成等领域的潜力,同时分析其未来的发展趋势与面临的挑战。MCP借助标准化的客户端 - 服务
Anthropic于2024年推出了模型上下文协议(Model Context Protocol,简称MCP)这一开放标准,其目的是对AI模型与外部数据源、工具之间的交互方式进行规范。本报告整合多篇专业文章,对MCP的核心概念、架构设计、工作原理、开发实践以及应用场景展开全面解析,探究它在企业环境、开发者工具集成等领域的潜力,同时分析其未来的发展趋势与面临的挑战。MCP借助标准化的客户端 - 服务器架构,具备资源访问、工具调用、提示响应和采样反馈等能力,为打造更安全、更灵活、更强大的AI应用筑牢了根基。
1、 MCP概述:AI领域的"USB-C接口"
1.1 定义及核心价值
Anthropic于2024年11月发布开源开放协议标准——MCP(模型上下文协议,Model Context Protocol),该协议为AI应用程序(如大语言模型)与各类外部数据源及工具之间的上下文信息交换制定了标准规则。MCP并非具体软件,而是一套规则与消息格式,旨在为“主机”(Host)和“服务器”(Server)构建安全且结构化的通信通道。
MCP的核心价值可从以下维度解读:
价值维度 | 具体表现 |
---|---|
解耦性 | 将LLM核心推理能力与外部功能实现细节分离,使模型与工具可独立迭代升级 |
标准化 | 提供通用接口规范,增强不同组件间的互操作性,降低系统集成成本 |
安全性 | 内置用户审批、访问控制等安全机制,保障敏感数据与系统安全 |
灵活性 | 支持资源读取、工具调用、提示获取等多种交互类型,适配多样化应用场景 |
可组合性 | 允许单个主机连接多个MCP服务器,实现不同来源工具与资源的聚合整合 |
关于MCP的形象比喻包括:
- “AI世界的USB-C接口”:通过统一接口连接不同设备,实现无缝对接
- “全屋智能中枢”:整合各类功能模块,简化操作流程
- “LLM的安全网关”:规范和控制AI与外部世界的交互行为
1.2 MCP与Function Calling的对比
特性 | MCP | Function Calling |
---|---|---|
定义 | 模型与外部设备集成的标准接口,涵盖工具、资源和提示词 | 特定模型厂商提供的功能,主要用于生成函数调用能力 |
协议 | 基于JSON-RPC,支持双向通信、可发现性及更新通知能力 | 基于JSON-Schema,仅支持静态函数调用 |
调用方式 | 支持Stdio / SSE / 同进程调用 | 依赖同进程调用或编程语言对应函数 |
适用场景 | 更适合动态、复杂的交互场景 | 适用于单一特定工具的静态函数执行调用 |
系统集成难度 | 相对较高 | 较低 |
工程化程度 | 较高 | 较低 |
平台依赖性 | 低,基于标准化协议 | 高,不同LLM平台实现差异较大 |
安全考量 | 内置服务器控制与用户审批双重机制 | 安全机制较为简单 |
正如开发者的比喻:“Function calling如同家中各电器的独立遥控器,需逐个编写接口;MCP则像全屋智能中枢,通过统一协议接入所有设备。”
1.3 背景与目标
MCP的诞生源于解决当前AI模型与外部世界交互的核心挑战:
- 信息孤岛问题:AI模型无法直接访问实时数据或本地资源,限制应用场景拓展
- 集成复杂性:为每个工具/数据源单独编写集成代码,导致开发成本高、维护困难
- 生态碎片化:不同模型与平台采用不同工具调用机制,缺乏统一标准
- 安全隐患:缺乏标准化安全机制控制AI对外部系统的访问
MCP的设计目标是通过开放协议,提供标准化、安全、灵活的交互机制,提升AI模型与外部世界的交互效率,同时降低开发与集成复杂度。
2、 MCP核心架构与工作原理
2.1 基本架构组件
MCP架构采用客户端-服务器模式,包括三个核心组件:
- 主机(Host):指运行大语言模型(LLM)或与LLM进行交互的应用程序,例如Claude Desktop、Cursor IDE、集成了Cline插件的VS Code等。主机承担着管理MCP客户端、与LLM进行通信、处理用户交互(如对工具调用进行审批)的任务,并会把从服务器获取到的信息整合至LLM的上下文中。
- 客户端(Client):处于主机内部,与一个或多个MCP服务器建立一对一的连接。客户端的职责是依据主机的指令向服务器发送请求,处理协议协商与能力交换相关事宜,管理和服务器之间的会话状态及订阅情况,同时负责消息的路由。
- 服务器(Server):属于提供特定功能的独立应用程序,主要负责响应客户端的请求以及访问资源。服务器通过MCP协议原语将资源、工具和提示暴露出来,能够独立运行且有明确专注的职责,既可以是本地进程,也可以是远程服务。
2.2 关键概念与原语
MCP定义了以下核心概念(“原语”),用于组织和描述外部能力:
- 资源(Resources):服务器能够提供给客户端读取的数据或内容,像文件内容、数据库结构、API响应等都属于资源范畴。资源通过URI进行标识,一般由应用程序或用户控制,需经用户明确选择或授权后,才能提供给模型。
- 工具(Tools):服务器可以执行的动作或函数,例如发送邮件、执行代码、修改数据库等。工具由LLM根据用户意图来决定是否调用(通常需要用户批准),包含名称、描述以及通过JSON Schema定义的输入参数。
- 提示(Prompts):服务器定义的可复用提示模板或预设工作流,例如
/git - commit
、/explain - code
等。提示通常由用户在客户端界面选择触发,服务器可根据提示和参数动态生成交互流程。 - 采样(Sampling):允许服务器主动请求客户端(代表LLM)进行一次推理并获取结果。这一功能使服务器能够驱动更复杂的多步骤Agent行为,比如服务器可根据当前状态,决定下一步需要LLM思考的内容。
- 根(Root):客户端告知服务器的URI,用于建议服务器操作的上下文范围或边界(如项目目录路径)。Root起到指导作用,帮助服务器聚焦操作,但并非强制性的安全约束。
2.3 通信协议与机制
MCP通信以JSON - RPC 2.0规范为基础,具备以下特性:
- 消息类型:定义了请求(Request)、响应(Response,包含Result或Error)和通知(Notification)三种消息类型。
- 传输层:MCP支持两种主要传输方式:
- Stdio(标准输入/输出):客户端将服务器作为子进程启动,通过进程的标准输入/输出进行通信。
- Streamable HTTP:最新规范采用灵活的HTTP传输方式,服务器可选择升级为双向流模式,也可保持无状态的请求 - 响应模式。
- 生命周期:连接建立后,具有明确的生命周期,包括初始化握手(交换协议版本、能力)、正常操作(消息交互)和关闭阶段。
- 性能优化:支持JSON - RPC批处理,可将多个请求打包发送,从而减少网络往返次数。
2.4 MCP工作流程
1. 系统架构总览
2. 初始化与发现流程
3. 用户交互与工具调用流程
4. 数据流向图
5. MCP工具调用决策流程
关键组件说明
- Host应用:用户交互界面,连接用户、LLM和MCP客户端
- MCP Client:负责与MCP服务器通信的客户端组件
- MCP Server:处理工具调用请求并连接外部系统的服务端
- LLM:大语言模型,负责理解用户意图并决定是否使用工具
- 外部系统:提供实际功能的API或数据源
3、 MCP开发与实践指南
3.1 开发环境配置
开发MCP服务器与客户端需完成对应环境搭建:
Python环境搭建:
# 安装uv(推荐使用的Python包管理工具)
curl -LsSf https://astral.sh/uv/install.sh | sh
# 创建虚拟环境
uv venv
source .venv/bin/activate # Linux/macOS系统执行此命令
.venv\Scripts\activate # Windows系统执行此命令
# 安装MCP依赖
uv add "mcp[cli]" httpx
Node.js环境搭建:
# 安装MCP SDK
npm install @modelcontextprotocol/sdk
# 创建项目框架
npx @modelcontextprotocol/create-server my-custom-server
cd my-custom-server
3.2 MCP服务器构建
以下为借助Python FastMCP
构建MCP服务器的实例:
# weather_server.py
from mcp.server.fastmcp import FastMCP
import httpx
from typing import Optional
# 1. 对FastMCP进行初始化
mcp = FastMCP("weather-server")
# 2. 运用@mcp.tool()定义工具
@mcp.tool()
async def get_forecast(latitude: float, longitude: float, days: Optional[int] = 3) -> str:
"""
获取指定经纬度位置的天气预报。
Args:
latitude: 地点的纬度。
longitude: 地点的经度。
days: 预报的天数,默认值为3天。
Returns:
包含天气预报信息的字符串。
"""
# 工具逻辑实现
async with httpx.AsyncClient() as client:
try:
response = await client.get(
f"https://api.example.com/weather/forecast",
params={
"lat": latitude,
"lon": longitude,
"days": days
},
timeout=10.0
)
if response.status_code != 200:
return f"错误:无法获取天气数据(状态码:{response.status_code})"
data = response.json()
# 对数据进行处理并格式化结果
formatted_forecast = format_weather_data(data) # 假定此函数已定义
return formatted_forecast
except Exception as e:
return f"发生错误:{str(e)}"
# 3. 启动服务器
if __name__ == "__main__":
print("正通过stdio启动天气MCP服务器...")
try:
mcp.run(transport='stdio')
except Exception as e:
print(f"服务器运行失败:{e}")
import sys
sys.exit(1)
3.3 MCP客户端构建
以下是一个基础的MCP客户端实现示例:
# mcp_client_example.py
import asyncio
import sys
from mcp import ClientSession, StdioServerParameters
from mcp.client.stdio import stdio_client
async def run_mcp_client():
# 设置服务器连接参数
server_params = StdioServerParameters(
command="python",
args=["weather_server.py"],
env=None # 可传入环境变量
)
try:
# 建立连接
async with stdio_client(server_params) as (read, write):
async with ClientSession(read, write) as session:
# 初始化连接
await session.initialize()
# 列出可用工具
tools_response = await session.list_tools()
print(f"可用工具:{[tool.name for tool in tools_response.tools]}")
# 调用工具
result = await session.call_tool(
"get_forecast",
{"latitude": 39.9, "longitude": 116.4, "days": 5}
)
# 处理结果
if hasattr(result, 'content') and result.content:
for item in result.content:
if item.type == 'text':
print(f"天气预报:{item.text}")
else:
print("未返回内容或发生错误")
except Exception as e:
print(f"错误:{e}")
if __name__ == "__main__":
asyncio.run(run_mcp_client())
3.4 调试与测试
MCP提供了多种工具用于辅助调试和测试:
-
MCP Inspector(
mcp dev
):这是一个Web界面工具,用于对MCP服务器进行测试和调试:mcp dev weather_server.py
-
日志记录:在服务器和客户端代码中添加详细日志,用于记录请求、响应和错误:
import logging logging.basicConfig(level=logging.DEBUG)
-
VS Code/IDE调试器:设置断点,逐步执行服务器或客户端代码。
-
逐层测试:先对服务器逻辑进行单元测试 -> 使用Inspector测试MCP接口 -> 通过最小客户端测试连接 -> 集成LLM测试完整流程。
3.5 客户端集成
MCP能够与各种LLM集成,主要步骤如下:
- 获取工具描述:从MCP服务器获取工具描述列表。
- 转换为LLM格式:将MCP工具转换为特定LLM的工具格式(例如OpenAI的function calling格式)。
- 传递给LLM:将工具描述与用户查询一同发送给LLM。
- 解析LLM响应:从LLM响应中解析工具调用请求。
- 调用MCP工具:使用MCP客户端执行工具调用。
- 处理结果:将工具执行结果返回给LLM,生成最终回答。
4、 MCP部署策略
4.1 部署模式对比
MCP支持多种部署模式,适应不同场景需求:
部署模式 | 适用场景 | 优势 | 挑战 |
---|---|---|---|
本地部署 | 个人开发、桌面应用 | 简单直接、隐私保护、低延迟 | 功能有限、维护成本 |
内网部署 | 企业环境、敏感数据处理 | 数据安全、系统集成、多用户共享 | 需要IT支持、网络配置 |
云端部署 | SaaS服务、公共API | 高可用性、易扩展、全球访问 | 安全管控、网络延迟 |
混合部署 | 大型组织、复杂需求 | 灵活适配、平衡取舍 | 架构复杂、管理难度 |
4.2 内网部署优势与实践
内网部署MCP有许多显著优势,尤其适合企业环境:
内网部署MCP的关键步骤:
- 服务器开发:根据企业需求开发自定义MCP服务器
- 依赖管理:使用虚拟环境、容器或打包工具管理依赖
- 服务器分发:通过内部代码仓库或软件分发系统部署服务器
- 配置管理:安全管理连接参数、API密钥等敏感信息
- 权限控制:实施基于角色的访问控制,确保安全
- 监控与维护:建立监控系统,跟踪服务器健康状态
4.3 客户端配置
以下是MCP服务器配置示例,可在支持MCP的应用(如Claude Desktop、Cursor)中使用:
{
"mcpServers": {
"weather-service": {
"transport": {
"type": "stdio",
"command": "python",
"args": ["/path/to/weather_server.py"]
},
"env": {
"API_KEY": "your-weather-api-key"
}
},
"database-query": {
"transport": {
"type": "stdio",
"command": "node",
"args": ["/path/to/database-server.js"]
}
}
}
}
此配置文件定义了两个MCP服务器:
- “weather-service” - 使用Python运行,需要API密钥
- “database-query” - 使用Node.js运行,无需额外环境变量
配置格式与Claude Desktop、Cursor等应用兼容。
5、 MCP应用场景与案例分析
5.1 应用场景全景图
MCP适用于多种场景,特别是需要LLM与外部系统安全交互的情况:
应用领域 | 典型场景 | MCP价值 | 代表实现 |
---|---|---|---|
智能编程助手 | 代码生成、Bug修复、API集成 | 安全访问本地代码库、CI/CD系统 | Cursor、VS Code插件 |
数据分析工具 | 自然语言查询数据库、可视化生成 | 安全查询内部数据库、连接BI工具 | XiYanSQL-MCP、数据库MCP服务器 |
企业知识管理 | 知识库查询、文档生成、邮件撰写 | 安全访问内部文档、保护隐私数据 | 文件系统MCP、Email-MCP |
创意设计工具 | 3D建模、图形生成、UI设计 | 与专业软件无缝集成 | Blender MCP、浏览器自动化 |
工作流自动化 | 多系统协调、事件驱动流程 | 跨系统安全协作 | Cloudflare MCP、AWS自动化套件 |
5.2 自然语言数据库查询案例
利用MCP实现数据库自然语言查询:
5.3 Blender 3D建模案例
使用MCP实现自然语言控制3D建模软件Blender:
- 用户安装Blender和MCP插件
- 配置Claude Desktop连接到Blender MCP服务器
- 用户通过自然语言描述想要创建的3D场景:“创建一个海滩场景,有棕榈树和落日”
- Claude将请求转换为Blender操作指令
- Blender MCP服务器执行这些指令,创建3D场景
- 结果在Blender界面显示,用户可以进一步修改和优化
6、 MCP生态系统现状
6.1 官方支持与资源
MCP由Anthropic于2024年11月推出并开源,目前提供了多种资源:
- SDK:支持Python、TypeScript/JavaScript、Java、Kotlin、C#等语言
- 官方文档:详细的协议规范、开发指南和教程
- 示例服务器:多种预构建的MCP服务器,覆盖常见应用场景
- 工具和库:如MCP Inspector、开发工具包等
6.2 主要MCP服务器生态
MCP服务器生态系统正在快速发展,包括:
类别 | 代表性服务器 | 主要功能 | 维护方 |
---|---|---|---|
文件系统 | @modelcontextprotocol/server-filesystem |
本地文件读写、目录操作 | 官方 |
版本控制 | @modelcontextprotocol/server-git |
Git仓库操作 | 官方 |
代码托管 | @modelcontextprotocol/server-github |
GitHub API交互 | 官方 |
数据库 | @modelcontextprotocol/server-postgres , mcp-server-sqlite |
数据库查询、模式检查 | 官方/社区 |
搜索 | @modelcontextprotocol/server-brave-search , tavily-mcp |
网页搜索 | 官方/第三方 |
Web内容 | @modelcontextprotocol/server-fetch |
获取网页内容 | 官方 |
浏览器自动化 | Playwright-MCP (Microsoft) |
控制浏览器交互 | 微软 |
协作工具 | @modelcontextprotocol/server-slack |
Slack消息/频道 | 官方 |
6.3 支持MCP的客户端
目前多种平台和应用已支持MCP协议:
客户端 | 资源支持 | 提示支持 | 工具支持 | 采样支持 | 异步支持 | 备注 |
---|---|---|---|---|---|---|
Claude Desktop | ✅ | ✅ | ✅ | ⚠️ | ✅ | 功能最完整 |
VS Code Insiders | ✅ | ✅ | ✅ | ❌ | ⚠️ | 通过插件支持 |
Cursor IDE | ✅ | ❌ | ✅ | ❌ | ✅ | 特别优化编程场景 |
Cline | ✅ | ✅ | ✅ | ❌ | ⚠️ | VS Code插件 |
Continue | ✅ | ✅ | ✅ | ❌ | ✅ | 良好的开发者体验 |
Cherry Studio | ✅ | ✅ | ✅ | ❌ | ⚠️ | 国内解决方案 |
OpenAI Agents SDK | ❌ | ❌ | ✅ | ❌ | ⚠️ | 专注工具支持 |
图例: ✅ 完全支持, ⚠️ 部分支持, ❌ 不支持
6.4 行业采纳情况
MCP已获得多家企业和组织的采纳:
- 主要推动者: Anthropic (发起者)、OpenAI、Microsoft (积极支持与贡献)
- 早期采用者: Block、Apollo (金融科技内部应用)、Zed、Replit、Codeium、Sourcegraph (开发者工具)
- 云平台: Cloudflare、Neon DB (提供官方服务器)
- 中国厂商/社区: 智谱AI、月之暗面、阿里云、华为云、奇安信等已有社区贡献的MCP服务器
7、 MCP最佳实践与开发技巧
7.1 服务器设计最佳实践
- 单一职责原则:每个MCP服务器应专注于特定功能领域
- 清晰的工具命名与描述:使工具名称和描述清晰明了,便于LLM理解
- 完善的参数定义:为每个参数提供类型提示和详细说明
- 健壮的错误处理:返回有意义的错误信息,而不是让服务器崩溃
- 适当的日志记录:记录关键操作和错误,便于调试
- 权限控制:实施细粒度的访问控制,遵循最小权限原则
- 可扩展性设计:考虑未来功能扩展,采用模块化架构
7.2 客户端集成技巧
- 动态工具发现:启动时动态获取可用工具,而不是硬编码
- 用户审批机制:对敏感操作实施"人在回路"审批
- 错误处理策略:优雅处理工具执行失败的情况
- 超时控制:设置合理的超时时间,避免长时间阻塞
- 上下文管理:智能选择和传递上下文给LLM,避免超长
- 缓存优化:缓存工具描述和频繁使用的结果,提高性能
- 异步处理:使用异步模式处理耗时操作,保持界面响应性
7.3 安全最佳实践
- 输入验证:验证所有从LLM或用户来的输入
- 输出过滤:过滤返回给LLM的敏感信息
- 审计日志:记录所有工具调用和资源访问
- 沙箱隔离:在受控环境中执行不可信代码
- 传输加密:对远程MCP通信使用TLS加密
- 权限分离:实施职责分离原则,限制单一服务器的权限范围
- 定期更新:及时更新依赖和SDK,修补安全漏洞
8、 MCP未来发展趋势与挑战
8.1 技术发展路线图
8.2 面临挑战与对策
MCP面临各种挑战,需要相应对策:
挑战 | 具体表现 | 可能对策 |
---|---|---|
开发者采纳率 | 与现有方案(如OpenAI函数调用)竞争 | 降低使用门槛,提供丰富示例和工具 |
生态系统成熟度 | 服务器质量参差不齐,覆盖不全面 | 建立质量标准,鼓励社区贡献 |
技术复杂性 | 学习曲线陡峭,开发成本高 | 改进文档,提供更多高级抽象 |
安全风险 | 工具执行可能带来安全隐患 | 完善安全模型,增强沙箱隔离 |
标准化竞争 | 与其他框架和标准的竞争 | 推动行业联盟,增强兼容性 |
8.3 对不同参与者的建议
对于不同角色的参与者,针对MCP有以下建议:
开发者:
- 熟悉MCP规范并尝试开发简单服务器
- 关注官方和社区服务器演进,选择适合需求的工具
- 参与MCP社区建设,贡献代码和文档
企业决策者:
- 评估MCP在企业内的应用潜力
- 考虑内网部署MCP服务器,连接内部系统
- 制定安全策略和治理框架
- 培训技术团队了解和应用MCP
AI平台提供商:
- 考虑在平台中支持MCP作为工具调用标准
- 参与协议演进和标准制定
- 提供MCP相关开发工具和服务
工具提供商:
- 为现有工具和API开发MCP适配层
- 在服务目录中列出MCP兼容性
- 关注MCP生态系统发展,调整产品战略
9、结论
MCP作为一种开放标准,正在改变AI模型与外部世界交互的方式。它通过提供一种解耦、标准化、安全的机制,有效解决了当前LLM应用集成外部资源的碎片化痛点,为构建更加强大、可靠和可互操作的AI智能体(AI Agent)奠定了重要基础。
MCP的核心价值在于其标准化带来的开发效率提升和生态共享潜力,以及其安全设计(尤其是对本地/内网部署的天然优势)满足了企业和个人对数据隐私的需求。尽管仍面临生态成熟度、开发者采纳和标准化竞争等挑战,但随着Anthropic、OpenAI、Microsoft等行业巨头的支持和贡献,以及活跃的开源社区参与,MCP生态正在迅速壮大。
展望未来,MCP有望从当前的"新兴标准"发展成为连接AI与现实世界的"通用语言",推动AI Agent能力的深化和应用场景的拓宽。它在企业内部应用、开发者工具集成和敏感数据场景中具有显著优势,是推动AI技术安全落地的关键基础设施之一。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)