Crawl4AI RAG MCP Server核心工具详解:crawl_single_page与smart_crawl_url实战
Crawl4AI RAG MCP Server核心工具详解:crawl_single_page与smart_crawl_url实战
Crawl4AI RAG MCP Server是一款专为AI代理和AI编码助手设计的Web爬取与RAG能力集成工具,提供了强大的网页内容获取与处理功能。本文将深入解析其核心工具crawl_single_page与smart_crawl_url的实战应用,帮助用户快速掌握这两个功能的使用方法和适用场景。
一、快速了解:crawl_single_page与smart_crawl_url有何不同?
Crawl4AI RAG MCP Server提供了两种主要的网页爬取工具,它们各自有不同的特点和适用场景:
-
crawl_single_page:专注于爬取单个网页内容,适合快速获取特定URL的信息,不跟随链接,直接存储内容到Supabase数据库。
-
smart_crawl_url:智能爬取工具,能够根据URL类型自动选择合适的爬取策略,支持网站地图、文本文件和常规网页的递归爬取,适合需要批量获取内容的场景。
二、crawl_single_page:精准爬取单个网页的终极工具
2.1 功能特点与适用场景
crawl_single_page工具是获取特定网页内容的理想选择,它具有以下特点:
- 专注于单一URL的内容爬取,不跟随页面内的链接
- 将爬取结果自动转换为Markdown格式
- 智能分块处理内容并存储到Supabase数据库
- 支持代码示例提取与单独存储(需启用AGENTIC_RAG)
适用场景:
- 获取单个文档或网页的内容
- 快速抓取API文档或技术文章
- 需要精准获取特定页面信息的场景
2.2 核心参数解析
该工具的核心参数非常简单,只需提供两个参数:
ctx:MCP服务器提供的上下文对象(由系统自动传入)url:需要爬取的网页URL地址
2.3 实战应用示例
使用crawl_single_page爬取单个网页的基本流程如下:
- 调用工具并传入目标URL
- 工具自动爬取页面内容并转换为Markdown
- 内容被智能分块并存储到Supabase
- 可选:提取页面中的代码示例并单独存储
工具返回的JSON结果包含以下关键信息:
- 爬取是否成功
- 存储的内容块数量
- 提取的代码示例数量
- 内容长度和总字数统计
- 页面内链接数量统计
三、smart_crawl_url:智能爬取的完整指南
3.1 功能特点与智能策略
smart_crawl_url是Crawl4AI RAG MCP Server中更强大的爬取工具,它能够根据URL类型自动应用最合适的爬取策略:
- 网站地图(sitemap.xml):提取并并行爬取所有URL
- 文本文件(如llms.txt):直接获取内容
- 常规网页:递归爬取内部链接,深度可配置
3.2 核心参数详解
该工具提供了更多可配置参数,以满足不同爬取需求:
ctx:MCP服务器提供的上下文对象(由系统自动传入)url:要爬取的URL(可以是常规网页、网站地图或文本文件)max_depth:递归爬取的最大深度(默认值:3)max_concurrent:最大并发浏览器会话数(默认值:10)chunk_size:每个内容块的最大字符数(默认值:1000)
3.3 三种爬取模式全解析
3.3.1 网站地图爬取模式
当检测到URL指向sitemap.xml时,工具会:
- 解析网站地图并提取所有URL
- 使用并行方式爬取这些URL
- 将所有内容统一处理并存储
3.3.2 文本文件爬取模式
对于.txt文件,工具采用简化处理:
- 直接获取文件内容
- 进行基本分块处理
- 存储到数据库
3.3.3 常规网页递归爬取模式
对于普通网页,工具会:
- 爬取初始URL内容
- 提取页面内的内部链接
- 递归爬取这些链接,直到达到max_depth限制
- 所有内容统一处理并存储
3.4 实战应用示例
使用smart_crawl_url爬取整个网站的流程:
- 调用工具并传入网站首页URL
- 配置适当的max_depth和max_concurrent参数
- 工具自动识别URL类型并应用相应爬取策略
- 所有爬取内容被处理、分块并存储到Supabase
- 工具返回包含爬取统计信息的JSON结果
返回结果包含:
- 爬取类型(网站地图、文本文件或网页)
- 爬取页面数量
- 存储的内容块数量
- 提取的代码示例数量
- 更新的来源数量
- 爬取的URL列表(前5个)
四、高效使用两大工具的专业技巧
4.1 选择合适的爬取工具
- 当需要获取单个页面时,选择
crawl_single_page以获得最佳性能 - 当需要批量爬取或递归爬取时,选择
smart_crawl_url - 处理网站地图时,
smart_crawl_url能自动识别并高效爬取所有链接
4.2 优化爬取性能的配置建议
- 根据目标网站规模调整
max_depth参数,避免过度爬取 - 根据服务器性能合理设置
max_concurrent,避免资源耗尽 - 调整
chunk_size以平衡检索精度和存储效率 - 对于代码密集型内容,启用
USE_AGENTIC_RAG环境变量以提取代码示例
4.3 结果处理与存储
两个工具都会将爬取的内容存储到Supabase数据库中,主要包括:
- 文档内容块(存储在
crawled_pages表) - 代码示例(存储在单独的代码表,需启用AGENTIC_RAG)
- 来源信息(存储在
sources表)
可使用get_available_sources工具查看已爬取的来源,使用perform_rag_query工具查询存储的内容。
五、总结:提升AI代理内容获取能力的关键工具
Crawl4AI RAG MCP Server的crawl_single_page和smart_crawl_url工具为AI代理提供了强大的网页内容获取能力。无论是精准获取单个页面,还是智能爬取整个网站,这两个工具都能高效完成任务,并将内容以结构化方式存储,为后续的RAG查询提供高质量数据支持。
通过合理选择工具和配置参数,开发者可以轻松构建强大的内容获取管道,为AI应用提供丰富的知识库支持。要开始使用这些工具,只需克隆项目仓库:
git clone https://gitcode.com/gh_mirrors/mc/mcp-crawl4ai-rag
然后按照项目文档配置环境并启动服务,即可开始体验这两个强大工具带来的高效网页爬取能力。
更多推荐


所有评论(0)