ragflow v0.26.3更新全解析:BigQuery接入、SoMark OCR增强、MCP工具扩展、批量上传容错、Go API持续补强与海量修复一次看懂



一、版本总览:v0.26.3 重点看什么
这一版更新内容非常多,但最值得优先关注的有以下几个方向:
- 新增 Google BigQuery 数据源连接器
- RAGFlow MCP Server 新增两个 MCP 工具
- 文件摄取中引入 SoMark OCR 解析器
- API 开放 Ingest documents 端点,支持自定义处理流水线
- 批量文档上传支持 部分成功,单文件失败不再拖垮整个批次
- 全局头部导航重构,移动端体验显著改善
- Ollama 提供商访问模型失败问题被修复
- 聊天消息删除误删上一个会话引用的问题被修复
- Go 侧 API、CLI、搜索、聊天、会话、Agent、Mindmap 等能力继续扩展
- 大量前后端、解析器、工作流、构建、测试、兼容性和安全问题被清理
这意味着,v0.26.3 不仅对企业级数据接入更友好,也对实际生产部署、移动端使用、复杂文档解析、Agent 运行链路以及 Go 化演进带来了直接价值。
二、新特性详解:这次到底新增了什么
1. Google BigQuery 成为新的数据源连接器
在数据源连接器方面,RAGFlow v0.26.3 正式引入了 Google BigQuery,可用于:
- 文档摄取
- 增量同步
这项能力的意义非常大。它说明 RAGFlow 正在继续加强与企业级数据基础设施的衔接能力。对于已经在使用云数仓、分析平台或者需要从结构化数据源进行持续同步的团队来说,这项更新会明显降低接入门槛。
2. MCP Server 新增两个工具
在 MCP 方面,这一版为 RAGFlow MCP Server 新增了两个工具:
ragflow_list_datasetsragflow_list_chats
这两个工具的加入,意味着通过 MCP 与 RAGFlow 交互时,可以更方便地:
- 枚举数据集
- 枚举聊天记录
对正在构建外部工具编排、Agent 工作流或跨系统协同能力的开发者来说,这属于非常实用的补强。
3. 文件摄取集成 SoMark OCR 解析器
在文档摄取方面,v0.26.3 集成了 布局感知型 SoMark OCR 解析器。
它的目标非常明确:提取并索引复杂文档元素,包括但不限于:
- 表格
- 图像
- 版面复杂内容
这项升级对知识库质量的提升非常关键。很多检索增强生成系统在落地时,真正的难点并不只是向量化,而是复杂文档结构提取是否准确。SoMark 的加入,意味着 RAGFlow 在复杂 PDF、图文混排、表格密集类文档的解析能力上进一步增强。
4. API 开放 Ingest documents 端点
这一版还开放了 Ingest documents API 端点,用于通过自定义流水线处理文档。
这一更新有两个直接价值:
- 开发者可以更灵活地控制文档导入过程
- 某些无法通过原有路径正确解析流水线的场景,现在可以通过新的接口完成处理
同时,更新内容中还明确提到,对于 /datasets/{dataset_id}/chunks 无法解析摄取流水线的场景,应使用 /documents/ingest。这实际上进一步强化了新端点的定位:它是更标准、更适合复杂导入流程的文档摄取入口。
三、改进项详解:从“能用”到“更好用”
1. 批量文档上传支持部分成功
后端层面,v0.26.3 为批量文档上传引入了部分成功处理机制。
这意味着:
- 以前一个文件失败,可能导致整批上传被丢弃
- 现在单个失败文件不再影响整批有效文件的处理结果
这是一个很典型但又非常重要的工程级优化。实际业务中,知识库导入经常是批量操作,只要某个文档格式异常、权限异常或解析失败,就导致整批失败,会严重影响运维效率。现在的改动大幅提高了导入可靠性和可用性。
2. 全局头部导航重构,移动端体验显著提升
UI 与 UX 方面,这一版对全局头部做了重构,能够根据可用屏幕空间在以下两种模式之间动态切换:
- 完整桌面导航栏
- 适合移动端的侧边抽屉
它解决了此前界面重叠问题,并显著提升了移动端使用体验。
对于经常在平板、小屏笔记本、甚至手机上查看知识库和聊天界面的用户来说,这是一个很有感知的改进。
四、官方点名修复的两个关键问题
1. Ollama 提供商接入后的模型访问报错被修复
此前在配置 Ollama 提供商后,系统可能报错:
Failed to access model(name) using this api key
这个问题在 v0.26.3 中已经修复。
对于本地模型或私有模型接入场景来说,这项修复很关键。
2. 删除一组用户与助手消息时误删前一轮引用的问题被修复
此前在删除一组用户与助手消息时,会因为索引错位,误删上一轮对话的引用信息。
这个问题已经在 v0.26.3 中修复。
这属于聊天链路里非常容易影响用户信任的问题,因为它会直接破坏上下文引用的正确性。此次修复非常必要。
五、前端与交互层更新:细节很多,但非常实用
这一版前端改动很多,除了前面提到的全局头部重构之外,还有以下内容:
- 增强 UI 组件与整体布局
- 修复用户设置弹窗问题,并清理 DOMPurify 相关逻辑
- 修复头像上传失败问题
- 修复新建聊天无法编辑问题
- 调整消息左侧区域宽度为适配内容
- 修复 UI 无法启动问题
- 新增
AuthenticatedImg组件,用于处理需要授权的图片请求 - 提升普通角色标识的可见性与样式
- 修复 Agent 页面在无标签场景下无法打开筛选器的问题
- 修复 chunk 结果中图片无法加载的问题
- 修复 SessionChat 组件中的引用处理逻辑
- 修复
useExportMcp传递 MCP 参数错误,导致 JSON 导出文件名不正确的问题 - 隐藏模型设置按钮及相关功能
- 修复发送 Agent 日志日期筛选时应使用本地墙上时钟字符串
- 修复沙箱执行镜像无法展示和下载的问题
这些改动看起来分散,但背后体现的是:RAGFlow 团队在前端可用性、显示准确性、安全性和操作一致性上做了持续打磨。
六、文档解析、摄取与知识库处理:这一版非常“能打”
RAGFlow 的核心竞争力之一就是文档摄取与知识库构建能力,而 v0.26.3 在这一块变化非常密集:
1. SoMark OCR 已接入
前文已经提到,SoMark 用于复杂文档元素的抽取和索引,重点面向表格和图像等复杂内容。
2. 支持 DOCX 解析增强
本版包含以下与 DOCX 相关的更新:
- 修复未编号 DOCX 标题样式的处理问题
- 新增 DOCX 解析器
这意味着 Word 文档的解析质量和兼容性进一步增强。
3. 深度文档解析增强
还修复了以下问题:
- 支持解析没有 body 的 HTML 片段
- 保留最终 CSV 成对行号
- 修复 PDF 压缩文件的页数检测问题
- 规范 Q&A 解析器 ID 键为小写
qa - 修复数据集索引分块配置中 JSONMap 扫描问题
- 修复文件在知识库中无法添加元数据的问题
- 修复获取聊天时出现重复 datasetID 的问题
- 修复 chunk 统计在删除 chunk 后不正确的问题
- Go 侧允许 list chunks handler 接受 disabled chunk filter
- 修复 chunk 结果无法加载图片
- 修复文档计数在知识库中的问题
4. OSS 解析与文件处理继续演进
相关改动包括:
- OSS 解析器 Go 重构
- OSS 解析器不再 post 的特性调整
- 修复下载依赖脚本路径提示,并补充原生库文档
- 用
.a替换.so,以适配pdfium、pdf_oxide、office_oxide
从这些变更可以看出,RAGFlow 在底层文档处理链路上做了不少兼容性和工程化完善。
七、Go API 与 Go 生态:这版仍然是“重点建设对象”
如果仔细看更新列表,会发现 Go 相关内容特别多。这说明 RAGFlow 正在持续推进 Go 后端能力建设与迁移补齐。
1. Go CLI 持续增强
本版 Go CLI 包含以下更新:
- 新增 create 和 drop 命令
- CLI 命令重构
- 修复 API 命令
- 新增显示用户套餐摘要功能
- 新增管理员命令响应表格功能
- 合并函数相关优化
- 修复列出提供商模型功能
- 修复 MinIO 端口问题
2. Go API 新增与补齐能力
新增或增强的 Go API 包括:
- 新增聊天会话消息删除与反馈接口,后续又回滚
- 实现
searches/<search_id>/completionsPOST - 新增
/api/v1/searchbots/mindmap和/api/v1/chat/mindmap - 将 Box Web OAuth 连接器 API 迁移到 Go
- 实现聊天 completions 的 Go 版本
- 新增 sessions message update
- 实现
chatbots/<dialog_id>/info和searchbots/detail - 新增
/api/v1/chat/recommendation,并与/api/v1/searchbots/related_questions做整合
3. Go 后端修复很多实际问题
包括但不限于:
- 修复 searchbot BETA 鉴权
- 修复 retrieval_test 接受 kb_id 数组以及模型识别问题
- 修复
/documents/images/:image_id、/documents/:id/preview、/thumbnails的 BETA 鉴权 - 修复项目根目录获取问题
- 修复文档计数问题
- 允许 provider 使用重复 key
- 修复 agent explore 在多个 doc_ids 下的缩略图加载问题
- 修复 agent settings 更新时清空 DSL 的问题
- 修复共享 chatbot session id 长度问题
- 修复无法构建 Go backend
- 修复对文件查询添加 tenant 过滤
- 修复防止文件夹被移动到其自身之内
- 修复 rerunWithDelete 时清理任务取消信号与 chunk 计数器
- 修复聊天中的思考态与图形显示问题
整体来看,Go 生态已经不再只是“补充实现”,而是在逐步成为 RAGFlow 核心能力的重要承载层。
八、Agent 能力升级:这次更新非常密集
Agent 相关改动是 v0.26.3 的另一大重点,涵盖能力新增、上下文修复、兼容性处理、监控统计、工具调用等多个层面。
1. Agent 上下文与消息处理更稳了
修复内容包括:
- 将上传的附件注入到 LLM 上下文中
- 当 chat completion 未产生事件时返回 session_id
- 防止 prompt fitting 后生成空的 LLM 用户消息
- 处理 Agent Canvas 的 SSE 和状态序列化中不可序列化对象的问题
- 增加
canvas_type过滤和字段到list_agentsAPI - 修复调用 LLM 不可用时应返回 call failed
- 修复 TuShare 新闻按上游关键词过滤
- 修复 GoogleScholar 在空 JSON 输出和忽略 top_n 的问题
2. Agent 新增能力
新增能力包括:
- 增加 BGPT 结构化文献证据搜索工具
- 新增 CAJAL 科学论文 Agent 模板
- 引入基于 spaCy 的命名实体识别和关系抽取,Python 与 Go 输出等价
- 支持更准确的汇总 token 用量统计,并把 session、user、输入输出传播到 Langfuse 中用于 Agent 运行跟踪
3. Agent 相关修复已多次向 Go 侧移植
更新中明确提到了:
- Port 14 upstream agent security / correctness fixes to Go canvas
- Port agent PRs to GO
- Port agent PRs to GO - 2
这说明 Python 侧已有的能力和修复正在不断同步到 Go 画布与 Go 实现中,有助于减少双栈行为差异。
九、MCP、Canvas 与连接稳定性:链路更完整了
MCP 除了新增两个工具外,还做了一个非常关键的稳定性修复:
- 在 canvas 执行后关闭 MCP 会话,避免连接泄漏
这个问题如果长期存在,会给长时间运行的工作流、复杂 Agent、多次调用的场景带来连接占用和资源泄露风险。
修复之后,MCP 整体运行可靠性会更高。
十、搜索、推荐、Mindmap 与聊天能力继续补强
本版在聊天与搜索侧也有一系列增强:
- 实现聊天 completions 的 Go 版本
- 增加
/api/v1/chat/recommendation - 与
/api/v1/searchbots/related_questions进行整合 - 新增搜索与聊天两个 Mindmap API
- 修复新建聊天无法编辑
- 修复获取聊天时重复 datasetID
- 修复 SessionChat 组件引用处理
- 修复聊天中的思考态与 Figure 展示问题
这说明 RAGFlow 已经不仅停留在传统“问答 + 检索”层面,而是持续把搜索、推荐、思维导图、会话引用管理等体验整合到统一交互闭环中。
十一、安全、认证与权限控制:这一版也没有忽视
这一版中有多项与安全和认证相关的更新:
- 修复认证中间件在提前拒绝时产生双重响应的问题
- 修复 Box Web OAuth 连接器 API 迁移到 Go
- 修复多个文档图片与缩略图接口的 BETA 鉴权
- 修复 Searchbot BETA 鉴权
- 前端对 Agent rerun 弹窗 HTML 进行存储型 XSS 清洗
- 用户设置弹窗相关清理 DOMPurify 逻辑
- Python 侧修复仅允许单点登录,以及修改密码后强制重新登录
这些更新对于企业用户来说尤其重要。因为知识库与文档系统一旦进入组织内部应用,认证一致性、XSS 风险、文件访问权限都会直接影响系统可上线性。
十二、构建、依赖、兼容性与测试:工程质量同步提升
工程层面的变化也非常多,这些内容虽然不直接面向最终用户,但会显著影响部署体验和稳定性。
1. 依赖与构建层
crawl4ai从 0.8.9 升级到 0.9.0- 开发环境下 URL 允许任意 host
- 修复 g++ 11 不兼容问题
- 修复 CI
- 回滚某些 tests.yml CI 变更
- 使用
.a替换.so以适配多个原生库 - 修复 Go backend 构建失败
- 增加 web 和 build 启动步骤
- 修复工作流中文件类型识别问题
- 禁用 Agent 测试
- 稳定超时测试,改用语义断言
- 用
WaitGroup.Go简化代码 - 用
t.Context替换context.WithCancel - Go lint 修复
2. 时间、编码与流式处理层
- 修复时间工具对
None或空时间戳回退逻辑及 ISO 8601 解析 - 修复 harness 流式输出
- 在 rune 边界截断文本以保持 UTF-8 有效
- 修复 RedisDB 缺少
mget导致的 graphrag 生成报错
这些改动体现的是研发侧在持续提高系统健壮性,避免那些“偶发但很难排查”的线上问题。
十三、文档与说明同步更新
在文档方面,本版也有一系列同步动作:
- 更新发布日期与 CLI 安装命令
- 新增 FAQ
- 增加 v0.26.3 发布说明
- 在 README 与文档中统一版本引用为 v0.26.3
- 修复 PR 模板
- 修正
download_deps.py路径提示并补充原生库文档
这说明官方不仅在做代码层更新,也在同步降低用户的学习和部署成本。
十四、完整变更梳理:按模块汇总,一次看全
为了便于收藏和检索,下面把本次更新内容按模块完整梳理一遍。
1. 新特性
- 新增 Google BigQuery 数据源连接器,用于文档摄取与增量同步
- MCP Server 新增
ragflow_list_datasets与ragflow_list_chats - 文件摄取集成布局感知 SoMark OCR 解析器,用于提取和索引表格、图像等复杂元素
- API 开放 Ingest documents 端点,支持使用自定义流水线处理文档
2. 体验与架构改进
- 批量文档上传支持部分成功,单文件失败不再导致整批丢弃
- 全局头部根据屏幕空间在桌面导航栏与移动端侧抽屉之间切换,解决重叠并优化移动端体验
- UI 组件与整体布局重构增强
3. 官方重点修复
- 修复 Ollama 提供商接入后模型访问失败问题
- 修复删除一组用户与助手消息时误删上一轮引用的问题
4. 文档解析与知识库相关
- 处理
/datasets/{dataset_id}/chunks无法解析摄取流水线问题,改用/documents/ingest - 修复未编号 DOCX 标题样式处理
- 新增 DOCX 解析器
- 解析无 body 的 HTML 片段
- 保留最终 CSV 成对行号
- 修复 PDF 压缩文件页数检测
- 规范 Q&A 解析器 ID 为小写
qa - 修复数据集索引分块配置中的 JSONMap 扫描问题
- 修复文件元数据无法添加到知识库的问题
- 修复知识库文档计数问题
- 修复 chunk 删除后的统计问题
- 支持 list chunks handler 接受 disabled chunk filter
- 修复 chunk 结果图片无法加载
- 修复获取聊天时重复 datasetID
- 修复 OSS 解析器 Go 重构与 no post 调整
- 修复 pdfium、pdf_oxide、office_oxide 原生库链接方式
- 修复下载依赖脚本路径并补充原生库说明
5. 前端与交互修复
- 用户设置弹窗修复与 DOMPurify 清理
- 修复头像上传
- 修复新聊天无法编辑
- 修复消息左侧区域宽度
- 修复 UI 无法启动
- 新增授权图片组件
AuthenticatedImg - 提升普通角色徽章可见性
- 修复 Agent 页面无标签时筛选器无法打开
- 修复 SessionChat 引用处理
- 修复
useExportMcp导出文件名传参问题 - 隐藏模型设置按钮与相关功能
- 修复沙箱执行镜像显示与下载
- 修复本地日期字符串发送到 Agent 日志筛选
6. Go CLI 与 Go API
- Go CLI 新增 create 和 drop
- CLI 重构、修复 API 命令、增加用户套餐摘要、管理员命令表格、合并函数、修复列出模型、修复 MinIO 端口
- Go 聊天会话消息删除与反馈 API 先新增后回滚
- 实现搜索 completions POST
- 新增聊天与搜索的 Mindmap API
- Box Web OAuth 连接器 API 迁移到 Go
- 实现聊天 completions in Go
- 新增 sessions message update
- 实现 chatbot info 与 searchbot detail
- 新增 chat recommendation 并整合 related questions
- 修复多个 Go 侧鉴权、构建、缩略图、文档计数、查询过滤、文件夹移动、任务取消与计数器清理、共享会话 ID 长度、聊天思考与图形等问题
7. Agent 与工具链
- 上传附件注入 LLM 上下文
- chat completion 无事件时返回 session_id
- 防止 prompt fitting 后产生空用户消息
- 处理 Canvas SSE 与状态不可序列化对象
list_agents增加canvas_type- LLM 不可用时返回 call failed
- TuShare 新闻按关键词过滤
- GoogleScholar 空 JSON 输出与 top_n 处理修复
- 新增 BGPT 结构化文献证据搜索工具
- 新增 CAJAL 科学论文 Agent 模板
- 新增基于 spaCy 的 NER 与关系抽取,Python 与 Go 输出一致
- 汇总 token 用量统计更准确,并把 session、user、输入输出传播到 Langfuse
- 多轮将 Agent 修复移植到 Go
8. MCP 与连接管理
- 新增
ragflow_list_datasets - 新增
ragflow_list_chats - Canvas 执行后关闭 MCP 会话,防止连接泄漏
9. 安全、认证与权限
- 认证中间件提前拒绝时双重响应修复
- 多个图片、预览、缩略图与 Searchbot 的 BETA 鉴权修复
- Agent rerun 弹窗 HTML 做存储型 XSS 清洗
- Python 侧修复单点登录和修改密码后强制重新登录
10. 工程、依赖、测试与兼容性
crawl4ai升级- 开发环境 URL 允许任意 host
- g++ 11 兼容性修复
- CI 修复与部分回滚
- 稳定超时测试
- 修复 harness streaming emit
- 在 rune 边界截断文本保持 UTF-8 合法
WaitGroup.Go简化代码t.Context替代context.WithCancel- Go lint 修复
- 工作流文件类型识别修复
- 增加 web 和 build 启动步骤
- 禁用 Agent 测试
- 修复 graphrag 生成时 RedisDB 缺少
mget
11. 文档更新
- 更新发布日期
- 更新 CLI 安装命令
- 新增 FAQ
- 新增 v0.26.3 发布说明
- README 与文档统一版本号
- 修复 PR 模板
- 更新原生库与依赖脚本说明
十五、如何评价 v0.26.3:一次面向生产落地的实用版本
综合来看,RAGFlow v0.26.3 的价值可以概括成以下几点:
第一,数据接入能力继续增强。
BigQuery 的加入,让 RAGFlow 更适合企业数据场景,增量同步能力也更符合真实生产需求。
第二,复杂文档解析能力再上一个台阶。
SoMark OCR、DOCX 解析增强、HTML/PDF/CSV/QA 处理修复,说明系统正持续补足文档摄取质量这个决定上限的关键环节。
第三,Go 化进程明显加速。
从 CLI 到 API,从聊天到搜索,从 Mindmap 到 Box OAuth,从会话消息到推荐接口,Go 侧已经进入快速补齐阶段。
第四,Agent 与 MCP 生态更完整。
新增 MCP 工具、修复连接泄漏、加强 Agent 上下文注入、完善工具调用与运行跟踪,让 RAGFlow 在智能工作流方向更成熟。
第五,工程质量与可用性显著提升。
从移动端导航、批量上传部分成功,到认证、XSS、构建、CI、原生库兼容、日志日期、缩略图、图片显示、测试稳定性,这些修复虽然碎,但非常关键。
十六、结语
代码地址:github.com/infiniflow/ragflow
如果你关注的是:
- 企业数据源接入
- 复杂文档知识库构建
- Go API 生态
- Agent 与 MCP 扩展
- 批量导入稳定性
- 前后端综合可用性
那么 RAGFlow v0.26.3 是一个非常值得重点关注的版本。
更多推荐


所有评论(0)