在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

一、版本总览:v0.26.3 重点看什么

这一版更新内容非常多,但最值得优先关注的有以下几个方向:

  • 新增 Google BigQuery 数据源连接器
  • RAGFlow MCP Server 新增两个 MCP 工具
  • 文件摄取中引入 SoMark OCR 解析器
  • API 开放 Ingest documents 端点,支持自定义处理流水线
  • 批量文档上传支持 部分成功,单文件失败不再拖垮整个批次
  • 全局头部导航重构,移动端体验显著改善
  • Ollama 提供商访问模型失败问题被修复
  • 聊天消息删除误删上一个会话引用的问题被修复
  • Go 侧 API、CLI、搜索、聊天、会话、Agent、Mindmap 等能力继续扩展
  • 大量前后端、解析器、工作流、构建、测试、兼容性和安全问题被清理

这意味着,v0.26.3 不仅对企业级数据接入更友好,也对实际生产部署、移动端使用、复杂文档解析、Agent 运行链路以及 Go 化演进带来了直接价值。


二、新特性详解:这次到底新增了什么

1. Google BigQuery 成为新的数据源连接器

在数据源连接器方面,RAGFlow v0.26.3 正式引入了 Google BigQuery,可用于:

  • 文档摄取
  • 增量同步

这项能力的意义非常大。它说明 RAGFlow 正在继续加强与企业级数据基础设施的衔接能力。对于已经在使用云数仓、分析平台或者需要从结构化数据源进行持续同步的团队来说,这项更新会明显降低接入门槛。


2. MCP Server 新增两个工具

在 MCP 方面,这一版为 RAGFlow MCP Server 新增了两个工具:

  • ragflow_list_datasets
  • ragflow_list_chats

这两个工具的加入,意味着通过 MCP 与 RAGFlow 交互时,可以更方便地:

  • 枚举数据集
  • 枚举聊天记录

对正在构建外部工具编排、Agent 工作流或跨系统协同能力的开发者来说,这属于非常实用的补强。


3. 文件摄取集成 SoMark OCR 解析器

在文档摄取方面,v0.26.3 集成了 布局感知型 SoMark OCR 解析器
它的目标非常明确:提取并索引复杂文档元素,包括但不限于:

  • 表格
  • 图像
  • 版面复杂内容

这项升级对知识库质量的提升非常关键。很多检索增强生成系统在落地时,真正的难点并不只是向量化,而是复杂文档结构提取是否准确。SoMark 的加入,意味着 RAGFlow 在复杂 PDF、图文混排、表格密集类文档的解析能力上进一步增强。


4. API 开放 Ingest documents 端点

这一版还开放了 Ingest documents API 端点,用于通过自定义流水线处理文档。

这一更新有两个直接价值:

  • 开发者可以更灵活地控制文档导入过程
  • 某些无法通过原有路径正确解析流水线的场景,现在可以通过新的接口完成处理

同时,更新内容中还明确提到,对于 /datasets/{dataset_id}/chunks 无法解析摄取流水线的场景,应使用 /documents/ingest。这实际上进一步强化了新端点的定位:它是更标准、更适合复杂导入流程的文档摄取入口。


三、改进项详解:从“能用”到“更好用”

1. 批量文档上传支持部分成功

后端层面,v0.26.3 为批量文档上传引入了部分成功处理机制
这意味着:

  • 以前一个文件失败,可能导致整批上传被丢弃
  • 现在单个失败文件不再影响整批有效文件的处理结果

这是一个很典型但又非常重要的工程级优化。实际业务中,知识库导入经常是批量操作,只要某个文档格式异常、权限异常或解析失败,就导致整批失败,会严重影响运维效率。现在的改动大幅提高了导入可靠性和可用性。


2. 全局头部导航重构,移动端体验显著提升

UI 与 UX 方面,这一版对全局头部做了重构,能够根据可用屏幕空间在以下两种模式之间动态切换:

  • 完整桌面导航栏
  • 适合移动端的侧边抽屉

它解决了此前界面重叠问题,并显著提升了移动端使用体验。
对于经常在平板、小屏笔记本、甚至手机上查看知识库和聊天界面的用户来说,这是一个很有感知的改进。


四、官方点名修复的两个关键问题

1. Ollama 提供商接入后的模型访问报错被修复

此前在配置 Ollama 提供商后,系统可能报错:

Failed to access model(name) using this api key

这个问题在 v0.26.3 中已经修复。
对于本地模型或私有模型接入场景来说,这项修复很关键。


2. 删除一组用户与助手消息时误删前一轮引用的问题被修复

此前在删除一组用户与助手消息时,会因为索引错位,误删上一轮对话的引用信息。
这个问题已经在 v0.26.3 中修复。

这属于聊天链路里非常容易影响用户信任的问题,因为它会直接破坏上下文引用的正确性。此次修复非常必要。


五、前端与交互层更新:细节很多,但非常实用

这一版前端改动很多,除了前面提到的全局头部重构之外,还有以下内容:

  • 增强 UI 组件与整体布局
  • 修复用户设置弹窗问题,并清理 DOMPurify 相关逻辑
  • 修复头像上传失败问题
  • 修复新建聊天无法编辑问题
  • 调整消息左侧区域宽度为适配内容
  • 修复 UI 无法启动问题
  • 新增 AuthenticatedImg 组件,用于处理需要授权的图片请求
  • 提升普通角色标识的可见性与样式
  • 修复 Agent 页面在无标签场景下无法打开筛选器的问题
  • 修复 chunk 结果中图片无法加载的问题
  • 修复 SessionChat 组件中的引用处理逻辑
  • 修复 useExportMcp 传递 MCP 参数错误,导致 JSON 导出文件名不正确的问题
  • 隐藏模型设置按钮及相关功能
  • 修复发送 Agent 日志日期筛选时应使用本地墙上时钟字符串
  • 修复沙箱执行镜像无法展示和下载的问题

这些改动看起来分散,但背后体现的是:RAGFlow 团队在前端可用性、显示准确性、安全性和操作一致性上做了持续打磨。


六、文档解析、摄取与知识库处理:这一版非常“能打”

RAGFlow 的核心竞争力之一就是文档摄取与知识库构建能力,而 v0.26.3 在这一块变化非常密集:

1. SoMark OCR 已接入

前文已经提到,SoMark 用于复杂文档元素的抽取和索引,重点面向表格和图像等复杂内容。

2. 支持 DOCX 解析增强

本版包含以下与 DOCX 相关的更新:

  • 修复未编号 DOCX 标题样式的处理问题
  • 新增 DOCX 解析器

这意味着 Word 文档的解析质量和兼容性进一步增强。

3. 深度文档解析增强

还修复了以下问题:

  • 支持解析没有 body 的 HTML 片段
  • 保留最终 CSV 成对行号
  • 修复 PDF 压缩文件的页数检测问题
  • 规范 Q&A 解析器 ID 键为小写 qa
  • 修复数据集索引分块配置中 JSONMap 扫描问题
  • 修复文件在知识库中无法添加元数据的问题
  • 修复获取聊天时出现重复 datasetID 的问题
  • 修复 chunk 统计在删除 chunk 后不正确的问题
  • Go 侧允许 list chunks handler 接受 disabled chunk filter
  • 修复 chunk 结果无法加载图片
  • 修复文档计数在知识库中的问题

4. OSS 解析与文件处理继续演进

相关改动包括:

  • OSS 解析器 Go 重构
  • OSS 解析器不再 post 的特性调整
  • 修复下载依赖脚本路径提示,并补充原生库文档
  • .a 替换 .so,以适配 pdfiumpdf_oxideoffice_oxide

从这些变更可以看出,RAGFlow 在底层文档处理链路上做了不少兼容性和工程化完善。


七、Go API 与 Go 生态:这版仍然是“重点建设对象”

如果仔细看更新列表,会发现 Go 相关内容特别多。这说明 RAGFlow 正在持续推进 Go 后端能力建设与迁移补齐。

1. Go CLI 持续增强

本版 Go CLI 包含以下更新:

  • 新增 create 和 drop 命令
  • CLI 命令重构
  • 修复 API 命令
  • 新增显示用户套餐摘要功能
  • 新增管理员命令响应表格功能
  • 合并函数相关优化
  • 修复列出提供商模型功能
  • 修复 MinIO 端口问题

2. Go API 新增与补齐能力

新增或增强的 Go API 包括:

  • 新增聊天会话消息删除与反馈接口,后续又回滚
  • 实现 searches/<search_id>/completions POST
  • 新增 /api/v1/searchbots/mindmap/api/v1/chat/mindmap
  • 将 Box Web OAuth 连接器 API 迁移到 Go
  • 实现聊天 completions 的 Go 版本
  • 新增 sessions message update
  • 实现 chatbots/<dialog_id>/infosearchbots/detail
  • 新增 /api/v1/chat/recommendation,并与 /api/v1/searchbots/related_questions 做整合

3. Go 后端修复很多实际问题

包括但不限于:

  • 修复 searchbot BETA 鉴权
  • 修复 retrieval_test 接受 kb_id 数组以及模型识别问题
  • 修复 /documents/images/:image_id/documents/:id/preview/thumbnails 的 BETA 鉴权
  • 修复项目根目录获取问题
  • 修复文档计数问题
  • 允许 provider 使用重复 key
  • 修复 agent explore 在多个 doc_ids 下的缩略图加载问题
  • 修复 agent settings 更新时清空 DSL 的问题
  • 修复共享 chatbot session id 长度问题
  • 修复无法构建 Go backend
  • 修复对文件查询添加 tenant 过滤
  • 修复防止文件夹被移动到其自身之内
  • 修复 rerunWithDelete 时清理任务取消信号与 chunk 计数器
  • 修复聊天中的思考态与图形显示问题

整体来看,Go 生态已经不再只是“补充实现”,而是在逐步成为 RAGFlow 核心能力的重要承载层。


八、Agent 能力升级:这次更新非常密集

Agent 相关改动是 v0.26.3 的另一大重点,涵盖能力新增、上下文修复、兼容性处理、监控统计、工具调用等多个层面。

1. Agent 上下文与消息处理更稳了

修复内容包括:

  • 将上传的附件注入到 LLM 上下文中
  • 当 chat completion 未产生事件时返回 session_id
  • 防止 prompt fitting 后生成空的 LLM 用户消息
  • 处理 Agent Canvas 的 SSE 和状态序列化中不可序列化对象的问题
  • 增加 canvas_type 过滤和字段到 list_agents API
  • 修复调用 LLM 不可用时应返回 call failed
  • 修复 TuShare 新闻按上游关键词过滤
  • 修复 GoogleScholar 在空 JSON 输出和忽略 top_n 的问题

2. Agent 新增能力

新增能力包括:

  • 增加 BGPT 结构化文献证据搜索工具
  • 新增 CAJAL 科学论文 Agent 模板
  • 引入基于 spaCy 的命名实体识别和关系抽取,Python 与 Go 输出等价
  • 支持更准确的汇总 token 用量统计,并把 session、user、输入输出传播到 Langfuse 中用于 Agent 运行跟踪

3. Agent 相关修复已多次向 Go 侧移植

更新中明确提到了:

  • Port 14 upstream agent security / correctness fixes to Go canvas
  • Port agent PRs to GO
  • Port agent PRs to GO - 2

这说明 Python 侧已有的能力和修复正在不断同步到 Go 画布与 Go 实现中,有助于减少双栈行为差异。


九、MCP、Canvas 与连接稳定性:链路更完整了

MCP 除了新增两个工具外,还做了一个非常关键的稳定性修复:

  • 在 canvas 执行后关闭 MCP 会话,避免连接泄漏

这个问题如果长期存在,会给长时间运行的工作流、复杂 Agent、多次调用的场景带来连接占用和资源泄露风险。
修复之后,MCP 整体运行可靠性会更高。


十、搜索、推荐、Mindmap 与聊天能力继续补强

本版在聊天与搜索侧也有一系列增强:

  • 实现聊天 completions 的 Go 版本
  • 增加 /api/v1/chat/recommendation
  • /api/v1/searchbots/related_questions 进行整合
  • 新增搜索与聊天两个 Mindmap API
  • 修复新建聊天无法编辑
  • 修复获取聊天时重复 datasetID
  • 修复 SessionChat 组件引用处理
  • 修复聊天中的思考态与 Figure 展示问题

这说明 RAGFlow 已经不仅停留在传统“问答 + 检索”层面,而是持续把搜索、推荐、思维导图、会话引用管理等体验整合到统一交互闭环中。


十一、安全、认证与权限控制:这一版也没有忽视

这一版中有多项与安全和认证相关的更新:

  • 修复认证中间件在提前拒绝时产生双重响应的问题
  • 修复 Box Web OAuth 连接器 API 迁移到 Go
  • 修复多个文档图片与缩略图接口的 BETA 鉴权
  • 修复 Searchbot BETA 鉴权
  • 前端对 Agent rerun 弹窗 HTML 进行存储型 XSS 清洗
  • 用户设置弹窗相关清理 DOMPurify 逻辑
  • Python 侧修复仅允许单点登录,以及修改密码后强制重新登录

这些更新对于企业用户来说尤其重要。因为知识库与文档系统一旦进入组织内部应用,认证一致性、XSS 风险、文件访问权限都会直接影响系统可上线性。


十二、构建、依赖、兼容性与测试:工程质量同步提升

工程层面的变化也非常多,这些内容虽然不直接面向最终用户,但会显著影响部署体验和稳定性。

1. 依赖与构建层

  • crawl4ai 从 0.8.9 升级到 0.9.0
  • 开发环境下 URL 允许任意 host
  • 修复 g++ 11 不兼容问题
  • 修复 CI
  • 回滚某些 tests.yml CI 变更
  • 使用 .a 替换 .so 以适配多个原生库
  • 修复 Go backend 构建失败
  • 增加 web 和 build 启动步骤
  • 修复工作流中文件类型识别问题
  • 禁用 Agent 测试
  • 稳定超时测试,改用语义断言
  • WaitGroup.Go 简化代码
  • t.Context 替换 context.WithCancel
  • Go lint 修复

2. 时间、编码与流式处理层

  • 修复时间工具对 None 或空时间戳回退逻辑及 ISO 8601 解析
  • 修复 harness 流式输出
  • 在 rune 边界截断文本以保持 UTF-8 有效
  • 修复 RedisDB 缺少 mget 导致的 graphrag 生成报错

这些改动体现的是研发侧在持续提高系统健壮性,避免那些“偶发但很难排查”的线上问题。


十三、文档与说明同步更新

在文档方面,本版也有一系列同步动作:

  • 更新发布日期与 CLI 安装命令
  • 新增 FAQ
  • 增加 v0.26.3 发布说明
  • 在 README 与文档中统一版本引用为 v0.26.3
  • 修复 PR 模板
  • 修正 download_deps.py 路径提示并补充原生库文档

这说明官方不仅在做代码层更新,也在同步降低用户的学习和部署成本。


十四、完整变更梳理:按模块汇总,一次看全

为了便于收藏和检索,下面把本次更新内容按模块完整梳理一遍。

1. 新特性

  • 新增 Google BigQuery 数据源连接器,用于文档摄取与增量同步
  • MCP Server 新增 ragflow_list_datasetsragflow_list_chats
  • 文件摄取集成布局感知 SoMark OCR 解析器,用于提取和索引表格、图像等复杂元素
  • API 开放 Ingest documents 端点,支持使用自定义流水线处理文档

2. 体验与架构改进

  • 批量文档上传支持部分成功,单文件失败不再导致整批丢弃
  • 全局头部根据屏幕空间在桌面导航栏与移动端侧抽屉之间切换,解决重叠并优化移动端体验
  • UI 组件与整体布局重构增强

3. 官方重点修复

  • 修复 Ollama 提供商接入后模型访问失败问题
  • 修复删除一组用户与助手消息时误删上一轮引用的问题

4. 文档解析与知识库相关

  • 处理 /datasets/{dataset_id}/chunks 无法解析摄取流水线问题,改用 /documents/ingest
  • 修复未编号 DOCX 标题样式处理
  • 新增 DOCX 解析器
  • 解析无 body 的 HTML 片段
  • 保留最终 CSV 成对行号
  • 修复 PDF 压缩文件页数检测
  • 规范 Q&A 解析器 ID 为小写 qa
  • 修复数据集索引分块配置中的 JSONMap 扫描问题
  • 修复文件元数据无法添加到知识库的问题
  • 修复知识库文档计数问题
  • 修复 chunk 删除后的统计问题
  • 支持 list chunks handler 接受 disabled chunk filter
  • 修复 chunk 结果图片无法加载
  • 修复获取聊天时重复 datasetID
  • 修复 OSS 解析器 Go 重构与 no post 调整
  • 修复 pdfium、pdf_oxide、office_oxide 原生库链接方式
  • 修复下载依赖脚本路径并补充原生库说明

5. 前端与交互修复

  • 用户设置弹窗修复与 DOMPurify 清理
  • 修复头像上传
  • 修复新聊天无法编辑
  • 修复消息左侧区域宽度
  • 修复 UI 无法启动
  • 新增授权图片组件 AuthenticatedImg
  • 提升普通角色徽章可见性
  • 修复 Agent 页面无标签时筛选器无法打开
  • 修复 SessionChat 引用处理
  • 修复 useExportMcp 导出文件名传参问题
  • 隐藏模型设置按钮与相关功能
  • 修复沙箱执行镜像显示与下载
  • 修复本地日期字符串发送到 Agent 日志筛选

6. Go CLI 与 Go API

  • Go CLI 新增 create 和 drop
  • CLI 重构、修复 API 命令、增加用户套餐摘要、管理员命令表格、合并函数、修复列出模型、修复 MinIO 端口
  • Go 聊天会话消息删除与反馈 API 先新增后回滚
  • 实现搜索 completions POST
  • 新增聊天与搜索的 Mindmap API
  • Box Web OAuth 连接器 API 迁移到 Go
  • 实现聊天 completions in Go
  • 新增 sessions message update
  • 实现 chatbot info 与 searchbot detail
  • 新增 chat recommendation 并整合 related questions
  • 修复多个 Go 侧鉴权、构建、缩略图、文档计数、查询过滤、文件夹移动、任务取消与计数器清理、共享会话 ID 长度、聊天思考与图形等问题

7. Agent 与工具链

  • 上传附件注入 LLM 上下文
  • chat completion 无事件时返回 session_id
  • 防止 prompt fitting 后产生空用户消息
  • 处理 Canvas SSE 与状态不可序列化对象
  • list_agents 增加 canvas_type
  • LLM 不可用时返回 call failed
  • TuShare 新闻按关键词过滤
  • GoogleScholar 空 JSON 输出与 top_n 处理修复
  • 新增 BGPT 结构化文献证据搜索工具
  • 新增 CAJAL 科学论文 Agent 模板
  • 新增基于 spaCy 的 NER 与关系抽取,Python 与 Go 输出一致
  • 汇总 token 用量统计更准确,并把 session、user、输入输出传播到 Langfuse
  • 多轮将 Agent 修复移植到 Go

8. MCP 与连接管理

  • 新增 ragflow_list_datasets
  • 新增 ragflow_list_chats
  • Canvas 执行后关闭 MCP 会话,防止连接泄漏

9. 安全、认证与权限

  • 认证中间件提前拒绝时双重响应修复
  • 多个图片、预览、缩略图与 Searchbot 的 BETA 鉴权修复
  • Agent rerun 弹窗 HTML 做存储型 XSS 清洗
  • Python 侧修复单点登录和修改密码后强制重新登录

10. 工程、依赖、测试与兼容性

  • crawl4ai 升级
  • 开发环境 URL 允许任意 host
  • g++ 11 兼容性修复
  • CI 修复与部分回滚
  • 稳定超时测试
  • 修复 harness streaming emit
  • 在 rune 边界截断文本保持 UTF-8 合法
  • WaitGroup.Go 简化代码
  • t.Context 替代 context.WithCancel
  • Go lint 修复
  • 工作流文件类型识别修复
  • 增加 web 和 build 启动步骤
  • 禁用 Agent 测试
  • 修复 graphrag 生成时 RedisDB 缺少 mget

11. 文档更新

  • 更新发布日期
  • 更新 CLI 安装命令
  • 新增 FAQ
  • 新增 v0.26.3 发布说明
  • README 与文档统一版本号
  • 修复 PR 模板
  • 更新原生库与依赖脚本说明

十五、如何评价 v0.26.3:一次面向生产落地的实用版本

综合来看,RAGFlow v0.26.3 的价值可以概括成以下几点:

第一,数据接入能力继续增强。
BigQuery 的加入,让 RAGFlow 更适合企业数据场景,增量同步能力也更符合真实生产需求。

第二,复杂文档解析能力再上一个台阶。
SoMark OCR、DOCX 解析增强、HTML/PDF/CSV/QA 处理修复,说明系统正持续补足文档摄取质量这个决定上限的关键环节。

第三,Go 化进程明显加速。
从 CLI 到 API,从聊天到搜索,从 Mindmap 到 Box OAuth,从会话消息到推荐接口,Go 侧已经进入快速补齐阶段。

第四,Agent 与 MCP 生态更完整。
新增 MCP 工具、修复连接泄漏、加强 Agent 上下文注入、完善工具调用与运行跟踪,让 RAGFlow 在智能工作流方向更成熟。

第五,工程质量与可用性显著提升。
从移动端导航、批量上传部分成功,到认证、XSS、构建、CI、原生库兼容、日志日期、缩略图、图片显示、测试稳定性,这些修复虽然碎,但非常关键。


十六、结语

代码地址:github.com/infiniflow/ragflow

如果你关注的是:

  • 企业数据源接入
  • 复杂文档知识库构建
  • Go API 生态
  • Agent 与 MCP 扩展
  • 批量导入稳定性
  • 前后端综合可用性

那么 RAGFlow v0.26.3 是一个非常值得重点关注的版本。

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐