RAGFlow v0.26.2 发布详解:聊天渠道、文件解析、MCP、Dataflow、Go 生态全面进化



一、版本概览
RAGFlow 发布了 v0.26.2 Latest,发布时间为 2026 年 6 月 29 日。
本次版本更新内容非常集中,既有面向业务使用的功能增强,也有面向底层能力的稳定性修复,还包含大量 Go API、Go CLI、数据集、文档解析、聊天渠道、MCP、Dataflow、模型接入、前端体验等方面的持续演进。
从官方变更内容来看,v0.26.2 的重点主要集中在以下几个方向:
- 聊天渠道能力继续扩展
- 文件解析链路增强,尤其是 OCR、DOCX、Markdown、PDF、Excel 等场景
- 数据集与文档管理能力加强
- MCP 稳定性修复
- Dataflow 接口与运行反馈能力恢复
- Google Cloud Gemini 新模型区域路由问题修复
- Go API 与 Go CLI 持续补齐与迁移
- 多项 UI/UX、国际化、Agent、工具链、构建与发布流程修正
二、官方 Summary
Released on June 29, 2026.
也就是:RAGFlow v0.26.2 于 2026 年 6 月 29 日正式发布。
三、新功能总览
本次版本在“New features”部分给出的新增能力,主要包括聊天渠道接入和文件解析增强两大块。
1. 聊天渠道新增 WhatsApp 接入
RAGFlow v0.26.2 新增了 WhatsApp 集成能力,接入方式为:
- 通过 二维码扫描接入 WhatsApp
这意味着在聊天渠道层面,RAGFlow 已经把 WhatsApp Web 类型的接入能力纳入支持范围。
2. 聊天渠道新增钉钉接入
新增 DingTalk(钉钉) 集成能力,接入方式为:
- 通过 Bot API 凭据完成接入
对于企业内部消息触达与机器人对接场景来说,这属于非常直接且实用的能力扩展。
3. 聊天渠道新增企业微信接入
新增 WeCom(企业微信) 集成能力,接入方式为:
- 通过 WebSocket 连接完成接入
这意味着 RAGFlow 在企业级沟通入口上的覆盖进一步增强。
4. 文件解析增强:PaddleOCR 管线升级
在文件解析方面,本次版本新增了两项关键能力:
- 为 PP-OCRv6 以及类似文本识别模型增加了回退逻辑
- 在 PaddleOCR 流水线中集成图像解析能力
这说明 RAGFlow 在 OCR 识别兼容性和图像内容解析链路上都进行了增强。
四、改进项详解
“Improvements”部分的更新看似不多,但都非常关键,集中在数据集、聊天渠道和国际化三个领域。
1. 数据集改进
1)空文件夹与数据集关联的边界场景处理
新增了一个边界检查逻辑,用于在文件摄取时:
- 安全地将 空文件夹链接到数据集
这能避免空目录在接入数据集时出现异常或处理失败。
2)大规模数据集元数据分页支持
对 get_flatted_meta_by_kbs() 方法增加了分页能力,以防止以下问题:
- 当数据集文档数量超过 10,000 时
- CRUD 操作可能因为元数据查询体量过大而失败
该改进明显是为大规模知识库场景提供稳定性保障。
2. 聊天渠道改进
对聊天渠道历史会话持久化逻辑进行了优化,具体表现为:
- 终端用户的会话历史在 系统重启后仍可保留
- 当一个聊天渠道绑定到新的对话时,历史会话依旧 保持隔离
这解决了“历史能否持久化”和“新旧对话是否混淆”两个核心问题。
3. 国际化改进
1)韩语界面覆盖增强
- 扩展了国际化覆盖范围
- 优化了 韩语 UI 翻译
2)法语翻译补充
补充了以下法语翻译缺失项:
- 聊天渠道
- 用户名校验
- 模型编辑
五、Bug 修复重点解读
这一部分是本次版本最关键的内容之一,涉及文件解析、MCP、Dataflow、LLM、UI/UX 多个方向。
1. 文件解析相关修复
1)DOCX 的 Heading 样式触发 ValueError
修复了如下问题:
- 在解析
.docx文件时 - 当遇到
Heading样式时会抛出ValueError
2)法律文档解析器误删 DOCX 表格
修复问题:
- 在法律文档解析器中
.docx文件里的表格会被静默移除
3)DeepDoc 分隔符导致 Markdown 标题与正文分离
修复问题:
- 当设置了 DeepDoc delimiter 时
- 孤立的 Markdown 标题会与其后续内容错误分离
4)Markdown 表格重复出现在分块结果中
修复问题:
- Markdown 表格在 chunk 结果中出现两次
- 一次作为独立 chunk
- 一次又包含在普通文本 chunk 中
2. MCP 相关修复
1)空白文档页导致 MCP Server 挂起
修复问题:
- MCP 服务端在遇到空文档页时会无限挂起
- 文档最后一页还会因为分页逻辑缺陷被静默丢弃
2)MCP 连接与数据集发现失败
修复问题:
- MCP 连接与数据集发现流程失败
- 原因是服务端硬编码抓取数量上限超过了新引入的
page_size限制
3. Dataflow 相关修复
1)恢复 rerun 接口,并补全 DSL 返回
修复内容:
- 恢复 Dataflow rerun endpoint
- 确保 ingestion response 中包含 DSL payload
- 以便时间线和解析器视图可以稳定渲染
2)恢复默认配置并返回真实 SSE 负载
修复内容:
- 恢复 Dataflow parser 默认值
- 返回真实 SSE payload
- 使 pipeline 运行时能够正确暴露 message ID 和日志更新
4. LLM 相关修复
Gemini 3.5 Flash 在 Google Cloud Vertex AI 的区域路由问题
修复问题:
- 通过 Google Cloud(Vertex AI)provider 使用新的
gemini-3.5-flash模型时 - 如果使用
eu或us区域 endpoint 会失败
修复方式为:
- 显式使用多区域路由
- 请求发送到
aiplatform.<region>.rep.googleapis.com - 而不是使用合成的
<region>-aiplatform.googleapis.com
5. UI/UX 相关修复
元数据新增弹窗发送空值
修复问题:
- metadata add modal 会向后端发送空值
六、What’s Changed 全量变更整理
下面按照官方完整变更记录,对所有更新逐条整理。为便于阅读,按主题归类呈现。
七、启动、发布、构建与环境相关变更
1. 启动与发布流程修复
- 修复启动脚本
- 修复发布流程
- 修复 Windows 和 Mac 构建发布工作流
- 为发布流程增加 nightly tags
- 增强 release.yml 中的 Windows 构建配置
- 修复 Windows 环境下错误的 clang/toolchain 配置
- 修复 Windows C 编译器硬编码路径问题
- 增强 Windows 下 office_oxide 和 rag tokenizer 的构建流程
- 处理 arm64 平台下 SIMDe 头文件安装问题
- 新增环境变量
ALLOW_ANY_HOST,用于跳过 host 检查
2. 依赖与安全相关
- web 端升级 lodash,避开存在漏洞的版本范围
- 移除 deepdoc 依赖
八、聊天渠道相关变更
这是本次版本最显著的功能扩展之一。
1. 新增聊天渠道
- 新增企业微信 WebSocket 聊天渠道支持
- 新增钉钉聊天渠道支持
- 新增 WhatsApp Web 二维码聊天渠道支持
2. 聊天渠道迁移与接口完善
- 完成聊天渠道 API 的 Go 侧迁移,并补充测试
- 修复聊天渠道默认值问题
- 修复 Feishu 关闭相关问题
- 保持聊天渠道绑定关系的一致性
- 确保终端用户会话历史在重启后仍能保留,同时在绑定到新对话时保持隔离
3. 聊天展示与配置修复
- 修复 Chat/Search/Agent bot 显示图片问题
- 修复 VLM 渠道请求中的多模态聊天图片路由问题
- 修复“Flexible Chat Configuration”相关问题
- 修复设置模型后无法继续聊天的问题
- 当空响应未设置时,修复报错
ERROR: 'knowledge' - 新增与聊天相关的 FormField 命名前缀
- 修复 Agent 对话顶部弹出空消息通知的问题
九、文件解析、文档解析与 OCR 相关变更
这一部分内容非常多,也是 v0.26.2 的核心之一。
1. PaddleOCR 与图像解析
- 为 PaddleOCR 新增模型 JSON 配置
- 支持 PP-OCRv6
ocrResults回退逻辑 - 在 PaddleOCR 流程中集成图像解析能力
2. DOCX 解析相关
- 修复 DOCX 解析中
Heading样式触发ValueError - 修复法律文档解析器在处理 DOCX 时丢失表格的问题
- 保留 DOCX 中的表格内容
3. Markdown 解析相关
- 修复设置 delimiter 时,孤立标题行与后续段落分离的问题
- 修复 Markdown 表格 chunk 重复问题
- 修复
use_sql场景下 Markdown 分隔符与 Source header 对齐问题 - 支持 GFM 表格分隔线中一个或多个短横线的写法
4. HTML、Excel、PDF 解析相关
- 修复 HTML parser 在拆分超大块内容时未保留原始文本的问题
- 修复 Excel parser 在构建文本 chunk 时丢失值为 0 的单元格问题
- 曾加入“保留零值与 false Excel 单元格”的逻辑,后续进行了回滚
- 修复 VLM PDF parser 只解析前 12 页的问题
- 让 PDF 默认页范围与后端保持一致
5. DeepDoc 与文本分块相关
- 修复 DeepDoc 在 call 中丢失零值和 false 的问题后又进行了回滚
- 修复
naive_merge对超大 section 的拆分与 overlap token 统计逻辑 - 修复
[ID:0]未转换为Fig. 1的问题 - 修复文档进度在 embedding model 出错时未设置为 fail 的问题
- 修复
document_service中progress_msg.strip()可能出现的NoneType错误
6. 文件移动与存储相关
- 修复 move file 失败的问题
- 修复 Python RAGFlowS3 存储实现中缺失的 move 和 copy 方法
- 恢复
/v1/document/upload_info到/api/v1/documents/upload的回补支持
十、数据集、文档与元数据相关变更
1. 数据集核心能力增强
- 为
get_flatted_meta_by_kbs()增加分页,支持超过 10k 文档的数据集 - 处理空文件夹链接到数据集时的边界情况
- 新数据集无法更新配置的问题已修复
- 新增数据集搜索接口
- 新增数据集 tags 接口
- 新增数据集 tags 聚合接口
- 实现数据集文档上传 API
- 实现数据集文档状态批量更新接口
- 实现数据集 chunks 新增接口
- 实现数据集 chunks 删除接口
- 实现文档 chunks 新增接口
- 实现
<document_id>/chunks/<chunk_id>PATCH 接口 - 实现
<dataset_id>/embedding/checkPOST 接口 - 实现
/datasets/<dataset_id>/<index_type>DELETE - 实现
/api/v1/datasets/<dataset_id>PUT - 实现
/api/v1/datasets/<dataset_id>/index的相关接口 - 修复旧版
/chunks文档存储清理时租户选择问题,改为使用数据集所有者租户 - 对
normalizeDatasetID进行修复 - 修复按数据集名称列出数据集文件时的问题
- 新增
list_datasets.sh示例脚本
2. 文档 PATCH 与元数据同步
- 在 Go 侧实现 document PATCH API
- 对齐解析与 metadata 同步行为
- 对齐文档 metadata 批处理 API 以及 upload_info 与 Python 的行为
- 修复 metadata add modal 因闭包陈旧发送空值的问题
- 修复 metadata add modal 发送空值到后端的问题
- 修复不可变文档字段值为 0 时的校验问题
十一、MCP 相关变更
1. MCP 服务器与发现流程修复
- 修复 MCP 数据集发现因 REST API 最大分页限制而失败的问题
- 修复 MCP 文档 metadata 缓存可能在文档返回空 docs 页时进入死循环的问题
- 修复 MCP 服务器遇到空页面时无限挂起的问题
- 修复文档最后一页因分页逻辑错误被丢失的问题
- 将 MCP server detail 和 download API 迁移到 Go
十二、Dataflow 与流程引擎相关变更
1. Dataflow 功能恢复
- 恢复 dataflow rerun endpoint
- 恢复 ingestion response 中 DSL payload 返回
- 恢复 dataflow parser 默认值
- 返回实际 SSE payload
- 保证 timeline 和 parser 视图能正确渲染
- 确保 pipeline 运行过程中 message ID 和日志更新可以正常显示
2. 流程与图执行稳定性增强
- 防止 Switch Flow 路径中 component ID 缺失导致
NoneType崩溃 - 更稳健的 graph engine
- 收紧 loop 校验逻辑
- 当 Loop 算子的循环变量类型设为 object 时,修复点击其中 Variable Replicator 算子报错的问题
十三、LLM、模型与 Provider 相关变更
1. 模型接入与兼容性修复
- 修复 Google Cloud Gemini 在 eu/us 多区域 endpoint 下的新模型调用问题
- 支持新的 qwen 模型
- 为
all_models.json补充缺失的 qwen 模型 - 修复推测火山 embedding model 的问题
- 修复新增 VLLM 时没有 apikey 会失败的问题
- 新增 OpenAI-compatible gateway 的 API model provider
- 实现 Go 版 OpenAI chat completions
- 统一 provider id 或 provider name 的路由方式
- 模型配置新增 tools
2. Langfuse 相关
- 新增 Langfuse API key 迁移行为
3. 默认模型与角色模型展示
- 新增 show / set role default models
- 显示模型并列出所有模型
- 修复模型相关命令
- 修复 show model 和 list models
十四、Go API 迁移与补齐
本次版本有大量 Go API 迁移与补齐工作。
1. 数据集与文档相关 Go API
- 实现 Go 侧 document PATCH API
- 迁移 MCP server detail 与 download API 到 Go
- 实现
/api/v1/datasets/<dataset_id>PUT - 实现
/api/v1/datasets/<dataset_id>/index相关接口 - 实现
/api/v1/datasets/<dataset_id>/chunksPOST - 实现
<document_id>/chunks/<chunk_id>PATCH - 实现
/datasets/<dataset_id>/documents/batch-update-status - 实现
/datasets/<dataset_id>/<index_type>DELETE - 实现
/api/v1/datasets/{dataset_id}/documents/{document_id}/chunksPOST - 新增数据集 tags endpoints
- 新增数据集 tags aggregation API
- 新增数据集 search endpoint
- 新增数据集文档上传 API
- 实现
<dataset_id>/embedding/checkPOST - 实现
/datasets/<dataset_id>/chunksDELETE - 对齐 document metadata batch APIs 和 upload_info 行为
2. 聊天与消息相关 Go API
- 完成 chat channel API 迁移
- 实现 BulkDeleteChats Go API,并修复 ListChats
- 迁移 searchbot share detail endpoint 到 Go
- 对齐 chat session get/update 与 Python 行为
- 新增 chat update endpoints
- 实现 Search/Get/Update-Messages API
- 实现 Add messages
- 实现 Create-Chat/Session、Delete-Session
3. 连接器与其他接口
- 新增
connectors/<connector_id> PATCH路由
4. 行为对齐与兼容
- Align Go agent behavior with Python,但 retrieval component 例外
- normalizeDatasetID 修复
- use RESTful pipeline detail API with knowledgeId and logId
- 修复 CLI 指向错误 API endpoint 的问题
- 替换 tenant_llm APIs
十五、Go CLI 变更汇总
Go CLI 是本次版本中更新最密集的部分之一,功能新增、重构与修复非常多。
1. 平台与命名
- Go CLI 支持 Windows、Linux、macOS
- 将
ragflow_cli重命名为ragflow-cli
2. 功能新增
- 新增 statistics 命令
- 新增显示任务摘要命令
- 新增 list、remove、stop tasks 命令
- 新增 list user commands framework
- 新增 admin list configs
- 新增 admin list providers
- 新增 admin model framework
- 新增 response output
- 新增 provider instance models 的列出、同步与 provider 列出
- 新增默认公钥
- 新增 show / set role default models
- 新增 show model 和 list all models
- 新增 show admin server 和 api server
- 新增新的 response function
3. 修复项
- 改善 CLI
parseAddModel中变量与标签命名 - 修复 alter role
- 修复 mode switch
- 修复 key commands
- 修复 list dataset files by dataset name
- 修复 list provider instance tasks
- 修复 model related commands
- 修复 show variable
- 修复 show model 和 list models
- 修复 CLI 指向错误 API endpoint
- Go CLI 多次重构与命令重构
十六、Agent 与工具相关变更
1. Agent 稳定性与交互体验
- 修复 agent 不能与已有同名名称共存的问题
- 修复重新进入 agent 页面时短暂闪现上一会话数据的问题
- 修复 agent 对不同 reference data 格式的处理
- 修复 agent log 重新拉取与 slider 百分比四舍五入问题
- 修复 Agent 对话顶部空消息通知问题
- 对齐 Go agent 与 Python agent 行为,但 retrieval 组件除外
2. Agent 工具能力
- 为 agent 新增 Keenable web search tool
- 修复 Wikipedia 歧义页和页面错误记录方式,由直接失败改为记录日志
- 修复 PubMed 工具始终返回
Unknown Authors的问题 - 修复 DeepL 组件校验失败且错误被吞掉的问题
3. Loop、Switch 与变量处理
- 修复 Switch 输入为
None时字符串操作失败的问题 - 收紧 loop 校验
- 修复 Loop 中 object 类型循环变量与 Variable Replicator 的错误
十七、前端与 UI/UX 变更
1. 布局与展示修复
- 修复文本、溢出与间距一致性的布局问题
- 调整 DatasetTable 组件中的表格高度和按钮位置
- 在 parsing status display 中新增日志图标
- 修复 re-enter agent page 时旧数据闪现
- 修复元数据新增弹窗空值提交
- 修复图片显示与多模态图像路由问题
- 修复空消息通知问题
2. 搜索与命名相关
- 修复 search rename error with multiple error message
十八、国际化变更
1. 韩语翻译
- 修复缺失的 i18n 覆盖
- 优化韩语翻译
2. 法语翻译
- 补全聊天渠道、用户名校验、模型编辑等法语翻译缺失
十九、日志、上下文与基础能力变更
1. 日志体系
- 统一 Go 日志为 zap,并支持 rotation
- 去除按包级别的日志等级配置
2. 并发与上下文
- 在线程池执行中传播
contextvars
3. 图引擎与框架
- Refactor harness framework
- More resilient graph engine
二十、搜索、RAG、NLP 与聚类相关修复
1. 检索与聚类修复
- 修复
rag/raptor中 GMM cluster selection 的max_cluster边界问题
2. NLP 修复
- 修复
is_english对字符串输入的处理,按单个短语处理
二十一、存储、文档状态与解析进度相关修复
- 修复文档进度在 embedding model 错误时未设置为 fail
- 修复
progress_msg.strip()的NoneType问题 - 修复 handle move file failed
- 修复 Python RAGFlowS3 缺失 move/copy
- 恢复 upload_info 路由支持
二十二、与 PDF、Parser、Go 化迁移相关的重点变化
- 将
pdf_parser.py迁移到 Golang - 修复 VLM PDF parser 只解析前 12 页
- 使 PDF 默认页范围与后端对齐
- 恢复 Dataflow parser 默认值
- 移除 deepdoc 依赖
二十三、文档与开发资料更新
- 更新 Go 开发文档
- 补充 v0.26.2 release notes
二十四、按原始发布说明归纳后的完整更新清单
为确保不遗漏官方提供的任何信息,下面按内容再次做一轮完整覆盖式归档:
新功能
- 集成 WhatsApp,使用二维码扫描接入
- 集成钉钉,使用 bot API 凭据接入
- 集成企业微信,使用 WebSocket 连接接入
- 文件解析新增 PP-OCRv6 及类似文本识别模型的回退逻辑
- 在 PaddleOCR 流水线中集成图像解析
改进
- 文件摄取逻辑新增边界检查,支持安全地将空文件夹链接到数据集
get_flatted_meta_by_kbs()增加分页,避免超过 10000 文档时 CRUD 失败- 聊天渠道保证终端用户会话历史重启后保留,同时新绑定对话时继续隔离
- 扩展国际化覆盖范围并优化韩语 UI 翻译
- 补充法语在聊天渠道、用户名校验、模型编辑中的缺失翻译
文件解析修复
- 修复 DOCX
Heading样式触发ValueError - 修复法律文档解析器移除 DOCX 表格的问题
- 修复设置 DeepDoc delimiter 后 Markdown 标题与下文分离
- 修复 Markdown 表格在 chunk 中重复出现
- 修复 HTML 过大块拆分时原文丢失
- 修复 Excel 零值单元格文本块丢失
- 修复 VLM PDF parser 页数解析限制
- 修复默认 PDF 页范围与后端不一致
- 修复
[ID:0]未转换为Fig. 1 - 修复
naive_merge分割和 token overlap 统计 - 支持 GFM 表格分隔符的一种更宽松写法
- 移除 deepdoc 依赖
- 将
pdf_parser.py迁移到 Go
MCP 修复
- 修复空白页导致 MCP 服务器无限挂起
- 修复最后一页文档被静默丢弃
- 修复因抓取上限和
page_size限制冲突导致的 MCP 连接与数据集发现失败 - 修复文档 metadata 缓存空页死循环问题
- 迁移 MCP detail 和 download API 到 Go
Dataflow 修复
- 恢复 rerun 接口
- 恢复 ingestion response 中 DSL payload
- 恢复 dataflow parser 默认值
- 返回真实 SSE payload
- 正确显示 message ID 和日志更新
- 修复 pipeline detail API 使用方式
- 防止 Switch Flow 路径缺失组件 ID 导致崩溃
- 提升 graph engine 韧性
- 收紧 loop 校验
- 修复 loop 中 object 变量与 Variable Replicator 的错误
LLM 与模型修复
- 修复 Google Cloud Vertex AI 对 gemini-3.5-flash 的 eu/us 区域路由
- 支持新的 qwen 模型
- 补充 qwen 模型配置
- 修复新增 VLLM 无 apikey 失败
- 修复火山 embedding model 猜测问题
- 新增 OpenAI-compatible gateway provider
- Go 实现 OpenAI chat completions
- provider 通过 id 或名称统一路由
- 模型配置新增 tools
UI/UX 修复
- 修复 metadata add modal 空值提交
- 修复布局、溢出、间距一致性问题
- 修复 DatasetTable 高度和按钮位置
- 新增解析状态日志图标
- 修复 Agent 页面旧数据闪现
- 修复空消息通知
- 修复图片显示与多模态图像路由
- 修复 Flexible Chat Configuration
Go API / Go CLI / Go 生态
- 大量数据集、文档、chunks、message、chat、session、connector 相关 API 已在 Go 侧实现或迁移
- Go CLI 支持三大操作系统
- Go CLI 重命名为
ragflow-cli - 新增 statistics、任务管理、provider 管理、admin 配置、模型展示等多个命令
- 修复多项命令与模式切换、key、变量显示、模型展示问题
- 统一 Go 日志
- 更新 Go 开发文档
二十五、结语
RAGFlow v0.26.2 是一个覆盖面非常广的版本,更新既包含面向终端接入的新增聊天渠道,也包含底层基础设施的大量修复与 Go 化推进。
从官方变更内容来看,这一版的价值主要体现在以下几类能力同时推进:
- 聊天入口继续扩展,新增 WhatsApp、钉钉、企业微信
- 文档解析链路更完整,OCR、DOCX、Markdown、PDF、Excel 均有提升
- 数据集能力更稳,面向大规模文档场景的分页与边界处理更加完善
- MCP 与 Dataflow 的关键稳定性问题得到修复
- Go API 与 Go CLI 持续补齐,工程化推进明显
- 模型接入、国际化、Agent 工具链、前端体验同步优化
更多推荐

所有评论(0)