在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

一、版本概览

RAGFlow 发布了 v0.26.2 Latest,发布时间为 2026 年 6 月 29 日

本次版本更新内容非常集中,既有面向业务使用的功能增强,也有面向底层能力的稳定性修复,还包含大量 Go API、Go CLI、数据集、文档解析、聊天渠道、MCP、Dataflow、模型接入、前端体验等方面的持续演进。

从官方变更内容来看,v0.26.2 的重点主要集中在以下几个方向:

  • 聊天渠道能力继续扩展
  • 文件解析链路增强,尤其是 OCR、DOCX、Markdown、PDF、Excel 等场景
  • 数据集与文档管理能力加强
  • MCP 稳定性修复
  • Dataflow 接口与运行反馈能力恢复
  • Google Cloud Gemini 新模型区域路由问题修复
  • Go API 与 Go CLI 持续补齐与迁移
  • 多项 UI/UX、国际化、Agent、工具链、构建与发布流程修正

二、官方 Summary

Released on June 29, 2026.

也就是:RAGFlow v0.26.2 于 2026 年 6 月 29 日正式发布。


三、新功能总览

本次版本在“New features”部分给出的新增能力,主要包括聊天渠道接入和文件解析增强两大块。

1. 聊天渠道新增 WhatsApp 接入

RAGFlow v0.26.2 新增了 WhatsApp 集成能力,接入方式为:

  • 通过 二维码扫描接入 WhatsApp

这意味着在聊天渠道层面,RAGFlow 已经把 WhatsApp Web 类型的接入能力纳入支持范围。

2. 聊天渠道新增钉钉接入

新增 DingTalk(钉钉) 集成能力,接入方式为:

  • 通过 Bot API 凭据完成接入

对于企业内部消息触达与机器人对接场景来说,这属于非常直接且实用的能力扩展。

3. 聊天渠道新增企业微信接入

新增 WeCom(企业微信) 集成能力,接入方式为:

  • 通过 WebSocket 连接完成接入

这意味着 RAGFlow 在企业级沟通入口上的覆盖进一步增强。

4. 文件解析增强:PaddleOCR 管线升级

在文件解析方面,本次版本新增了两项关键能力:

  • PP-OCRv6 以及类似文本识别模型增加了回退逻辑
  • PaddleOCR 流水线中集成图像解析能力

这说明 RAGFlow 在 OCR 识别兼容性和图像内容解析链路上都进行了增强。


四、改进项详解

“Improvements”部分的更新看似不多,但都非常关键,集中在数据集、聊天渠道和国际化三个领域。

1. 数据集改进

1)空文件夹与数据集关联的边界场景处理

新增了一个边界检查逻辑,用于在文件摄取时:

  • 安全地将 空文件夹链接到数据集

这能避免空目录在接入数据集时出现异常或处理失败。

2)大规模数据集元数据分页支持

get_flatted_meta_by_kbs() 方法增加了分页能力,以防止以下问题:

  • 当数据集文档数量超过 10,000
  • CRUD 操作可能因为元数据查询体量过大而失败

该改进明显是为大规模知识库场景提供稳定性保障。

2. 聊天渠道改进

对聊天渠道历史会话持久化逻辑进行了优化,具体表现为:

  • 终端用户的会话历史在 系统重启后仍可保留
  • 当一个聊天渠道绑定到新的对话时,历史会话依旧 保持隔离

这解决了“历史能否持久化”和“新旧对话是否混淆”两个核心问题。

3. 国际化改进

1)韩语界面覆盖增强
  • 扩展了国际化覆盖范围
  • 优化了 韩语 UI 翻译
2)法语翻译补充

补充了以下法语翻译缺失项:

  • 聊天渠道
  • 用户名校验
  • 模型编辑

五、Bug 修复重点解读

这一部分是本次版本最关键的内容之一,涉及文件解析、MCP、Dataflow、LLM、UI/UX 多个方向。

1. 文件解析相关修复

1)DOCX 的 Heading 样式触发 ValueError

修复了如下问题:

  • 在解析 .docx 文件时
  • 当遇到 Heading 样式时会抛出 ValueError
2)法律文档解析器误删 DOCX 表格

修复问题:

  • 在法律文档解析器中
  • .docx 文件里的表格会被静默移除
3)DeepDoc 分隔符导致 Markdown 标题与正文分离

修复问题:

  • 当设置了 DeepDoc delimiter 时
  • 孤立的 Markdown 标题会与其后续内容错误分离
4)Markdown 表格重复出现在分块结果中

修复问题:

  • Markdown 表格在 chunk 结果中出现两次
  • 一次作为独立 chunk
  • 一次又包含在普通文本 chunk 中

2. MCP 相关修复

1)空白文档页导致 MCP Server 挂起

修复问题:

  • MCP 服务端在遇到空文档页时会无限挂起
  • 文档最后一页还会因为分页逻辑缺陷被静默丢弃
2)MCP 连接与数据集发现失败

修复问题:

  • MCP 连接与数据集发现流程失败
  • 原因是服务端硬编码抓取数量上限超过了新引入的 page_size 限制

3. Dataflow 相关修复

1)恢复 rerun 接口,并补全 DSL 返回

修复内容:

  • 恢复 Dataflow rerun endpoint
  • 确保 ingestion response 中包含 DSL payload
  • 以便时间线和解析器视图可以稳定渲染
2)恢复默认配置并返回真实 SSE 负载

修复内容:

  • 恢复 Dataflow parser 默认值
  • 返回真实 SSE payload
  • 使 pipeline 运行时能够正确暴露 message ID 和日志更新

4. LLM 相关修复

Gemini 3.5 Flash 在 Google Cloud Vertex AI 的区域路由问题

修复问题:

  • 通过 Google Cloud(Vertex AI)provider 使用新的 gemini-3.5-flash 模型时
  • 如果使用 euus 区域 endpoint 会失败

修复方式为:

  • 显式使用多区域路由
  • 请求发送到 aiplatform.<region>.rep.googleapis.com
  • 而不是使用合成的 <region>-aiplatform.googleapis.com

5. UI/UX 相关修复

元数据新增弹窗发送空值

修复问题:

  • metadata add modal 会向后端发送空值

六、What’s Changed 全量变更整理

下面按照官方完整变更记录,对所有更新逐条整理。为便于阅读,按主题归类呈现。


七、启动、发布、构建与环境相关变更

1. 启动与发布流程修复

  • 修复启动脚本
  • 修复发布流程
  • 修复 Windows 和 Mac 构建发布工作流
  • 为发布流程增加 nightly tags
  • 增强 release.yml 中的 Windows 构建配置
  • 修复 Windows 环境下错误的 clang/toolchain 配置
  • 修复 Windows C 编译器硬编码路径问题
  • 增强 Windows 下 office_oxide 和 rag tokenizer 的构建流程
  • 处理 arm64 平台下 SIMDe 头文件安装问题
  • 新增环境变量 ALLOW_ANY_HOST,用于跳过 host 检查

2. 依赖与安全相关

  • web 端升级 lodash,避开存在漏洞的版本范围
  • 移除 deepdoc 依赖

八、聊天渠道相关变更

这是本次版本最显著的功能扩展之一。

1. 新增聊天渠道

  • 新增企业微信 WebSocket 聊天渠道支持
  • 新增钉钉聊天渠道支持
  • 新增 WhatsApp Web 二维码聊天渠道支持

2. 聊天渠道迁移与接口完善

  • 完成聊天渠道 API 的 Go 侧迁移,并补充测试
  • 修复聊天渠道默认值问题
  • 修复 Feishu 关闭相关问题
  • 保持聊天渠道绑定关系的一致性
  • 确保终端用户会话历史在重启后仍能保留,同时在绑定到新对话时保持隔离

3. 聊天展示与配置修复

  • 修复 Chat/Search/Agent bot 显示图片问题
  • 修复 VLM 渠道请求中的多模态聊天图片路由问题
  • 修复“Flexible Chat Configuration”相关问题
  • 修复设置模型后无法继续聊天的问题
  • 当空响应未设置时,修复报错 ERROR: 'knowledge'
  • 新增与聊天相关的 FormField 命名前缀
  • 修复 Agent 对话顶部弹出空消息通知的问题

九、文件解析、文档解析与 OCR 相关变更

这一部分内容非常多,也是 v0.26.2 的核心之一。

1. PaddleOCR 与图像解析

  • 为 PaddleOCR 新增模型 JSON 配置
  • 支持 PP-OCRv6 ocrResults 回退逻辑
  • 在 PaddleOCR 流程中集成图像解析能力

2. DOCX 解析相关

  • 修复 DOCX 解析中 Heading 样式触发 ValueError
  • 修复法律文档解析器在处理 DOCX 时丢失表格的问题
  • 保留 DOCX 中的表格内容

3. Markdown 解析相关

  • 修复设置 delimiter 时,孤立标题行与后续段落分离的问题
  • 修复 Markdown 表格 chunk 重复问题
  • 修复 use_sql 场景下 Markdown 分隔符与 Source header 对齐问题
  • 支持 GFM 表格分隔线中一个或多个短横线的写法

4. HTML、Excel、PDF 解析相关

  • 修复 HTML parser 在拆分超大块内容时未保留原始文本的问题
  • 修复 Excel parser 在构建文本 chunk 时丢失值为 0 的单元格问题
  • 曾加入“保留零值与 false Excel 单元格”的逻辑,后续进行了回滚
  • 修复 VLM PDF parser 只解析前 12 页的问题
  • 让 PDF 默认页范围与后端保持一致

5. DeepDoc 与文本分块相关

  • 修复 DeepDoc 在 call 中丢失零值和 false 的问题后又进行了回滚
  • 修复 naive_merge 对超大 section 的拆分与 overlap token 统计逻辑
  • 修复 [ID:0] 未转换为 Fig. 1 的问题
  • 修复文档进度在 embedding model 出错时未设置为 fail 的问题
  • 修复 document_serviceprogress_msg.strip() 可能出现的 NoneType 错误

6. 文件移动与存储相关

  • 修复 move file 失败的问题
  • 修复 Python RAGFlowS3 存储实现中缺失的 move 和 copy 方法
  • 恢复 /v1/document/upload_info/api/v1/documents/upload 的回补支持

十、数据集、文档与元数据相关变更

1. 数据集核心能力增强

  • get_flatted_meta_by_kbs() 增加分页,支持超过 10k 文档的数据集
  • 处理空文件夹链接到数据集时的边界情况
  • 新数据集无法更新配置的问题已修复
  • 新增数据集搜索接口
  • 新增数据集 tags 接口
  • 新增数据集 tags 聚合接口
  • 实现数据集文档上传 API
  • 实现数据集文档状态批量更新接口
  • 实现数据集 chunks 新增接口
  • 实现数据集 chunks 删除接口
  • 实现文档 chunks 新增接口
  • 实现 <document_id>/chunks/<chunk_id> PATCH 接口
  • 实现 <dataset_id>/embedding/check POST 接口
  • 实现 /datasets/<dataset_id>/<index_type> DELETE
  • 实现 /api/v1/datasets/<dataset_id> PUT
  • 实现 /api/v1/datasets/<dataset_id>/index 的相关接口
  • 修复旧版 /chunks 文档存储清理时租户选择问题,改为使用数据集所有者租户
  • normalizeDatasetID 进行修复
  • 修复按数据集名称列出数据集文件时的问题
  • 新增 list_datasets.sh 示例脚本

2. 文档 PATCH 与元数据同步

  • 在 Go 侧实现 document PATCH API
  • 对齐解析与 metadata 同步行为
  • 对齐文档 metadata 批处理 API 以及 upload_info 与 Python 的行为
  • 修复 metadata add modal 因闭包陈旧发送空值的问题
  • 修复 metadata add modal 发送空值到后端的问题
  • 修复不可变文档字段值为 0 时的校验问题

十一、MCP 相关变更

1. MCP 服务器与发现流程修复

  • 修复 MCP 数据集发现因 REST API 最大分页限制而失败的问题
  • 修复 MCP 文档 metadata 缓存可能在文档返回空 docs 页时进入死循环的问题
  • 修复 MCP 服务器遇到空页面时无限挂起的问题
  • 修复文档最后一页因分页逻辑错误被丢失的问题
  • 将 MCP server detail 和 download API 迁移到 Go

十二、Dataflow 与流程引擎相关变更

1. Dataflow 功能恢复

  • 恢复 dataflow rerun endpoint
  • 恢复 ingestion response 中 DSL payload 返回
  • 恢复 dataflow parser 默认值
  • 返回实际 SSE payload
  • 保证 timeline 和 parser 视图能正确渲染
  • 确保 pipeline 运行过程中 message ID 和日志更新可以正常显示

2. 流程与图执行稳定性增强

  • 防止 Switch Flow 路径中 component ID 缺失导致 NoneType 崩溃
  • 更稳健的 graph engine
  • 收紧 loop 校验逻辑
  • 当 Loop 算子的循环变量类型设为 object 时,修复点击其中 Variable Replicator 算子报错的问题

十三、LLM、模型与 Provider 相关变更

1. 模型接入与兼容性修复

  • 修复 Google Cloud Gemini 在 eu/us 多区域 endpoint 下的新模型调用问题
  • 支持新的 qwen 模型
  • all_models.json 补充缺失的 qwen 模型
  • 修复推测火山 embedding model 的问题
  • 修复新增 VLLM 时没有 apikey 会失败的问题
  • 新增 OpenAI-compatible gateway 的 API model provider
  • 实现 Go 版 OpenAI chat completions
  • 统一 provider id 或 provider name 的路由方式
  • 模型配置新增 tools

2. Langfuse 相关

  • 新增 Langfuse API key 迁移行为

3. 默认模型与角色模型展示

  • 新增 show / set role default models
  • 显示模型并列出所有模型
  • 修复模型相关命令
  • 修复 show model 和 list models

十四、Go API 迁移与补齐

本次版本有大量 Go API 迁移与补齐工作。

1. 数据集与文档相关 Go API

  • 实现 Go 侧 document PATCH API
  • 迁移 MCP server detail 与 download API 到 Go
  • 实现 /api/v1/datasets/<dataset_id> PUT
  • 实现 /api/v1/datasets/<dataset_id>/index 相关接口
  • 实现 /api/v1/datasets/<dataset_id>/chunks POST
  • 实现 <document_id>/chunks/<chunk_id> PATCH
  • 实现 /datasets/<dataset_id>/documents/batch-update-status
  • 实现 /datasets/<dataset_id>/<index_type> DELETE
  • 实现 /api/v1/datasets/{dataset_id}/documents/{document_id}/chunks POST
  • 新增数据集 tags endpoints
  • 新增数据集 tags aggregation API
  • 新增数据集 search endpoint
  • 新增数据集文档上传 API
  • 实现 <dataset_id>/embedding/check POST
  • 实现 /datasets/<dataset_id>/chunks DELETE
  • 对齐 document metadata batch APIs 和 upload_info 行为

2. 聊天与消息相关 Go API

  • 完成 chat channel API 迁移
  • 实现 BulkDeleteChats Go API,并修复 ListChats
  • 迁移 searchbot share detail endpoint 到 Go
  • 对齐 chat session get/update 与 Python 行为
  • 新增 chat update endpoints
  • 实现 Search/Get/Update-Messages API
  • 实现 Add messages
  • 实现 Create-Chat/Session、Delete-Session

3. 连接器与其他接口

  • 新增 connectors/<connector_id> PATCH 路由

4. 行为对齐与兼容

  • Align Go agent behavior with Python,但 retrieval component 例外
  • normalizeDatasetID 修复
  • use RESTful pipeline detail API with knowledgeId and logId
  • 修复 CLI 指向错误 API endpoint 的问题
  • 替换 tenant_llm APIs

十五、Go CLI 变更汇总

Go CLI 是本次版本中更新最密集的部分之一,功能新增、重构与修复非常多。

1. 平台与命名

  • Go CLI 支持 Windows、Linux、macOS
  • ragflow_cli 重命名为 ragflow-cli

2. 功能新增

  • 新增 statistics 命令
  • 新增显示任务摘要命令
  • 新增 list、remove、stop tasks 命令
  • 新增 list user commands framework
  • 新增 admin list configs
  • 新增 admin list providers
  • 新增 admin model framework
  • 新增 response output
  • 新增 provider instance models 的列出、同步与 provider 列出
  • 新增默认公钥
  • 新增 show / set role default models
  • 新增 show model 和 list all models
  • 新增 show admin server 和 api server
  • 新增新的 response function

3. 修复项

  • 改善 CLI parseAddModel 中变量与标签命名
  • 修复 alter role
  • 修复 mode switch
  • 修复 key commands
  • 修复 list dataset files by dataset name
  • 修复 list provider instance tasks
  • 修复 model related commands
  • 修复 show variable
  • 修复 show model 和 list models
  • 修复 CLI 指向错误 API endpoint
  • Go CLI 多次重构与命令重构

十六、Agent 与工具相关变更

1. Agent 稳定性与交互体验

  • 修复 agent 不能与已有同名名称共存的问题
  • 修复重新进入 agent 页面时短暂闪现上一会话数据的问题
  • 修复 agent 对不同 reference data 格式的处理
  • 修复 agent log 重新拉取与 slider 百分比四舍五入问题
  • 修复 Agent 对话顶部空消息通知问题
  • 对齐 Go agent 与 Python agent 行为,但 retrieval 组件除外

2. Agent 工具能力

  • 为 agent 新增 Keenable web search tool
  • 修复 Wikipedia 歧义页和页面错误记录方式,由直接失败改为记录日志
  • 修复 PubMed 工具始终返回 Unknown Authors 的问题
  • 修复 DeepL 组件校验失败且错误被吞掉的问题

3. Loop、Switch 与变量处理

  • 修复 Switch 输入为 None 时字符串操作失败的问题
  • 收紧 loop 校验
  • 修复 Loop 中 object 类型循环变量与 Variable Replicator 的错误

十七、前端与 UI/UX 变更

1. 布局与展示修复

  • 修复文本、溢出与间距一致性的布局问题
  • 调整 DatasetTable 组件中的表格高度和按钮位置
  • 在 parsing status display 中新增日志图标
  • 修复 re-enter agent page 时旧数据闪现
  • 修复元数据新增弹窗空值提交
  • 修复图片显示与多模态图像路由问题
  • 修复空消息通知问题

2. 搜索与命名相关

  • 修复 search rename error with multiple error message

十八、国际化变更

1. 韩语翻译

  • 修复缺失的 i18n 覆盖
  • 优化韩语翻译

2. 法语翻译

  • 补全聊天渠道、用户名校验、模型编辑等法语翻译缺失

十九、日志、上下文与基础能力变更

1. 日志体系

  • 统一 Go 日志为 zap,并支持 rotation
  • 去除按包级别的日志等级配置

2. 并发与上下文

  • 在线程池执行中传播 contextvars

3. 图引擎与框架

  • Refactor harness framework
  • More resilient graph engine

二十、搜索、RAG、NLP 与聚类相关修复

1. 检索与聚类修复

  • 修复 rag/raptor 中 GMM cluster selection 的 max_cluster 边界问题

2. NLP 修复

  • 修复 is_english 对字符串输入的处理,按单个短语处理

二十一、存储、文档状态与解析进度相关修复

  • 修复文档进度在 embedding model 错误时未设置为 fail
  • 修复 progress_msg.strip()NoneType 问题
  • 修复 handle move file failed
  • 修复 Python RAGFlowS3 缺失 move/copy
  • 恢复 upload_info 路由支持

二十二、与 PDF、Parser、Go 化迁移相关的重点变化

  • pdf_parser.py 迁移到 Golang
  • 修复 VLM PDF parser 只解析前 12 页
  • 使 PDF 默认页范围与后端对齐
  • 恢复 Dataflow parser 默认值
  • 移除 deepdoc 依赖

二十三、文档与开发资料更新

  • 更新 Go 开发文档
  • 补充 v0.26.2 release notes

二十四、按原始发布说明归纳后的完整更新清单

为确保不遗漏官方提供的任何信息,下面按内容再次做一轮完整覆盖式归档:

新功能

  • 集成 WhatsApp,使用二维码扫描接入
  • 集成钉钉,使用 bot API 凭据接入
  • 集成企业微信,使用 WebSocket 连接接入
  • 文件解析新增 PP-OCRv6 及类似文本识别模型的回退逻辑
  • 在 PaddleOCR 流水线中集成图像解析

改进

  • 文件摄取逻辑新增边界检查,支持安全地将空文件夹链接到数据集
  • get_flatted_meta_by_kbs() 增加分页,避免超过 10000 文档时 CRUD 失败
  • 聊天渠道保证终端用户会话历史重启后保留,同时新绑定对话时继续隔离
  • 扩展国际化覆盖范围并优化韩语 UI 翻译
  • 补充法语在聊天渠道、用户名校验、模型编辑中的缺失翻译

文件解析修复

  • 修复 DOCX Heading 样式触发 ValueError
  • 修复法律文档解析器移除 DOCX 表格的问题
  • 修复设置 DeepDoc delimiter 后 Markdown 标题与下文分离
  • 修复 Markdown 表格在 chunk 中重复出现
  • 修复 HTML 过大块拆分时原文丢失
  • 修复 Excel 零值单元格文本块丢失
  • 修复 VLM PDF parser 页数解析限制
  • 修复默认 PDF 页范围与后端不一致
  • 修复 [ID:0] 未转换为 Fig. 1
  • 修复 naive_merge 分割和 token overlap 统计
  • 支持 GFM 表格分隔符的一种更宽松写法
  • 移除 deepdoc 依赖
  • pdf_parser.py 迁移到 Go

MCP 修复

  • 修复空白页导致 MCP 服务器无限挂起
  • 修复最后一页文档被静默丢弃
  • 修复因抓取上限和 page_size 限制冲突导致的 MCP 连接与数据集发现失败
  • 修复文档 metadata 缓存空页死循环问题
  • 迁移 MCP detail 和 download API 到 Go

Dataflow 修复

  • 恢复 rerun 接口
  • 恢复 ingestion response 中 DSL payload
  • 恢复 dataflow parser 默认值
  • 返回真实 SSE payload
  • 正确显示 message ID 和日志更新
  • 修复 pipeline detail API 使用方式
  • 防止 Switch Flow 路径缺失组件 ID 导致崩溃
  • 提升 graph engine 韧性
  • 收紧 loop 校验
  • 修复 loop 中 object 变量与 Variable Replicator 的错误

LLM 与模型修复

  • 修复 Google Cloud Vertex AI 对 gemini-3.5-flash 的 eu/us 区域路由
  • 支持新的 qwen 模型
  • 补充 qwen 模型配置
  • 修复新增 VLLM 无 apikey 失败
  • 修复火山 embedding model 猜测问题
  • 新增 OpenAI-compatible gateway provider
  • Go 实现 OpenAI chat completions
  • provider 通过 id 或名称统一路由
  • 模型配置新增 tools

UI/UX 修复

  • 修复 metadata add modal 空值提交
  • 修复布局、溢出、间距一致性问题
  • 修复 DatasetTable 高度和按钮位置
  • 新增解析状态日志图标
  • 修复 Agent 页面旧数据闪现
  • 修复空消息通知
  • 修复图片显示与多模态图像路由
  • 修复 Flexible Chat Configuration

Go API / Go CLI / Go 生态

  • 大量数据集、文档、chunks、message、chat、session、connector 相关 API 已在 Go 侧实现或迁移
  • Go CLI 支持三大操作系统
  • Go CLI 重命名为 ragflow-cli
  • 新增 statistics、任务管理、provider 管理、admin 配置、模型展示等多个命令
  • 修复多项命令与模式切换、key、变量显示、模型展示问题
  • 统一 Go 日志
  • 更新 Go 开发文档

二十五、结语

RAGFlow v0.26.2 是一个覆盖面非常广的版本,更新既包含面向终端接入的新增聊天渠道,也包含底层基础设施的大量修复与 Go 化推进。

从官方变更内容来看,这一版的价值主要体现在以下几类能力同时推进:

  • 聊天入口继续扩展,新增 WhatsApp、钉钉、企业微信
  • 文档解析链路更完整,OCR、DOCX、Markdown、PDF、Excel 均有提升
  • 数据集能力更稳,面向大规模文档场景的分页与边界处理更加完善
  • MCP 与 Dataflow 的关键稳定性问题得到修复
  • Go API 与 Go CLI 持续补齐,工程化推进明显
  • 模型接入、国际化、Agent 工具链、前端体验同步优化
Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐