IvorySQL HTAP 实时湖仓接入引擎

IvorySQL

47人浏览 · 2026-07-04 16:13:01

IvorySQL · 2026-07-04 16:13:01 发布

本文章整理于 HOW 2026 中陶郑（IvorySQL 核心贡献者）演讲内容。

一、数据架构的演进历程

1.1 传统数据架构的局限

业务数据从产生到被分析使用，中间需要经过多个系统的流转。当前行业主要存在两种架构模式：

线性架构：业务数据产生后进入事务数据库，经过 ETL 数据迁徙进入数据湖，再经处理进入数据仓库，最终由 AI 调用数据仓库接口进行分析。这一链路冗长，数据处理环节众多。
变形架构：数据同时写入事务数据库和分析型数据库（即数据库与数据仓库并存），但本质上仍是多个数据库系统，AI 查询仍需跨系统访问。

这两类架构共同面临的困境是：数据处理流程复杂导致分钟级甚至小时级的延迟，且多次查询间原始数据可能已经发生变化，造成数据割裂。与此同时，多套系统的运维成本也居高不下。

1.2 架构演进的三代路径

第一代（2000年代——数据仓库） ：随着数据量增长，企业开始按业务需求设计数据结构并存入数据仓库。但后期业务扩展时，新增数据分析需求往往面临数据仓库改造的高昂成本。
第二代（2010年代——数据湖） ：为降低成本，企业开始将全量增量数据保存至廉价的数据湖中，仅在需要时提取至数据仓库。这虽降低了存储成本，却使分析链路更加复杂，维护难度加大。
第三代（2020年前后——湖仓一体） ：融合数据仓库与数据湖的优势，但本质上仍是两个系统的组合。

1.3 HTAP 原生化：下一代架构

当前最新趋势是从“湖仓一体”向“HTAP 原生化”演进——让事务数据与分析数据存储在同一数据库中，彻底消除数据迁徙与 ETL 环节。

两代架构的核心差异：

维度	湖仓一体	HTAP 原生化
存储底座	对象存储	统一高性能存储引擎
数据新鲜度	分钟级/小时级	秒级/毫秒级
核心能力	数据湖增加数仓功能	数据库具备数仓体量

这意味着多个数据库整合为一个，AI 可通过单一 API 调用，无需跨库查询，运维成本显著降低，数据实时性大幅提升。

这一演进逻辑在知识管理领域同样成立：传统的“笔记（事务）+ 大脑思考（分析）”分离模式，正向着“AI 统一管理所有笔记、查询与自动更新”的方向演进——这正是人类大脑“记忆与思考同一器官”的工作方式。

二、AI 时代传统架构的三大痛点

AI Agent 的普及对数据基础设施提出了全新要求，传统架构在三个维度上面临根本性挑战：

痛点一：查询模式不可预测
传统架构按预定查询脚本和数据模型设计，但 Agent 生成的查询是随机的——用户用自然语言描述需求，Agent 可能生成点查也可能生成聚合分析。传统架构无法同时高效应对这两种查询模式。
痛点二：数据新鲜度敏感
ETL 延迟意味着 Agent 查询事务数据和分析数据时，数据可能已经发生变化。在风控、推荐、金融等对实时性要求极高的场景中，这一延迟不可接受。
痛点三：跨系统延迟叠加
AI 任务的执行本质上是线性的。当单次任务需要同时涉及点查和聚合分析时，跨两套系统的延迟相互叠加，数据准确性与响应速度双双受损。

三、HTAP 原生架构：行业动向与 IvorySQL 的定位

3.1 行业风向标：Databricks 的两笔关键并购

过去一年中，数据库领域龙头企业 Databricks 完成了两笔具有标志性意义的收购：

2025年5月——收购 Neon：Neon 是无服务器 PostgreSQL 服务提供商。这一收购意味着 OLAP 巨头主动进入 OLTP 领域，事务与分析的边界开始被打破。
2025年10月——收购 Mooncake Labs：Mooncake Labs 的核心项目是 pg_mooncake——在 PostgreSQL 内嵌入 DuckDB 列存引擎，使同一份数据同时支持事务查询与分析查询，彻底无需 ETL。

这两笔收购释放了明确信号：HTAP 原生化方向已有顶级资本认可，且有商业化产品在实质推进。IvorySQL 的方案正是基于 pg_mooncake 构建。

3.2 pg_mooncake 留下的两个空白

空白一：开源生态的维护缺口
pg_mooncake 被收购后，更新频率明显放缓（自2025年10月起至今未再更新）。后续迭代必然优先服务于 Databricks 自身的商业产品路线图。开源社区需要一个独立维护的实现，迭代方向由社区共同决定，不被单一公司绑定。
空白二：Oracle 迁移场景的能力缺口
pg_mooncake 基于 PostgreSQL 生态构建，从未考虑过 Oracle 兼容场景。然而，中国大量企业的核心数据仍运行在 Oracle 上，迁移过程中同样面临 HTAP 需求——目前这一领域尚无现成答案。

3.3 IvorySQL 的定位与填补

IvorySQL 是一个开源的 PostgreSQL 分支，由社区独立维护，完整兼容 PostgreSQL 生态，同时支持 Oracle 语法、数据类型和函数行为。

基于这一基础，IvorySQL 的 HTAP 引擎做到：

填补空白一：社区独立维护的 pg_mooncake 持续演进版本，迭代方向不受商业公司绑定
填补空白二：全面支持 Oracle 迁移场景的 HTAP 能力，覆盖 Oracle 数据类型、语法及函数兼容
实时湖仓接入引擎：在上述基础上，同一份数据同时支持事务与分析两条路径，实时可查

四、技术路径与架构原理

4.1 行存与列存：理解 HTAP 的技术基础

PostgreSQL 是行存数据库，数据按整行连续存储（如同一张 Excel 表中一行完整记录）。行存适合事务型操作，写入速度快，事务支持完善，但在大数据量分析查询时性能会遇到瓶颈。

列存则按列独立排列（如所有金额值集中存储），查询时可直接提取目标列，无需整行扫描。列存在大数据量聚合分析场景下性能优势显著。

HTAP 的核心思路是：在同一数据库中同时拥有行存与列存两种存储形态，根据查询特征自动选择最优执行路径。

4.2 整体架构

图片1.png

IvorySQL HTAP 引擎基于 pg_mooncake 构建，核心机制如下：

智能路由：通过 Hooks 方式嵌入 PostgreSQL 内核（不侵入内核代码），Planner（计划器）自动识别查询特征，判断走行存（点查/事务）还是列存（聚合/分析）效率更高，自动路由至最优执行路径。

双存储引擎：

行存：PG Heap 文件，服务于 OLTP 事务场景
列存：DuckDB 引擎 + Parquet 列存格式，服务于 OLAP 分析场景

内存共享与自动同步：在内存中，同一份数据既可通过 PG 行存访问，也可转化为列存供 DuckDB 查询。持久化层面，数据通过 Parquet 等列存格式保存，行存与列存之间自动实时同步，应用层完全无感知。

4.3 为什么不需要 ETL

传统方案中，数据库 → ETL → 数仓，延迟达分钟级甚至小时级，AI Agent 拿到的是过时数据。

HTAP 原生方案中，数据始终只有一份，存储在 PostgreSQL 中。行存和列存是同一份数据的两种访问路径——ETL 消失了，延迟也消失了，AI Agent 拿到的是最新数据。

4.4 写入路径与查询路由

应用层 SQL：标准 SQL 语句发出，无需任何改造，应用完全不感知底层路由决策
PostgreSQL 查询层：Parser（解析器）→ Planner（规划器）→ Executor（执行器），pg_mooncake 以 Hook 方式嵌入，不侵入 PG 内核
自动路由：Planner 识别查询特征，自动决定行存（点查/事务）或列存（聚合/分析）
双存储引擎执行：行存走 PG Heap（OLTP），列存走 DuckDB + Parquet（OLAP）
自动同步：两种存储之间自动同步，数据始终只有一份

五、应用场景

场景一：Oracle 数仓迁移

迁移前痛点：企业将 Oracle 数仓迁移到开源数据库后，原有的分析链路需全部重建——OLAP 系统重新搭建、ETL 脚本重新编写、业务停摆等待，成本倍增。

迁移到 IvorySQL 后：Oracle 类型、语法、数据类型、函数行为全面兼容，迁移脚本无需修改。HTAP 能力随迁移一并到位，分析链路不需要重建，迁移完成即可用，无需额外部署任何组件。

场景二：AI Agent 混合查询

当前困境：Agent 完成一个任务需要同时查询事务数据和分析数据——先查 MySQL 拿最新订单，再查分析数据库做趋势分析。两个系统、两次延迟，且数据新鲜度不一致。

统一到 IvorySQL 后：点查走行存，聚合走列存，一个连接搞定所有查询。数据实时一致，Agent 响应速度与决策质量同步提升。

场景三：实时风控

当前困境：交易发生后，数据经过 ETL 进入风控分析系统，最快也是分钟级延迟。对于高风险交易，风控判断往往在交易完成后才到达，形同虚设。

接入 IvorySQL 后：交易写入 IvorySQL 的同时，列存即可查询。风控规则实时触发，从分钟级降到秒级以内。对风控、推荐、金融等延迟敏感场景，效果尤为显著。

六、开源发布计划

发布时间：计划伴随 IvorySQL 6.0 版本正式发布
开源内容：代码完全开源，包含三个核心模块——ivy_mooncake、ivy_duckdb、ivy_moonlink
获取方式：可通过 IvorySQL 官网获取相关资源与文档

注：现在已经发布了预览版 1.0 beta1

七、总结

IvorySQL HTAP 实时湖仓接入引擎，是 IvorySQL 社区在数据库架构演进方向上的重要布局。项目紧跟 Databricks 等行业巨头验证的技术方向，基于 pg_mooncake 构建，同时填补了开源独立维护与 Oracle 迁移场景两大空白。通过行存与列存的融合、智能路由与自动同步机制，实现了事务与分析在同一数据库中的实时统一，为 AI Agent 时代的数据查询、实时风控、Oracle 迁移等场景提供了切实可行的解决方案。

随着 6.0 版本的开源发布，IvorySQL 社区将为企业用户提供一套真正开放、可独立演进、兼容 Oracle 生态的 HTAP 基础设施。

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

AI Agent 入门与实战：从对话到干活，理解下一代AI工作方式

你告诉Agent一个目标，它会自己拆解成步骤，调用工具（文件操作、命令行、API接口），逐步执行，遇到问题会自己尝试修复，最后给你交付结果。第一，Agent写的代码不是100%可靠的。对于一个已经在写代码的开发者来说，现在最重要的事情不是"学什么新语言或新框架"，而是学会怎么让Agent帮你干活、提高你不可替代的那部分能力——业务理解、架构设计、技术判断。用Agent的做法是：你告诉它需求，它自己

MCP技术社区

MCP企业运用全面知识点-进阶篇

本文是MCP（Model Context Protocol）企业运用进阶指南，重点对比MCP与其他技术方案的差异，并详细阐述企业级部署方案。主要内容包括：技术方案对比：将MCP与Function Calling、OpenAI Plugins/Assistants API及传统REST/GraphQL API进行多维度比较，突出MCP在标准化、扩展性和上下文管理方面的优势。企业部署方案：提供从基

MCP技术社区

MCP企业运用全面知识点-基础篇

文章摘要（150字） MCP（Model Context Protocol）是Anthropic提出的开放标准协议，旨在统一大模型与外部工具/数据源的连接方式。协议通过标准化工具调用、上下文访问和服务描述，解决AI应用集成中的碎片化问题。MCP架构包含Host、Client和Server三大组件，支持Tools（可执行函数）、Resources（可读数据）和Prompts（模板）三类核心能力。传输