微博、EXA、亚马逊云科技是怎么用好向量检索的，看这一篇就够了|活动回顾

Zilliz Planet

662人浏览 · 2026-04-15 18:10:42

Zilliz Planet · 2026-04-15 18:10:42 发布

2026年3月28日，Unstructured Data Meetup又来北京啦，这场由向量数据库领先者Zilliz创办的技术盛会，聚焦非结构化数据与GenAI领域的深度融合，吸引了来自研发、算法、数据中台、产品经理等多个领域的从业者踊跃参与。

活动现场，Zilliz技术专家及微博、Exa、亚马逊云科技等知名企业的行业大咖，结合自身多年实战经验，围绕向量数据库、AI Agent、对话助手、AI原生搜索等热门领域，带来了兼具理论深度与实践价值的干货分享，为在场从业者搭建了高效的技术交流平台。以下是本次北京站活动的详细回顾，兼顾精简性与内容完整性：

01 李成龙：AI Agent长期记忆落地实战——Milvus核心应用全解析

Zilliz首席开源布道师李成龙，围绕AI Agent长期记忆落地这一核心痛点，结合Milvus向量数据库的核心能力，带来了兼具理论深度与实战价值的分享。他开篇明确指出，当下AI Agent要实现真正的实用化，可靠的记忆系统是不可或缺的核心前提，传统仅依赖大模型上下文窗口的模式存在天然局限——即便窗口持续扩容，也如同内存再大仍需磁盘存储，而向量数据库正是AI Agent的“外置大脑”，承载着长期记忆的存储、检索与更新核心需求。

李成龙强调，缺乏长期记忆会直接导致Agent体验崩塌，最典型的场景就是用户告知Agent自己海鲜过敏后，后续Agent仍会推荐海鲜餐厅，无法实现个性化、连贯化的服务。一套完整的Agent记忆体系包含三类核心记忆，缺一不可：一是知识记忆，涵盖企业文档、法律条文等事实性信息，是记忆存储的核心体量；二是对话记忆，记录用户偏好、交互习惯等个性化内容，是实现精准服务的关键；三是经验复盘记忆，沉淀踩坑总结、执行经验，助力Agent持续迭代优化，提升服务能力。简言之，无长期记忆的Agent，永远只能从零开始，无法稳定落地企业级业务。

作为AI Agent记忆的最优载体，Milvus向量数据库凭借强大的混合检索能力，完美适配Agent记忆的全场景需求，同时兼具开源、性能、部署全维度优势。在核心检索能力上，Milvus支持BM25算法实现关键词匹配，配备多语言Tokenizer，可灵活适配中文、英文及出海多语种场景，解决多语言检索痛点；具备业界最全的向量索引类型，还搭载与英伟达联合开发的GPU并行索引，可高效实现语义搜索，轻松解决字面不匹配、语义一致的检索需求。此外，Milvus支持多种标量过滤，新增array字段可实现企业级权限隔离，动态Schema能灵活新增字段，适配业务快速迭代，内置Rerank重排能力可大幅提升检索准确率。

在开源与商业化层面，Milvus采用双轮驱动模式，基于Apache 2.0协议可自由商用，无版权顾虑，其GitHub Star数量已超4.3万，稳居向量数据库领域榜首；性能方面，Milvus自研vdbbench性能评测工具，集群方案可支撑千亿级向量规模，英伟达、苹果、特斯拉等海外大厂均在生产环境中使用。部署上，Milvus提供多维度方案且一套代码全端兼容，从适合个人开发者的Milvus Lite，到适配中小规模场景的Standalone单机版，再到支撑企业级需求的Distributed分布式版及Zilliz Cloud SaaS服务，可满足不同场景需求。最后，李成龙还分享了Agent记忆系统三层架构、MemSearch工具及多场景落地解决方案，为开发者提供了标准化的落地思路。

02 刘汉卿：实战向量数据库——破解对话助手长期记忆瓶颈，从OpenClaw到Harness Engineering全落地

Zilliz高级解决方案架构师刘汉卿，结合自身多年对话助手落地实战经验，深度拆解了对话助手的长期记忆瓶颈、场景差异、选型逻辑，手把手演示了OpenClaw与Milvus的集成落地流程，并分享了Harness Engineering工程范式与调优技巧，为对话助手研发提供了可直接复用的全流程解决方案。

刘汉卿以经典科幻故事为切入点，生动诠释了当下AI的“数字失忆症”：上世纪90年代的科幻小说中，由蚂蚁组成的人工智能设备“马蚁”，少量蚂蚁增减不影响智能，但大量蚂蚁流失后，设备虽能恢复对话，却彻底丢失原有记忆与人格。这一故事精准映射了当下对话助手的核心问题：记忆以模型为中心，无法跨模型、跨平台可插拔、可共享，缺乏外部独立记忆载体，导致无法实现长期、连贯的服务。

他指出，大模型虽具备极强的单次推理与生成能力，但在多轮对话场景中存在致命缺陷：上下文窗口有明确Token上限，历史对话会被截断；无独立记忆层，无法存储跨会话信息；记忆管理低效，无法实现动态筛选与精准召回。而对话助手与RAG知识库、推荐系统的场景差异，决定了其需要极速、动态的向量检索能力，传统存储工具无法满足需求。

为此，刘汉卿提出分层记忆架构，将记忆分为瞬时、短期、长期三个层级，突破上下文窗口极限。

在记忆载体选型上，刘汉卿明确表示，Milvus向量数据库是对话助手记忆存储的必然选择，其具备强检索能力、时间衰减机制适配、工程友好、技术融合等优势，适配“向量+全文检索+知识图谱”的行业最佳实践。

他还分享了AI工程范式的三次跃迁，指出Harness Engineering已成为对话助手研发的高阶标准，并演示了OpenClaw与Milvus的四步集成流程，分享了低成本向量化方案、五大调优技巧及Zilliz三种向量数据库产品形态，助力开发者快速落地。

03 杨续东：微博数十亿向量规模实战——Milvus生产环境运维与稳定性保障全攻略

微博资深研发工程师杨续东，结合微博数十亿向量规模的生产落地经验，从生产挑战、运维体系、故障实战、最佳实践四个维度，分享了规模化落地Milvus的干货经验，为同行提供了宝贵参考。在微博庞大的内容生态中，Milvus作为核心向量数据库，承载着全量博文的向量存储、语义检索与事件关联分析等核心能力，是微博搜索、推荐等核心业务的重要支撑。

当前，微博面临着极为严苛的生产场景挑战：日均数千万条数据增量，存量向量突破几十亿条，部署多套分布式集群、几十台服务器，且P99查询延迟必须控制在50ms以内。

这一背景下，Milvus生落地产环境会面临五大核心挑战：数据规模爆炸、高并发低延迟要求、复杂查询场景、分布式架构管控难、硬件资源高度敏感。

基于此，微博确立了可观测、可控制、可恢复的运维核心目标，搭建了全链路运维体系。

该体系的四大支柱的分别是：监控告警体系，覆盖服务可用性、业务性能、资源、组件状态四大类指标，设置精准PromQL告警规则；标准化配置管理，基于K8s ConfigMap搭建配置中心，实现配置变更的规范流程与版本化管理；场景化索引优化，根据不同数据量级与业务场景匹配最优索引类型，平衡性能与资源开销；集群管理，通过弹性伸缩与多活容灾，保障服务高可用。

未来，微博还将推进分层存储、多模态检索等技术规划，持续优化Milvus的生产级运维效果。

04 Shef Wang：AI原生搜索新范式——Exa × Milvus，重构AI与互联网的检索连接

Exa 的 Asia Lead, Shef Wang，围绕AI原生搜索的行业趋势、技术创新与实践落地，梳理了传统搜索在AI时代的底层困境，介绍了Exa作为AI专属搜索引擎的核心能力，以及在实体搜索场景中与Milvus向量数据库的合作实践。

他开篇指出，传统搜索引擎"关键词输入→蓝色链接返回→人工浏览筛选"的范式，在AI时代已完全失效，无法适配AI的检索需求。Shef Wang从三个方面剖析了传统搜索的困境：人类搜索低效，关键词输入局限且链路冗长；传统搜索适配性缺失，无法满足AI Agent高频检索需求；行业趋势不可逆，预计2026-2027年AI发起的搜索指令量将超越人类。而AI原生搜索的核心价值，是直接为AI返回精准内容，这也是Exa的核心定位。Exa并非传统搜索引擎的"套壳"，而是从底层重构搜索体系，具备海量爬虫、自研嵌入模型、自研向量数据库、极致性能四大核心能力。

在实体搜索这一企业级高频场景中，Exa 引入了Milvus（Zilliz）进行实体索引的存储与检索。针对 "帮我找出所有满足特定地域、融资轮次、赛道的初创公司" 这类复杂，高 recall 的需求，Milvus可在单一流程内完成语义检索与多属性标量过滤，为Exa的实体搜索管线提供了便利。目前，Exa的实体搜索能力已广泛应用于搜人、商机挖掘、猎头招聘等场景。

Shef Wang还分享了搜索效果评估与商业化模式：Exa开源了WebCode代码搜索评估集，建议企业采用内部自定义Query做端到端实测；商业化上采用API按次收费模式，为个人开发者与中小企业提供每月免费调用额度，降低试用成本。他强调，AI原生搜索是大模型、AI Agent走向实用化的关键基础设施。

05 张元涛：2026企业级AI Agents落地干货——亚马逊云科技全栈方案与实践

亚马逊云科技高级解决方案架构师张元涛，聚焦2026年企业级AI Agents的落地趋势与实践，对比了生成式AI与代理式AI的核心差异，详解了亚马逊云科技打造的从开发、部署到运营的企业级AI Agents全栈方案，分享了最佳实践与高频问题解答。

张元涛指出，当前企业AI应用正从单一生成式AI向自主化AI Agents快速演进，核心体现在AI Agents从“逐指令执行”走向全自主任务闭环，多智能体协同成为主流。亚马逊云科技的全栈方案，核心目标是打造可直接上线、支撑大规模业务的生产级Agent，解决传统方案“小范围可用、规模化失效”的痛点。他对比了生成式AI与AI Agents的核心差异，明确AI Agents更适配企业级复杂场景。

这套全栈技术体系分为三个层面：开发层的Strands Agents，是免费开源的低代码SDK，不到10行代码即可构建Agent原型，无云绑定；运行层的Amazon Bedrock AgentCore，是一站式全托管平台，包含Runtime、网关、合规控制等几大组件，可按需组合；应用层的Frontier Agent，开箱即用，分别赋能员工日常工作与企业核心业务自动化。

为帮助企业快速落地，张元涛分享了四步最佳实践：使用Strands Agents快速开发原型、用kiro IDE规范开发、托管至Amazon Bedrock AgentCore、通过应用层产品落地场景。最后，他解答了AgentCore扩缩容、组件差异、云绑定等高频问题，总结表示，亚马逊云科技的全栈方案，真正让AI Agents从演示走向生产，未来将持续优化方案、拓展场景。

小结

随着非结构化数据的爆发与AI技术的快速迭代，向量数据库作为核心支撑技术，正与AI Agent、AI搜索、对话助手等各类场景深度融合，推动技术创新与产业落地，成为企业数字化转型的核心基础设施。本次Unstructured Data Meetup北京站，汇聚了各领域的技术大咖与开发者，分享的实战经验与技术干货，为行业提供了宝贵的参考与借鉴。

未来，Zilliz将持续通过Unstructured Data Meetup系列活动，每月定期在各大城市举办一线技术交流与分享，汇聚更多行业专家与开发者，共同探索非结构化数据与GenAI的无限可能，助力更多企业实现技术落地与创新发展，欢迎广大开发者持续关注并报名参与。

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

CrabCode v1.0.9 更新速览！一次集中打磨，体验更清爽！

MCP技术社区

AI Agent 工具调用中间件：Go 实现截断、超时与熔断

中间件解决的问题适用场景性能开销Truncate输出过大撑爆上下文文件读取、数据库查询、API 调用低（仅字符串操作）Timeout工具卡死不返回网络调用、慢查询、外部 API低（一个 goroutine + channel）连续失败雪崩外部依赖不可靠时极低（原子操作 + 锁）Metrics无感知，问题发现滞后所有工具低（日志 I/O 开销）

MCP技术社区

Go 语言构建生产级 MCP Server：资源管理与并发控制

/ Tool 代表一个 MCP 工具// ToolHandler 是工具的执行函数 —— 任何工具都实现此签名// CallToolResult 工具调用返回Data string `json:"data,omitempty"` // base64 编码的二进制数据// Resource 代表 MCP 资源（文件、数据库记录等）