谷歌首个原生多模态向量模型发布:Agent 可以用文字搜图片、用图片搜视频了...

来源:AI寒武纪
Gemini Embedding 2上线,统一图文音视频向量空间
谷歌正式推出基于Gemini架构构建的首个原生多模态嵌入模型Gemini Embedding 2。该模型目前已通过Gemini API和Vertex AI开启公开预览。
与以往纯文本基础模型不同,Gemini Embedding 2的核心突破在于将文本、图像、视频、音频和文档全部映射到同一个统一的向量空间中,并能跨越100多种语言捕捉语义意图。这一特性大幅简化了复杂的处理流程,直接提升了检索增强生成(RAG)、语义搜索、情感分析以及数据聚类等多模态下游任务的表现。
五大模态全面打通,支持交错输入
基于Gemini的多模态理解能力,新模型在各项输入标准上给出了明确的性能指标:
-
文本:支持高达8192个输入Token的超长上下文。
-
图像:单次请求最多可处理6张图像,支持PNG和JPEG格式。
-
视频:支持输入长达120秒的视频片段,兼容MP4和MOV格式。
-
音频:实现原生音频数据摄取与嵌入,完全不需要中间的文本转录步骤。
-
文档:支持直接嵌入最多6页的PDF文件。
除了单模态处理,该模型原生支持交错输入。开发者可以在单次请求中同时传入多种模态数据(例如图像加文本),模型能够精准捕捉不同媒体类型之间复杂且细微的关联,从而对真实的复杂数据实现更准确的理解。
引入套娃表示学习,灵活调整输出维度
在底层技术上,Gemini Embedding 2延续了谷歌此前嵌入模型采用的套娃表示学习(MRL)技术。该技术通过动态缩小维度来实现信息的嵌套存储。
这种设计赋予了模型灵活的输出维度能力。开发者可以从默认的3072维向下缩放,以在模型性能和存储成本之间寻找最佳平衡点。为保证最高质量的输出,官方推荐使用3072、1536或768这三个维度。
设立多模态性能新基准
在性能表现上,Gemini Embedding 2在文本、图像和视频任务中均超越了现有的领先模型。同时,该模型引入了强大的语音处理能力,为多模态深度确立了新的性能标准,为开发者处理多样化的嵌入需求提供了直接支持。

目前,嵌入技术不仅是众多谷歌产品体验的底层驱动力,在RAG上下文工程、大规模数据管理和经典搜索分析等场景中也发挥着核心作用。部分早期访问合作伙伴已开始利用Gemini Embedding 2开发高价值的多模态应用。
开发与生态支持
开发者现可通过Gemini API或Vertex AI快速接入该模型。官方提供了基于Python的SDK(google.genai)调用方案,只需少量代码即可在单次请求中同时完成文本、图片和音频的嵌入处理:
from google import genai
from google.genai import types
# For Vertex AI:
# PROJECT_ID='<add_here>'
# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')
client = genai.Client()
with open("example.png", "rb") as f:
image_bytes = f.read()
with open("sample.mp3", "rb") as f:
audio_bytes = f.read()
# Embed text, image, and audio
result = client.models.embed_content(
model="gemini-embedding-2-preview",
contents=[
"What is the meaning of life?",
types.Part.from_bytes(
data=image_bytes,
mime_type="image/png",
),
types.Part.from_bytes(
data=audio_bytes,
mime_type="audio/mpeg",
),
],
)
print(result.embeddings)
调用逻辑示例:使用客户端直接调用 gemini-embedding-2-preview 模型,在 contents 列表中依次传入文本字符串,以及转换为字节流格式的图像和音频文件,即可直接输出包含多模态信息的向量结果。
在生态兼容性方面,除了官方的交互式Colab笔记本,Gemini Embedding 2已全面支持 LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB 以及 Vector Search 等主流开发框架和向量数据库。
阅读最新前沿科技趋势报告,请访问21世纪关键技术研究院的“未来知识库”

未来知识库是“21世纪关键技术研究院”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828 进入。
截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告
(加入未来知识库,全部资料免费阅读和下载)
-
牛津未来研究院 《将人工智能安全视为全球公共产品的影响、挑战与研究重点》
-
麦肯锡:超级智能机构:赋能人们释放人工智能的全部潜力
-
AAAI 2025 关于人工智能研究未来研究报告
-
斯坦福:2025 斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191 页)
-
壳牌:2025 能源安全远景报告:能源与人工智能(57 页)
-
盖洛普 & 牛津幸福研究中心:2025 年世界幸福报告(260 页)
-
Schwab :2025 未来共生:以集体社会创新破解重大社会挑战研究报告(36 页)
-
IMD:2024 年全球数字竞争力排名报告:跨越数字鸿沟人才培养与数字法治是关键(214 页)
-
DS 系列专题:DeepSeek 技术溯源及前沿探索,50 页 ppt
-
联合国人居署:2024 全球城市负责任人工智能评估报告:利用 AI 构建以人为本的智慧城市(86 页)
-
TechUK:2025 全球复杂多变背景下的英国科技产业:战略韧性与增长路径研究报告(52 页)
-
NAVEX Global:2024 年十大风险与合规趋势报告(42 页)
-
《具身物理交互在机器人 - 机器人及机器人 - 人协作中的应用》122 页
-
2025 - 2035 年人形机器人发展趋势报告 53 页
-
Evaluate Pharma:2024 年全球生物制药行业展望报告:增长驱动力分析(29 页)
-
【AAAI2025 教程】基础模型与具身智能体的交汇,350 页 ppt
-
Tracxn:2025 全球飞行汽车行业市场研究报告(45 页)
-
谷歌:2024 人工智能短跑选手(AI Sprinters):捕捉新兴市场 AI 经济机遇报告(39 页)
-
【斯坦福博士论文】构建类人化具身智能体:从人类行为中学习
-
《基于传感器的机器学习车辆分类》最新 170 页
-
美国安全与新兴技术中心:2025 CSET 对美国人工智能行动计划的建议(18 页)
-
罗兰贝格:2024 人形机器人的崛起:从科幻到现实:如何参与潜在变革研究报告(11 页)
-
兰德公司:2025 从研究到现实:NHS 的研究和创新是实现十年计划的关键报告(209 页)
-
康桥汇世(Cambridge Associates):2025 年全球经济展望报告(44 页)
-
国际能源署:2025 迈向核能新时代
-
麦肯锡:人工智能现状,组织如何重塑自身以获取价值
-
威立(Wiley):2025 全球科研人员人工智能研究报告(38 页)
-
牛津经济研究院:2025 TikTok 对美国就业的量化影响研究报告:470 万岗位(14 页)
-
国际能源署(IEA):能效 2024 研究报告(127 页)
-
Workday :2025 发挥人类潜能:人工智能(AI)技能革命研究报告(20 页)
-
CertiK:Hack3D:2024 年 Web3.0 安全报告(28 页)
-
世界经济论坛:工业制造中的前沿技术:人工智能代理的崛起》报告
-
迈向推理时代:大型语言模型的长链推理研究综述
-
波士顿咨询:2025 亚太地区生成式 AI 的崛起研究报告:从技术追赶者到全球领导者的跨越(15 页)
-
安联(Allianz):2025 新势力崛起:全球芯片战争与半导体产业格局重构研究报告(33 页)
-
IMT:2025 具身智能(Embodied AI)概念、核心要素及未来进展:趋势与挑战研究报告(25 页)
-
IEEE:2025 具身智能(Embodied AI)综述:从模拟器到研究任务的调查分析报告(15 页)
-
CCAV:2025 当 AI 接管方向盘:自动驾驶场景下的人机交互认知重构、变革及对策研究报告(124 页)
-
《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新 132 页
-
《面向科学发现的智能体人工智能:进展、挑战与未来方向综述》
-
全国机器人标准化技术委员会:人形机器人标准化白皮书(2024 版)(96 页)
-
美国国家科学委员会(NSB):2024 年研究与发展 - 美国趋势及国际比较(51 页)
-
艾昆纬(IQVIA):2025 骨科手术机器人技术的崛起白皮书:创新及未来方向(17 页)
-
NPL&Beauhurst:2025 英国量子产业洞察报告:私人和公共投资的作用(25 页)
-
IEA PVPS:2024 光伏系统经济与技术关键绩效指标(KPI)使用最佳实践指南(65 页)
-
AGI 智能时代:2025 让 DeepSeek 更有趣更有深度的思考研究分析报告(24 页)
-
2025 军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告(37 页)
-
华为:2025 鸿蒙生态应用开发白皮书(133 页
-
《超级智能战略研究报告》
-
中美技术差距分析报告 2025
-
欧洲量子产业联盟(QuIC):2024 年全球量子技术专利态势分析白皮书(34 页)
-
美国能源部:2021 超级高铁技术(Hyperloop)对电网和交通能源的影响研究报告(60 页)
-
罗马大学:2025 超级高铁(Hyperloop):第五种新型交通方式 - 技术研发进展、优势及局限性研究报告(72 页)
-
兰德公司:2025 灾难性网络风险保险研究报告:市场趋势与政策选择(93 页)
-
GTI:2024 先进感知技术白皮书(36 页)
-
AAAI:2025 人工智能研究的未来报告:17 大关键议题(88 页)
-
安联 Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告
-
威达信:2025 全球洪水风险研究报告:现状、趋势及应对措施(22 页)
-
兰德公司:迈向人工智能治理研究报告:2024EqualAI 峰会洞察及建议(19 页)
-
哈佛商业评论:2025 人工智能时代下的现代软件开发实践报告(12 页)
-
德安华:全球航空航天、国防及政府服务研究报告:2024 年回顾及 2025 年展望(27 页)
-
奥雅纳:2024 塑造超级高铁(Hyperloop)的未来:监管如何推动发展与创新研究报告(28 页)
-
HSOAC:2025 美国新兴技术与风险评估报告:太空领域和关键基础设施(24 页)
-
Dealroom:2025 欧洲经济与科技创新发展态势、挑战及策略研究报告(76 页)
-
《无人机辅助的天空地一体化网络:学习算法技术综述》
-
谷歌云(Google Cloud):2025 年 AI 商业趋势白皮书(49 页)
-
《新兴技术与风险分析:太空领域与关键基础设施》最新报告
-
150 页!《DeepSeek 大模型生态报告》
-
军事人工智能行业研究报告:技术奇点驱动应用加速智能化重塑现代战争形态 - 250309(40 页)
-
真格基金:2024 美国独角兽观察报告(56 页)
-
璞跃(Plug and Play):2025 未来商业研究报告:六大趋势分析(67 页)
-
国际电工委员会(IEC):2025 智能水电技术与市场展望报告(90 页)
-
RWS:2025 智驭 AI 冲击波:人机协作的未来研究报告(39 页)
-
国际电工委员会(IEC):2025 智能水电技术与市场展望报告(90 页)
-
RWS:2025 智驭 AI 冲击波:人机协作的未来研究报告(39 页)
-
未来今日研究所 2025 年科技趋势报告第 18 版 1000 页
-
模拟真实世界:多模态生成模型的统一综述
-
中国信息协会低空经济分会:低空经济发展报告(2024 - 2025)(117 页)
-
浙江大学:2025 语言解码双生花:人类经验与 AI 算法的镜像之旅(42 页)
-
人形机器人行业:由 “外” 到 “内” 智能革命 - 250306(51 页)
-
大成:2025 年全球人工智能趋势报告:关键法律问题(28 页)
-
北京大学:2025 年 DeepSeek 原理和落地应用报告(57 页)
-
欧盟委员会 人工智能与未来工作研究报告
-
加州大学伯克利分校:面向科学发现的多模态基础模型:在化学、材料和生物学中的应用
-
电子行业:从柔性传感到人形机器人触觉革命 - 250226(35 页)
-
RT 轨道交通:2024 年中国城市轨道交通市场数据报告(188 页)
-
FastMoss:2024 年度 TikTok 生态发展白皮书(122 页)
-
Check Point:2025 年网络安全报告 - 主要威胁、新兴趋势和 CISO 建议(57 页)
-
【AAAI2025 教程】评估大型语言模型:挑战与方法,199 页 ppt
-
《21 世纪美国的主导地位:核聚变》最新报告
-
沃尔特基金会(Volta Foundation):2024 年全球电池行业年度报告(518 页)
-
斯坦福:2025 斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191 页)
-
国际科学理事会:2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告(英文版)(118 页)
-
光子盒:2025 全球量子计算产业发展展望报告(184 页)
-
奥纬论坛:2025 塑造未来的城市研究报告:全球 1500 个城市的商业吸引力指数排名(124 页)
-
Future Matters:2024 新兴技术与经济韧性:日本未来发展路径前瞻报告(17 页)
-
《人类与人工智能协作的科学与艺术》284 页博士论文
-
《论多智能体决策的复杂性:从博弈学习到部分监控》115 页
-
《2025 年技术展望》56 页 slides
-
大语言模型在多智能体自动驾驶系统中的应用:近期进展综述
-
【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用
-
皮尤研究中心:2024 美国民众对气候变化及应对政策的态度调研报告:气候政策对美国经济影响的多元观点审视(28 页)
-
空间计算行业深度:发展趋势、关键技术、行业应用及相关公司深度梳理 - 250224(33 页)
-
Gartner:2025 网络安全中的 AI:明确战略方向研究报告(16 页)
-
北京大学:2025 年 DeepSeek 系列报告 - 提示词工程和落地场景(86 页)
-
北京大学:2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用(99 页)
-
CIC 工信安全:2024 全球人工智能立法的主要模式、各国实践及发展趋势研究报告(42 页)
-
中科闻歌:2025 年人工智能技术发展与应用探索报告(61 页)
-
AGI 智能时代:2025 年 Grok - 3 大模型:技术突破与未来展望报告(28 页)
上下滑动查看更多
更多推荐



所有评论(0)