多模态大模型综述《A Survey on Multimodal Large Language Models》

在单模态的基础上，加了新的模态，encoder后，通过mlp或者其他方式与text对齐，再输入大模型。如果需要生成新的膜套，可以再通过生成器。（此处与SD不太一样），chatGPT不会生成图片，可以对图片进行理解。LLM 辅助的视觉推理：利用 LLM 强大的内嵌知识与能力，并借助其他工具，设计各种视觉推理系统，解决各种现实问题。多模态幻觉：可以增加图像分辨率、提高数据质量，图像token表征、图像

yang_daxia

2695人浏览 · 2024-06-14 18:02:09

yang_daxia · 2024-06-14 18:02:09 发布

在这里插入图片描述

架构图

在这里插入图片描述
在单模态的基础上，加了新的模态，encoder后，通过mlp或者其他方式与text对齐，再输入大模型。如果需要生成新的膜套，可以再通过生成器。（此处与SD不太一样），chatGPT不会生成图片，可以对图片进行理解。

训练方式

一般多个阶段。预训练、指令微调、对齐微调（RLHF）。

预训练是通用能力。使得图像对齐到llm表征空间，数据来源于互联网上的图像对。
指令微调是专业能力，提升在下游任务上的性能。数据来源于VQA、OCR、目标检测等数据
对齐微调是纠错能力，类似LLM通过强化学习、人工打分排序，使得输出符合人类要求

其他技术方向

多模态幻觉：可以增加图像分辨率、提高数据质量，图像token表征、图像文本的对齐方式等
多模态上下文学习：Flamingo通过在图文交错的数据上训练来提升模型关注上下文的能力。
多模态思维链：将复杂的问题分解为较简单的子问题，然后分别解决并汇总。
LLM 辅助的视觉推理：利用 LLM 强大的内嵌知识与能力，并借助其他工具，设计各种视觉推理系统，解决各种现实问题。

https://www.qbitai.com/2024/04/134649.html

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

8种封装的1700V国产碳化硅(SiC)功率模块产品介绍及应用

MCP技术社区

（一篇入门）汽车电子电器之电机MCU控制器四

MCP技术社区

基于Echarts的甘特图实现与封装实战

Echarts（Enterprise Charts）是由百度开源的一款功能强大、高度可定制的JavaScript数据可视化库，广泛应用于各类企业级Web应用中。其核心设计理念是“以数据驱动视图”，通过声明式配置即可实现复杂图表的渲染与交互。在现代前端工程化背景下，Echarts不仅支持静态图表展示，更具备动态更新、大数据量处理和跨平台兼容等高级能力，成为构建高性能数据看板、实时监控系统和项目管理工