Datawhale AI 夏令营——从零入门多模态大模型数据合成——Task1学习笔记

本人baseline运行所使用的资源PAI-DSW 试用，获得 5000算力时！有效期3个月！+ 额外扩充磁盘空间，至少需要增加50G，需0.1元每小时，+ 模型训练和评测阶段，需要跑大概3小时，购置阿里云188G内存的GPU规格，大概需要15元每小时训练完成总共消费了 63.56 大洋，环境总共运行时间为 9小时38分，配置环境确实很繁琐、也遇到了一些配置上的问题，就在这里总结一下，希

wlocfo

662人浏览 · 2024-08-12 12:58:49

wlocfo · 2024-08-12 12:58:49 发布

天池Better Synth 官方赛事链接：天池Better Synth多模态大模型数据合成挑战赛_算法大赛_天池大赛-阿里云天池的赛制

一、内容提要

天池Better Synth多模态大模型数据合成挑战赛 是 Datawhale 2024 年 AI 夏令营第四期的学习活动——

适合想 入门并实践多模态大模型、数据处理、模型训练 的学习者参与

学习内容提要：使用已有大模型和技术，在限定的计算资源下合成高质量训练数据，以增强多模态大模型的图像理解能力。

二、资源总结

本人baseline运行所使用的资源：

PAI-DSW 试用，获得 5000算力时！有效期3个月！
+ 额外扩充磁盘空间，至少需要增加50G，需0.1元每小时，
+ 模型训练和评测阶段，需要跑大概3小时，购置阿里云188G内存的GPU规格，大概需要15元每小时

训练完成总共消费了 63.56 大洋，环境总共运行时间为 9小时38分，配置环境确实很繁琐、也遇到了一些配置上的问题，就在这里总结一下，希望能帮助到大家。

三、问题总结

附上 Datawhale提供的 300 分钟跑通baseline指南：

Datawhalehttps://linklearner.com/activity/14/13/27

Step2里下载多模态base模型及数据集部分（大概50分钟） 因为网速和欠费的原因，失败了2次。

下载BLIP图片描述模型部分（约20分钟左右） ，需要执行 python download_blip.py 命令，但我之前拉取得git仓库资料里还没有，当时我就懵了，后面在文档里看到最新得git仓库有，就去下载这个文件。

附上仓库链接：魔搭社区汇聚各领域最先进的机器学习模型，提供模型探索体验、推理、训练、部署和应用的一站式服务。https://www.modelscope.cn/datasets/Datawhale/better_synth_challenge_baseline/files

数据处理与合成部分（约1小时左右），运行 dj-process --config solution/image_captioning.yaml 代码时，

感觉自己的（后面这张）和教程提供的不一样，这里应该是因为，之前运行过一次， 10k的样本应该已经处理好了。

后面就是 执行模型训练 & 推理测评（3-4小时左右）、打包zip文件、提交zip文件，跟着教程走就行。

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

8种封装的1700V国产碳化硅(SiC)功率模块产品介绍及应用

MCP技术社区

（一篇入门）汽车电子电器之电机MCU控制器四

MCP技术社区

OpenCV C++ 入门实战：从基础操作到类封装全解析

Mat数据结构、图像读写、颜色空间转换、像素操作、算术运算和轨迹栏交互，以及面向对象封装思想。图像处理：学习滤波（高斯滤波、中值滤波）、边缘检测（Canny、Sobel）、形态学操作（腐蚀、膨胀）。目标检测：掌握轮廓提取（）、特征匹配（）、Haar 级联分类器。视频处理：使用读取视频，对帧进行实时处理。性能优化：学习多线程、GPU 加速（cv::cuda模块），提升处理速度。通过持续实践，可逐步掌