很荣幸邀请两位研究员分享：大模型数据合成和增强技术

王科，助理研究员，博士，毕业于上海交通大学，目前任职于北航杭州创新研究院，主要研究方向数据挖掘，多模态学习，累计发表CCF A/B类高水平论文11篇，担任ACM TOIS、AAAI、ACM MM等多个CCF A类期刊和会议审稿人。然而，随着训练数据集的迅速扩张，高质量数据的增长速度明显滞后，这导致了一个迫在眉睫的数据耗尽危机。相比之下，我们以大语言模型为导向，旨在从数据的角度来系统地来探讨大模型不

AI生成曾小健

266人浏览 · 2024-11-25 22:47:19

AI生成曾小健 · 2024-11-25 22:47:19 发布

很荣幸邀请两位研究员分享：大模型数据合成和增强技术

NICE 深度学习自然语言处理 2024年11月25日 22:41 江苏

主题

大模型数据合成和增强技术

大模型数据合成和增强技术
嘉宾：王科博士助理研究员、朱佳慧博士助理研究员

时间

2024.11.27 周三 20:00-21:00

论文：A Survey on Data Synthesis and Augmentation for Large Language Models
地址：https://arxiv.org/abs/2410.12896

大纲

大模型数据合成和增强技术的背景
大模型数据合成和增强技术的分类体系
大模型全生命周期角度下的数据合成和增强技术
大模型功能角度下的数据合成和增强技术
数据合成和增强的挑战与限制
数据合成和增强的未来方向

引言

大型语言模型（LLMs）的成功在很大程度上取决于大规模、多样化和高质量的数据。然而，随着训练数据集的迅速扩张，高质量数据的增长速度明显滞后，这导致了一个迫在眉睫的数据耗尽危机。因此，如何提高数据效率和探索新的数据来源成为了当前研究的重要课题。在这种背景下，生成数据作为一种潜在的解决方案逐渐受到关注。目前，数据生成主要包含两种方法：数据合成和数据增强。先前的研究主要从应用或者技术层面来探索的数据合成和增强方法。相比之下，我们以大语言模型为导向，旨在从数据的角度来系统地来探讨大模型不同生命周期和核心功能下的数据合成和增强技术，提供一个探索大模型数据科学的全新视角。