1、LLM推荐建模思路

目前主流的基于LLM构建推荐模型的思路主要包括以下4种类型。

LLM提取特征:将LLM当成一个特征提取器,将LLM生成的文本作为外部知识补充到推荐模型中;

文本推荐模型:将推荐任务都转换成文本的输入形式,训练一个基于文本的推荐模型;

微调LLM:直接对LLM进行微调,让其适配推荐系统,或者结合LLM微调和传统推荐模型一起给出预测结果;

融合建模:将推荐模型和LLM模型进行融合。

下面从这4个角度,列举一下近年来代表性工作的建模思路。

2、LLM特征提取

LLM中蕴含着各个推荐场景可能不包含的外部知识信息,一个最直接的想法就是利用LLM补充一些特征。

Towards open-world recommendation with knowledge augmentation from large language models(2023) 利用LLM分别生成用户的兴趣理解和item的知识描述。一方面,基于用户历史行为生成prompt,让LLM给出用户兴趣的文本描述;另一方面,构建prompt让LLM生成对item的描述。User侧和item侧的文本信息,输入到一个文本Encoder中分别生成两部分表征,通过多专家网络将两类信息融合,生成的融合向量作为特征输入到原来的推荐模型中。

img

Representation learning with large language models for recommendation(WWW 2024) 进一步引入对比学习和生成式对齐等方式,对齐文本表征和推荐表征,让这些LLM生成的文本特征适配推荐模型。例如,引入对比学习拉近同item的文本表征和推荐表征;引入生成式对齐的思路,对部分user和item的表征进行mask然后再还原。上述方式更好的将文本表征对齐到推荐模型,提升特征引入效果。

img

Enhancing Sequential Recommenders with Augmented Knowledge from Aligned Large Language Models(SIGIR 2024) 通过从LLM中提取知识信息,增强推荐系统模型的训练。对于一个item,将其相关信息输入构建prompt输入到LLM中,让LLM生成一些数据集中没有的知识信息,并通过一个文本Encoder编码成item embedding。文本embedding和原始的id embedding融合到一起输入到推荐系统模型中。由于LLM生成的文本信息可能包含很多和推荐无关的部分,并且由于是提前生成的,无法更新LLM参数。因此文中直接建模一个从LLM中采样生成文本知识信息的分布,基于这个分布从LLM生成的文本中采样对推荐有效的信息。

img

3、文本推荐模型

这种方式的核心建模思路是,将原来基于ID的推荐模型,转换成基于文本的推荐模型,所有特征全部文本化,可能会保留部分ID Token,然后构建Transformer文本模型,进行文本编码和目标预测。

Recommendation as Language Processing (RLP): A Unified Pretrain, Personalized Prompt & Predict Paradigm(RecSys 2022) 将多种推荐系统相关的任务,完全转换成基于文本的prompt,各类型任务的prompt如下,user和item以id形式作为输入,外加其他文本相关的描述信息或特征信息。然后训练一个类似于T5结构的Encoder-Decoder模型,Encoder以上述prompt作为输入,Decoder解码出推荐结果,例如用户打分、下一个推荐item、目标item等。

img

img

Text Is All You Need: Learning Language Representations for Sequential Recommendation(KDD 2023) 也是类似的思路,将item构建成文本,训练一个用于推荐的文本模型。对于每个item,将其属性信息key-value对转换为文本句子(如品牌:苹果;颜色:红色等)。将行为序列多个item句子拼接输入Transformer进行建模。采用了MLM和对比学习进行预训练,以及多阶段的finetune。

img

4、微调LLM

相比于直接构建文本推荐模型,另一个思路是基于预训练好的LLM,利用instruction tuning进行LLM的微调,instruction tuning的数据使用推荐系统任务数据转换而来,充分迁移LLM到推荐任务上。

Recommendation as Instruction Following: A Large Language Model Empowered Recommendation Approach(2023) 基于预训练的LLM进行Instruction Tuning来构建推荐模型。文中将LLM的输入抽象成用户偏好(长期兴趣)、用户意图(短期目的)、任务形式3个部分,每个部分有不同的表示形式,将这3部分组合就可以生成如下不同类型的prompt,并通过多种方式优化instruction质量,例如引入CoT生成instruction中进行该推荐的思维过程,作为后续instruction tuning的训练数据。

在模型方面,基于预训练的T5进行instruction tuning,编码生成的prompt,针对不同任务生成不同的结果,有CoT思维过程文本的也同时进行生成。

img

Tallrec: An effective and efficient tuning framework to align large language model with recommendation(RecSys 2023) 也是采用构建instruction data的方式,将推荐任务转换成instruction tuning数据,并基于LoRA对LLM进行finetune。

img

5、融合建模

基于ID的推荐模型对协同过滤信号的学习能力强,基于LLM的推荐模型泛化性和域外知识的理解能力强,因此一些工作将两个模型进行对齐和融合,提升整体建模效果。

FLIP: Towards Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction(2024) 核心解决方法是通过预训练对齐ID模型和语言模型的表征。文中引入了类似MLM的方法和对比学习的方法。在MLM中,对特征的文本表示和ID表示分别进行mask,使用上下文两种模态的信息进行被mask部分的还原。在对比学习中,对于同一个样本特征的ID和文本表示方法作为正样本对,使用对比学习拉近其距离。在预训练后,使用ID模型和大语言模型的预测结果做加权求和得到最终预测结果,使用下游数据进行finetune。

img

ClickPrompt: CTR Models are Strong Prompt Generators for Adapting Language Models to CTR Prediction(2024) 提出了一种用ID模型和LLM对齐的方法,利用ID模型生成prompt,作为prefix拼接在transformer每一层,通过预训练任务实现ID模型和LLM模型的对齐。
首先,将CTR预估中每个样本的特征转换成文本描述的形式。接下来,将原来的CTR模型中间层的embedding作为prompt,拼接到上述文本描述的前面。将拼接了prompt的文本描述输入到LLM中,让LLM生成影响的token序列,再基于token序列对预测结果进行还原。通过这种用CTR预估模型embedding作为prompt的方式,实现ID的CTR模型和LLM的CTR模型对齐的目标。在下游应用部分,使用两个模型的预测结果相融合,作为最终的预测结果,拟合相应的Label。
img

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐