大模型隐私窃取攻击

前言对于大模型风险，目前大家更多关注的还是越狱攻击。隐私这一块，可能国内还不如欧美重视，在安全的学术四大会议论文中，有时候甚至AI隐私的论文比AI安全的论文更多。但实际上，除了越狱之外，另外一大风险就是隐私风险，比如大模型隐私数据提取，这也是不容忽视的。大模型隐私数据提取攻击是一种新型的模型攻击方式，它对大型语言模型的现实应用构成了严重威胁。这种攻击方式的目标是从语言模型中筛选出数百万个输出序列，

白帽胡子哥

1191人浏览 · 2024-08-28 16:15:22

白帽胡子哥 · 2024-08-28 16:15:22 发布

前言
对于大模型风险，目前大家更多关注的还是越狱攻击。隐私这一块，可能国内还不如欧美重视，在安全的学术四大会议论文中，有时候甚至AI隐私的论文比AI安全的论文更多。但实际上，除了越狱之外，另外一大风险就是隐私风险，比如大模型隐私数据提取，这也是不容忽视的。

大模型隐私数据提取攻击是一种新型的模型攻击方式，它对大型语言模型的现实应用构成了严重威胁。这种攻击方式的目标是从语言模型中筛选出数百万个输出序列，并预测哪些文本是被记忆的。攻击者可以通过查询模型来有效提取训练数据，甚至无需事先了解训练数据集。这意味着，即使是未对齐的模型，也可能被攻击，而对于已经对齐的模型，攻击者可以通过新的发散数据提取攻击，导致模型改变内容生成方式，以高速输出训练数据。

这种攻击的危害在于，它可能导致个人隐私信息的泄露，例如姓名、电话号码、电子邮件和实际地址等个人身份信息（PII）。如果有人将这种攻击行为应用到公众可用的模型，同时其训练数据是非公开的，会产生巨大的危害。攻击者可以利用这些信息进行诈骗、骚扰、人身攻击等犯罪活动，对受害者的生命安全和财产安全构成直接威胁。

本文来我们分析并复现，这个研究方向上最重要的一篇文章（没有之一），即Carlini等人2020年底发布的工作《Extracting Training Data from Large Language Models》。

背景
大模型其实是一系列单词分配概率的统计模型，是许多自然语言处理任务的基础。现代基于神经网络的语言模型使用非常大的模型架构（例如，1750亿个参数）并在大量数据集（例如，几乎一兆字节的英文文本）上进行训练。这种扩展提高了语言模型生成流畅自然语言的能力，并允许它们被应用于许多其他任务，甚至不需要更新它们的参数。与此同时，机器学习模型因暴露有关其（可能为私有的）训练数据的信息而声名狼藉——无论是在一般情况下还是在语言模型的特定案例中。例如，对于某些模型，已知对手可以应用成员资格推断攻击来预测任何特定示例是否在训练数据中。

这种隐私泄露通常与过拟合有关，因为过拟合通常表明模型已经记住了训练集中的示例。实际上，过拟合是隐私泄露的充分条件，并且许多攻击通过利用过拟合来工作。过拟合和记忆之间的关联导致许多人认为最先进的语言模型不会泄露有关其训练数据的信息。因为这些模型通常只在单个时期内训练在大规模去重复的数据集上，它们表现出很少或没有过拟合。因此，普遍的观点是“对任何给定作品的复制程度可能最多是微不足道的”，并且模型不会显著记住任何特定的训练示例。

但实际上，从大模型中提取出训练的隐私数据是完全有可能的。

在这里插入图片描述

如上图所示，给定对神经网络语言模型的查询访问，我们提取了一个人的姓名、电子邮件地址、电话号码、传真号码和实际地址。

研究人员提出了一种简单高效的从语言模型的训练集中提取逐字序列的方法，仅使用黑盒查询访问。关键见解在于，尽管训练样本在平均损失上并不比测试样本显著降低，但某些最坏情况下的训练样本确实被记忆了。

在我们的攻击中，我们首先使用三种通用采样策略之一，从模型生成大量的高概率样本。然后我们使用六种不同的度量标准对每个样本进行排序，这些度量标准使用另一个参考模型（例如，另一个语言模型）来估计每个样本使用的概率，并优先考虑在两个模型之间具有异常高概率比的样本。我们的攻击直接适用于任何语言模型，包括那些在敏感和非公开数据上训练的模型。

我们在后续的复现、实战环节中使用OpenAI发布的GPT-2模型作为代表性的语言模型。攻击GPT-2是为了最大限度地减少现实世界的伤害，因为GPT-2模型和原始训练数据源已经是公开的。