【Coggle 30 Days of ML】汽车领域多语种迁移学习挑战赛(4)

定义数据集读取类和模型类#数据集读取#读取单个样本,0,

小小的香辛料

1187人浏览 · 2022-07-20 10:48:34

小小的香辛料 · 2022-07-20 10:48:34 发布

任务

任务5：BERT模型入门
- 学习transformers库中pipline和加载模型的过程
- 学习transformers库的使用：包括定义数据集，定义模型和训练模型
- 学习资料：
  - PipelinesWe’re on a journey to advance and democratize artificial intelligence through open source and open science.https://huggingface.co/docs/transformers/main_classes/pipelines

任务6：BERT文本分类
- 步骤1使用BERT完成意图识别（文本分类）
- 步骤2：将步骤1预测的结果文件提交到比赛，截图分数；
- 学习资料：
  - tutorial/bert/bert-cls-example.ipynb · Coggle数据科学/competition-baseline - Gitee.comhttps://gitee.com/coggle/competition-baseline/blob/master/tutorial/bert/bert-cls-example.ipynb

Just Do It！

1.Bert模型入门

1.1前置知识

bert模型用的库主要是huggingface的transformers库

目前Transformers 库支持三个最流行的深度学习库（PyTorch、TensorFlow 和 JAX）。

Transformers 库比较重要的有：pipeline、AutoTokenizer、AutoModelForSequenceClassification等等的使用。

Pipeline

pipeline() 的作用是使用预训练模型进行推断，它支持从这里下载的所有模型。它将模型的预处理, 后处理等步骤包装起来，使得我们可以直接定义好任务名称后，输出文本，直接得到我们需要的结果。这是一个高级的API，可以让我们领略到transformers 这个库的强大且友好。

使用pipeline的api，可以使用transformers快速完成各种任务.

主要有以下三个步骤被包装起来了：

输入文本被预处理成机器可以理解的格式
被处理后的输入被传入模型中
模型的预测结果经过后处理，得到人类可以理解的结果

eg：

上述是调用pipeline快速使用transformer，上述选择模型部分除了指定model外，还可以使用本地加载。

from transformers import AutoModelForSequenceClassification
from transformers import AutoTokenizer
from transformers import pipeline

model_path = r"ckiplab/bert-base-chinese-ner"
model = AutoModelForSequenceClassification.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)

classifier = pipeline(task='ner',model=model,tokenizer=tokenizer)
text = '我爱自然语言处理技术.我爱北京天安门！'
for entity in generator(text):
    print(entity)

AutoTokenizer

这个类是用来自动下载与模型相关联的标记器，并且可以进行实例化。主要是在将数据喂给模型之前，将数据进行预处理（Tokenize、填充、截断等）。

AutoModelForSequenceClassification

主要是用来加载模型的。这个类是用来去下载模型本身。（注意：⚠️如果我们在别的任务上使用这个库，模型的类会发生改变）

我们已经得到了预训练模型，那么下面就要将输入转化为模型能够接受的形式。怎么转化呢？就是把输入的字符串通过刚刚导入的分词器tokenizer进行转化。

inputs = tokenizer(["阿水很帅，我也这样觉得。", "不对啊，你在欺骗我"], truncation=True, max_length=20, padding=True)
inputs
# input_ids：这个字在vocab次序
# token_type_ids：字符是第一个句子的，还是第二个句子的
# attention_mask：字符是不是padding的？

tokenizer后的inputs为字典，包含三个键input_ids、token_type_ids、attention_mask。

inputs_ids：为输入字符串中的每个字对应到词典vocab中的序号。其中每句话的开头结尾都添加了特殊标记，开头的特殊标记经过tokenizer变成了101，结尾的编程102。

token_type_ids：字符是第一个句子的，还是第二个句子的。不同的句子对应的标记值也不一样。

attention_mask：主要输入的几个句子当中最长的一句，如果打开了padding，那他就会把其他比最长的一句用0给填补上。观察上图attention_mask的后面3个0就意味着填补。

前置知识了解的差不多了，下面对应到比赛中，步骤如下：

1.2导入预训练模型

我们要做的第一件事就是导入预训练模型

from transformers import AutoTokenizer, AutoModelForMaskedLM, AutoConfig, BertModel, AutoModel
model = AutoModel.from_pretrained("hfl/chinese-roberta-wwm-ext")
tokenizer = AutoTokenizer.from_pretrained("bert-base-multilingual-cased")
config = AutoConfig.from_pretrained("bert-base-multilingual-cased")

1.3训练数据处理

我们需要先对训练集做一些处理，把训练集中的标签种类去掉。

for tag in ['intent', 'device', 'mode', 'offset', 'endloc', 'landmark', 'singer', 'song']:
    train_ja['槽值1'] = train_ja['槽值1'].str.replace(f'{tag}:', '')
    train_ja['槽值2'] = train_ja['槽值2'].str.replace(f'{tag}:', '')
    
    train_cn['槽值1'] = train_cn['槽值1'].str.replace(f'{tag}:', '')
    train_cn['槽值2'] = train_cn['槽值2'].str.replace(f'{tag}:', '')

    train_en['槽值1'] = train_en['槽值1'].str.replace(f'{tag}:', '')
    train_en['槽值2'] = train_en['槽值2'].str.replace(f'{tag}:', '')

然后再将训练集中的中英日文拼接在一起，再使用pd.factorize对训练集进行编码。

pd.factorize简单来说就是将所有输入的字符做一个unique，去掉相同的字，只剩下两两互斥的列表，假设叫list_unique。然后遍历一遍输入的每个字，根据这个字在list_unique中的位置做一个编码。

train_df = pd.concat([
    train_ja[['原始文本', '意图', '槽值1', '槽值2']],
    train_cn[['原始文本', '意图', '槽值1', '槽值2']].sample(10000),
    train_en[['原始文本', '意图', '槽值1', '槽值2']],
],axis = 0)
train_df = train_df.sample(frac=1.0)
train_df['意图_encode'], lbl_ecode = pd.factorize(train_df['意图'])