人工智能：预训练语言模型与BERT实战应用

1.1 本章学习目标与重点

💡 学习目标：掌握预训练语言模型的核心思想、BERT模型的架构原理，以及基于BERT的文本分类任务实战流程。
💡 学习重点：理解BERT的双向注意力机制与掩码语言模型预训练任务，学会使用Hugging Face Transformers库调用BERT模型并完成微调。

1.2 预训练语言模型的发展历程与核心思想

1.2.1 为什么需要预训练语言模型

💡 传统的自然语言处理模型（如LSTM+词嵌入）存在两个核心痛点：一是需要大量标注数据才能训练出高性能模型，二是模型对语言上下文的理解能力有限。
预训练语言模型的出现解决了这些问题。它的核心思路是先在大规模无标注文本语料上进行预训练，学习通用的语言知识和语义表示，再针对特定任务进行微调。这种“预训练+微调”的范式，极大降低了对标注数据的依赖，同时显著提升了模型在各类NLP任务上的性能。

预训练语言模型的发展可以分为三个阶段：

单向语言模型阶段：以ELMo为代表，通过双向LSTM分别学习正向和反向的语言表示，再拼接得到词向量。但ELMo本质还是基于RNN的特征提取器，无法捕捉深层的上下文依赖。
自回归语言模型阶段：以GPT为代表，采用单向Transformer解码器架构，通过自回归的方式预测下一个词。但单向模型只能利用前文信息，无法利用后文信息，在理解类任务上表现受限。
双向语言模型阶段：以BERT为代表，采用双向Transformer编码器架构，通过掩码语言模型任务，让模型同时学习前文和后文的信息，真正实现了双向上下文理解。

1.2.2 预训练+微调的核心流程

预训练语言模型的应用流程分为两个关键步骤：

预训练阶段：在大规模无标注语料（如维基百科、书籍语料）上，通过设计特定的预训练任务（如掩码语言模型、下一句预测），让模型学习语言的语法、语义和常识知识，得到通用的语言表示模型。
微调阶段：针对具体的NLP任务（如文本分类、命名实体识别、机器翻译），在预训练模型的基础上，添加少量任务相关的输出层，使用少量标注数据进行训练，得到任务专用模型。

⚠️ 注意：预训练阶段通常需要海量的计算资源和数据，一般由大厂或研究机构完成。普通开发者只需下载预训练好的模型权重，直接进行微调即可。

1.3 BERT模型架构与预训练任务详解

1.3.1 BERT的核心架构

💡 BERT的全称是Bidirectional Encoder Representations from Transformers，即基于Transformer编码器的双向表示模型。它的核心架构是多层双向Transformer编码器，没有解码器部分。
BERT的模型结构有两个版本，满足不同的算力需求：

BERT-Base：12层Transformer编码器，12个注意力头，隐藏层维度768，参数量约110M。
BERT-Large：24层Transformer编码器，16个注意力头，隐藏层维度1024，参数量约340M。

BERT的输入表示是三种嵌入的求和：

词嵌入（Token Embedding）：表示每个词的基础语义信息。
分段嵌入（Segment Embedding）：用于区分两个句子（如判断句子是否为上下文关系），取值为0或1。
位置嵌入（Position Embedding）：和Transformer一样，用于注入词的位置信息，因为Transformer本身是无序的。

import tensorflow as tf
from transformers import BertConfig, BertModel
# 加载BERT-Base配置
config = BertConfig.from_pretrained('bert-base-uncased')
# 初始化BERT模型
bert_model = BertModel.from_pretrained('bert-base-uncased')
# 模拟输入：batch_size=2，sequence_length=10
input_ids = tf.random.randint(0, config.vocab_size, (2, 10))
attention_mask = tf.ones((2, 10))  # 1表示有效token，0表示填充token
token_type_ids = tf.zeros((2, 10))  # 0表示第一个句子，1表示第二个句子
# 获取BERT输出
outputs = bert_model(input_ids=input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids)
last_hidden_state = outputs.last_hidden_state  # 最后一层隐藏状态，shape=(2,10,768)
pooler_output = outputs.pooler_output  # 特殊token [CLS]的输出，shape=(2,768)
print("最后一层隐藏状态形状：", last_hidden_state.shape)
print("CLS token输出形状：", pooler_output.shape)

1.3.2 BERT的预训练任务

BERT的预训练包含两个核心任务，通过这两个任务让模型学习双向上下文信息：

掩码语言模型（Masked Language Model, MLM）
- 随机选择15%的token进行掩码处理：80%的概率替换为[MASK]，10%的概率替换为随机token，10%的概率保持原token不变。
- 模型的任务是预测被掩码的token的原始值。这个任务强制模型学习上下文的双向依赖关系，因为要预测掩码token，必须同时考虑前后文的信息。
下一句预测（Next Sentence Prediction, NSP）
- 输入一对句子（A和B），50%的概率B是A的真实下一句，50%的概率B是随机选择的句子。
- 模型的任务是判断B是否是A的下一句。这个任务让模型学习句子之间的逻辑关系，适用于问答、文本摘要等需要理解句子关系的任务。

⚠️ 注意：后续的研究发现，NSP任务对部分下游任务的提升有限，甚至可能带来负面影响。因此，一些改进版的BERT模型（如RoBERTa）取消了NSP任务。

1.4 Hugging Face Transformers库快速上手

💡 Hugging Face Transformers是目前最流行的预训练语言模型工具库，它提供了包括BERT、GPT、RoBERTa、T5等在内的数百种预训练模型的实现，支持TensorFlow和PyTorch两种框架，极大简化了预训练模型的使用流程。

1.4.1 安装与环境配置

首先安装Transformers库和相关依赖：

pip install transformers datasets tensorflow

1.4.2 核心组件介绍

Transformers库的核心组件包括：

Config：存储模型的配置信息，如层数、隐藏层维度、注意力头数等。
Tokenizer：负责文本的预处理，包括分词、转换为token id、添加特殊token、填充和截断等。
Model：预训练模型的核心代码，不同的模型对应不同的Model类，如BertModel、BertForSequenceClassification等。

1.5 实战：基于BERT的中文文本分类任务

1.5.1 任务介绍与数据集准备

💡 本次实战任务是中文新闻文本分类。我们使用THUCNews数据集的子集，包含10个新闻类别：体育、娱乐、家居、房产、教育、时尚、时政、游戏、科技、财经。我们的目标是基于BERT-base-chinese模型，搭建文本分类模型，实现对新闻类别的自动判断。

① 加载THUCNews子集数据集，划分训练集、验证集和测试集
② 使用BertTokenizer对文本进行分词处理，转换为模型可接受的输入格式
③ 设置序列最大长度为128，对过长的文本进行截断，过短的文本进行填充

from datasets import load_dataset
from transformers import BertTokenizerFast
# 加载数据集（这里使用本地的THUCNews子集，也可以使用Hugging Face Hub上的公开数据集）
dataset = load_dataset('csv', data_files={'train': 'thucnews_train.csv', 'val': 'thucnews_val.csv', 'test': 'thucnews_test.csv'})
# 加载中文BERT分词器
tokenizer = BertTokenizerFast.from_pretrained('bert-base-chinese')
# 定义文本预处理函数
def preprocess_function(examples):
    # 对文本进行分词、转换为token id、填充和截断
    return tokenizer(
        examples['text'],
        max_length=128,
        padding='max_length',
        truncation=True
    )
# 对数据集进行预处理
tokenized_dataset = dataset.map(preprocess_function, batched=True)
# 重命名标签列，适配模型输入
tokenized_dataset = tokenized_dataset.rename_column('label', 'labels')
# 设置数据集格式为TensorFlow格式
tokenized_dataset.set_format(type='tensorflow', columns=['input_ids', 'attention_mask', 'labels'])
# 生成训练集和验证集的tf.data.Dataset
batch_size = 32
train_dataset = tokenized_dataset['train'].to_tf_dataset(
    columns=['input_ids', 'attention_mask'],
    label_cols=['labels'],
    batch_size=batch_size,
    shuffle=True
)
val_dataset = tokenized_dataset['val'].to_tf_dataset(
    columns=['input_ids', 'attention_mask'],
    label_cols=['labels'],
    batch_size=batch_size,
    shuffle=False
)

1.5.2 搭建BERT文本分类模型

💡 我们使用BertForSequenceClassification类，它是BERT模型针对序列分类任务的专用版本。它在BERT的输出层后，添加了一个全连接层，用于将[CLS]token的输出映射到分类标签空间。

from transformers import TFBertForSequenceClassification
# 加载BERT中文预训练模型，指定分类类别数为10
model = TFBertForSequenceClassification.from_pretrained(
    'bert-base-chinese',
    num_labels=10,
    problem_type='single_label_classification'
)
# 编译模型
model.compile(
    optimizer=tf.keras.optimizers.Adam(learning_rate=2e-5),
    loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    metrics=[tf.keras.metrics.SparseCategoricalAccuracy('accuracy')]
)
# 查看模型结构
model.summary()

⚠️ 注意：BERT模型的学习率通常设置为2e-5或5e-5，远小于普通深度学习模型的学习率。这是因为预训练模型已经学习了丰富的语言知识，过高的学习率会破坏预训练的权重。

1.5.3 模型微调与评估

① 设置训练参数，训练轮数设置为3轮（BERT模型微调通常不需要太多轮数，否则容易过拟合）
② 使用验证集监控模型性能，保存最佳模型
③ 在测试集上评估模型的最终性能

from tensorflow.keras.callbacks import ModelCheckpoint, EarlyStopping
# 定义回调函数
callbacks = [
    # 早停：当验证集损失不再下降时停止训练
    EarlyStopping(monitor='val_loss', patience=1, restore_best_weights=True),
    # 保存最佳模型
    ModelCheckpoint('best_bert_thucnews.h5', monitor='val_accuracy', save_best_only=True)
]
# 开始微调模型
history = model.fit(
    train_dataset,
    validation_data=val_dataset,
    epochs=3,
    callbacks=callbacks
)
# 加载测试集
test_dataset = tokenized_dataset['test'].to_tf_dataset(
    columns=['input_ids', 'attention_mask'],
    label_cols=['labels'],
    batch_size=batch_size,
    shuffle=False
)
# 在测试集上评估模型
test_loss, test_acc = model.evaluate(test_dataset)
print(f"测试集损失：{test_loss:.4f}")
print(f"测试集准确率：{test_acc:.4f}")

1.5.4 模型预测与推理

训练完成后，我们可以使用模型对新的中文文本进行分类预测：

# 定义预测函数
def predict_text_category(text):
    # 预处理文本
    inputs = tokenizer(
        text,
        max_length=128,
        padding='max_length',
        truncation=True,
        return_tensors='tf'
    )
    # 获取预测结果
    outputs = model(inputs)
    logits = outputs.logits
    # 转换为类别概率
    probabilities = tf.nn.softmax(logits, axis=-1)
    # 获取预测类别
    predicted_label = tf.argmax(probabilities, axis=-1).numpy()[0]
    # 类别映射字典
    label_map = {0: '体育', 1: '娱乐', 2: '家居', 3: '房产', 4: '教育', 5: '时尚', 6: '时政', 7: '游戏', 8: '科技', 9: '财经'}
    return label_map[predicted_label]
# 测试预测
test_text = "北京时间10月1日，2024年巴黎奥运会男篮决赛在法兰西体育场举行，美国队以102-87击败法国队，夺得金牌。"
print(f"文本内容：{test_text}")
print(f"预测类别：{predict_text_category(test_text)}")

1.6 BERT模型的优化与改进方向

1.6.1 模型优化技巧

💡 技巧1：使用学习率调度器。在微调过程中，使用线性学习率衰减策略，让学习率随着训练轮数的增加而逐渐降低，提升模型的泛化能力。
💡 技巧2：使用梯度累积。当显存不足时，可以使用梯度累积技术，将多个小批次的梯度累积起来，再进行一次参数更新，相当于增大了批次大小。
💡 技巧3：使用知识蒸馏。将大模型（如BERT-Large）的知识蒸馏到小模型（如DistilBERT）中，在保证性能损失较小的前提下，显著提升模型的推理速度。

1.6.2 BERT的改进模型

BERT提出后，研究者们提出了许多改进版本，进一步提升了模型性能：

RoBERTa：取消了NSP任务，使用更大的批次大小和更多的训练数据，性能全面超越BERT。
ALBERT：通过参数共享技术，大幅减少模型参数量，提升训练效率。
ERNIE：百度提出的中文增强版BERT，通过引入实体级和短语级的掩码策略，提升了模型对中文语义的理解能力。
SpanBERT：将掩码单位从单个token改为连续的token span，提升了模型对短语和实体的建模能力。

1.7 本章总结

✅ 预训练语言模型采用“预训练+微调”的范式，先在大规模无标注语料上学习通用语言知识，再针对具体任务进行微调。
✅ BERT是基于双向Transformer编码器的预训练模型，通过掩码语言模型和下一句预测任务，实现了双向上下文理解。
✅ 使用Hugging Face Transformers库可以快速调用BERT模型，只需少量代码即可完成中文文本分类等任务的微调。
✅ BERT模型的微调需要注意学习率的设置，通常使用2e-5或5e-5的小学习率，避免破坏预训练权重。

文章版权归作者所有，未经允许请勿转载。

人工智能：预训练语言模型与BERT实战应用