1. 自监督学习(Self-supervised Learning)

核心思想:
通过设计预训练任务,让模型从大量未标注数据中学习特征,减少对标注数据的依赖。
典型任务:
掩码语言模型(MLM):
随机遮蔽输入文本中的部分词(如15%的词)。
模型预测被遮蔽的词,学习上下文依赖关系。
损失函数:交叉熵损失(Cross-Entropy Loss)。
去噪自动编码(DAE):
对输入数据添加噪声(如随机删除、替换)。
模型需恢复原始干净数据。
适用于图像、文本、语音等多模态数据。
旋转检测(Rotation Prediction):
对图像进行随机旋转,模型需预测旋转角度。
优势:
高效利用未标注数据,降低标注成本。
学习到的特征具有泛化性,适用于下游任务。
挑战:
预训练任务需与下游任务相关,否则可能效果不佳。
计算资源需求高,需大规模数据。
典型模型:
BERT(文本MLM+NSP):在NLP任务中表现优异。
CLIP(图文对齐):通过图文对比学习跨模态表征。
应用场景:
文本理解(如问答)、多模态任务(如图像描述生成)。
2. 自回归语言模型(Autoregressive, AR)

核心思想:
模型以自回归方式逐词生成文本,学习语言的生成能力。
实现步骤:
输入序列:给定前n个词 x1,x2,...,xnx1,x2,...,xn。
模型预测下一个词的概率分布:P(xn+1∣x1,...,xn)P(xn+1∣x1,...,xn)。
使用交叉熵损失优化模型参数。
关键特性:
自回归性:生成过程依赖于前序词,适合长文本生成。
并行计算限制:逐词生成导致推理速度较慢。
优势:
生成文本流畅自然,适合对话系统、文本创作。
可直接用于生成任务(如文本摘要、翻译)。
挑战:
长序列生成可能产生累积误差。
需要大量计算资源训练。
典型模型:
GPT系列(GPT-3、GPT-4):通过自回归生成高质量文本。
Transformer-XL:扩展上下文窗口,提升长文本建模能力。
应用场景:
文本生成(如文章创作)、对话系统。
3. 双向编码器(Bidirectional Encoder, BERT-like)

核心思想:
结合自监督任务(如MLM)和双向上下文信息,学习语义表征。
实现步骤:
掩码语言模型(MLM):遮蔽部分词,模型需同时利用左右上下文预测缺失词。
下一句预测(NSP):判断两句话是否连续,学习语篇结构。
损失函数:MLM的交叉熵损失 + NSP的二分类损失。
关键特性:
双向上下文:通过Transformer的自注意力机制,同时关注前后文。
上下文无关词向量:每个词的嵌入结合全局上下文。
优势:
在需要上下文理解的任务(如问答、情感分析)中表现优异。
适合微调(Fine-tuning)到下游任务。
挑战:
MLM任务需遮蔽部分词,可能影响模型对完整句子的理解。训练复杂度较高。
典型模型:
BERT:NLP领域的里程碑模型。
RoBERTa:改进BERT的训练策略,提升性能。
应用场景:
文本分类、命名实体识别(NER)、问答系统。
4. 跨模态预训练(Multimodal Pre-training)

核心思想:
融合文本、图像、视频等多模态数据,学习跨模态关联。
实现步骤:
图文对齐(Image-Text Alignment):
输入:图像及其描述文本。
模型学习图像特征与文本特征的映射关系。
对比损失(Contrastive Loss):最大化正样本(图像-文本对)的相似度,最小化负样本的相似度。
多任务学习:联合训练生成、分类、检索等任务。
关键特性:
跨模态表征:将不同模态数据映射到统一空间。
零样本迁移:无需标注即可完成新任务(如图文检索)。
优势:
支持多模态交互(如生成图像描述、根据文本生成图像)。
适用于AI绘画、视频理解等复杂任务。
挑战:
需要大规模跨模态数据(如图文配对数据)。
计算资源需求高。
典型模型:
CLIP:通过对比学习实现跨模态检索。
OmniLMM(知识库[6]):结合文本、图像、视频的多模态预训练。
应用场景:
图文检索、视频生成、多模态对话系统。
5. 增量预训练(Incremental Pre-training)

核心思想:
基于已有预训练模型,通过少量数据进一步优化,减少训练成本。
实现步骤:
冻结基础模型参数:保持底层参数不变。
添加适配层(Adapter Layers):在模型中间层插入轻量级参数。
微调新任务数据:仅更新适配层参数。
关键特性:
参数高效性:仅需少量新参数,节省计算资源。
快速适配:适合新领域或新任务。
优势:
降低训练成本,适合资源受限场景。
可快速适配特定领域(如医疗、法律)。
挑战:
适配层设计需与任务匹配,否则可能效果不佳。
过度适配可能导致泛化能力下降。
典型模型:
Colossal-AI的LLaMA-2增量训练:仅用8.5B token数据提升中文能力。
AdapterHub:开源适配层工具库。
应用场景:
领域迁移(如医疗文本分析)、低成本模型迭代。
6. 对比学习(Contrastive Learning)

核心思想:
通过区分正负样本,学习判别性特征表示。
实现步骤:
构造样本对:
正样本:同一数据的不同视角(如图像的不同裁剪、文本的不同噪声版本)。
负样本:随机其他数据。
投影头(Projection Head):将特征映射到低维空间。
对比损失(Contrastive Loss):最大化正样本相似度,最小化负样本相似度。

关键特性:
判别性特征:模型关注关键信息,忽略噪声。
无监督/弱监督:仅需成对数据或标签。
优势:
在图像分类、聚类任务中表现优异。
适用于少样本学习(Few-shot Learning)。
挑战:
需要设计合适的正负样本构造策略。
计算复杂度较高(需计算所有样本对的相似度)。
典型模型:
SimCLR:图像领域的对比学习经典模型。
CLIP:通过图文对比学习跨模态表征。
应用场景:
图像检索、无监督聚类、跨模态检索。
7. 大规模无监督预训练(Large-scale Unsupervised)

核心思想:
利用海量未标注数据,通过自监督任务训练超大规模模型。
实现步骤:
数据收集:整合文本、网页、书籍等多源数据(如互联网文本)。
自监督任务:如语言模型(LM)、掩码预测等。
分布式训练:使用多GPU/TPU集群加速训练。
关键特性:
参数规模大:通常超过百亿甚至万亿参数。
多任务泛化:模型具备广泛的知识和推理能力。
优势:
泛化能力强,适应多种下游任务。
支持复杂任务(如多轮对话、代码生成)。
挑战:
计算资源需求极高(需数千GPU)。
数据质量影响模型效果。
典型模型:
Switch Transformer(1.6万亿参数):谷歌研发,提升训练效率。
悟道2.0(1.75万亿参数):中国首个超大规模模型。
应用场景:
通用语言理解、复杂对话系统、代码生成。
8. 特定领域预训练(Domain-specific Pre-training)

核心思想:
在特定领域数据(如医学、法律)上预训练,提升领域适配性。
实现步骤:
领域数据收集:如医疗报告、法律文书、金融数据等。
领域适配预训练:领域自监督任务:如遮蔽领域术语预测。
领域知识注入:通过规则或外部知识库增强模型。
微调:在特定任务数据上进一步优化。
关键特性:
领域知识嵌入:模型学习领域特定的术语和逻辑。
减少领域偏移:避免通用模型在特定领域表现不佳。
优势:
在垂直领域任务中表现显著优于通用模型。
可结合领域专家知识提升可信度。
挑战:
领域数据可能稀缺或标注成本高。
需要领域专业知识设计适配任务。
典型模型:
BioBERT:在生物医学文本上预训练的BERT变体。
LegalBERT:法律领域的预训练模型。
应用场景:
医疗诊断、法律文书分析、金融风控。
9. 多任务预训练(Multi-task Pre-training)

核心思想:
在预训练阶段同时学习多个任务,提升模型的多任务能力。
实现步骤:
任务组合:选择相关任务(如语言建模+分类+生成)。
联合训练:模型同时优化多个任务的损失函数。
共享参数:底层参数共享,顶层任务专用层独立。
任务权重平衡:通过损失加权或动态调整策略平衡任务优先级。
关键特性:
多任务协同:任务间信息互补,提升整体性能。
参数共享:减少冗余,提升效率。
优势:
在多任务场景中表现均衡(如同时处理文本生成和分类)。
减少下游任务的微调复杂度。
挑战:
任务选择需相关,否则可能相互干扰。
需要设计合理的任务权重策略。
典型模型:
MT-NLG(知识库[8]):联合训练生成、分类等任务。
GPT-4:优化多任务性能,如事实推理和代码生成。
应用场景:
多功能对话系统、多任务客服机器人。
10. 参数高效预训练(Parameter-efficient Pre-training)

核心思想:
通过轻量级参数调整,减少计算和存储开销。
实现步骤:
低秩适配(LoRA):
在模型层间插入低秩矩阵(秩为r,远小于参数规模)。
仅更新低秩矩阵,冻结其他参数。
公式:W=Wbase+ΔWW=Wbase+ΔW,其中 ΔW=A⋅BΔW=A⋅B。
适配器(Adapter):
在模型层间添加小型神经网络模块(如瓶颈结构)。
前缀调优(Prefix Tuning):
为每个任务设计固定长度的前缀向量,与输入拼接后输入模型。
关键特性:
参数高效性:仅需更新少量参数。
部署友好:适合边缘设备(如手机、IoT)。
优势:
显著降低训练和推理成本。
适用于资源受限场景(如移动端部署)。
挑战:
适配器设计需与模型结构匹配。
可能牺牲部分性能。
典型模型:
LoRA:在MiniCPM-2B中用于RAG场景。
AdapterHub:开源适配器工具库。
应用场景:
移动端对话系统、轻量级推理服务。
2. 十种预训练方式对比总结表
方法
核心目标
关键步骤
典型模型
优势
挑战
自监督学习
学习未标注数据的特征
MLM、DAE、对比损失
BERT、CLIP
高效利用未标注数据
需要设计相关任务
自回归语言模型
学习语言生成能力
逐词生成、交叉熵损失
GPT-3、Transformer-XL
生成文本流畅
计算资源需求高
双向编码器
学习双向语义表示
MLM+NSP、双向注意力
BERT、RoBERTa
上下文理解能力强
微调复杂度较高
跨模态预训练
融合多模态数据
图文对比、多任务学习
CLIP、OmniLMM
多模态交互能力
数据稀缺性高
增量预训练
低成本适配新领域
适配层+冻结基础模型
Colossal-LLaMA
训练成本低
需要设计适配层
对比学习
学习判别性特征
正负样本对比、投影头
SimCLR、CLIP
特征区分度高
计算复杂度高
大规模无监督预训练
构建超大规模模型
自监督任务+分布式训练
Switch Transformer、悟道2.0
泛化能力强
资源需求极高
特定领域预训练
适配垂直领域需求
领域数据+自监督任务
BioBERT、LegalBERT
领域内表现优异
数据稀缺性高
多任务预训练
提升多任务通用性
联合训练+任务权重平衡
MT-NLG、GPT-4
多任务性能均衡
任务选择需相关
参数高效预训练
降低计算与存储开销
LoRA、Adapter、前缀调优
MiniCPM-2B、LoRA
适合边缘设备部署
可能牺牲部分性能
3. 选择建议
资源有限场景:
优先选择参数高效预训练(如LoRA)或增量预训练。
多模态任务:
采用跨模态预训练(如CLIP)。
通用场景:
使用自监督学习(如BERT)或自回归模型(如GPT)。
垂直领域:
结合特定领域预训练与多任务学习。