大模型微调训练全流程的思考
融合 ChatGPT大模型的训练方法,总结出精简高效的训练流程:
预训练:从海量文本中学取基础知识。
微调:针对特定任务优化模型,提高性能。
对齐:使用对齐技术确保响应安全、实用,符合用户意图。
训练流程的四个阶段,分别如下:强化学习阶段采用 PPO 算法,基于 RL 方式,持续优化 fine-tuned ChatGLM-6B 模型。此阶段旨在进一步增强模型性能,使其在与人类交互时表现得更加自然和高效。预训练阶段-PT使用非结构化自然语言文本数据训练模型,通过设置最大序列长度和块大小分块文本数据并批量处理。每条处理后的数据包括 input_ids、attention_mask 和标签。模型的目标是根据提供的文本预测下一个单词。
监督微调阶段-SFT优化后:
该阶段训练数据采用指令式结构,格式为指令/输入/输出/历史。根据场景需求,输入与历史可缺省。指令数据集需人工标注,以灵活应对不同场景。
对齐优化语言模型,使其与人类偏好和价值观保持一致。这通过 RHLF 机制实现,它包括:
- 训练模型预测人类反馈
- 根据反馈微调模型
基于有监督微调模型基础上创建一个 reward model(RM)模型;通过综合 PPO/DPO 算法和 RM 模型,我们微调了 SFT 模型,优化其响应生成能力。经验证,这一方法可显著提升模型性能,提供最佳响应。奖励模型-RMRHLF 第一阶段旨在于强化学习阶段应用模型评分,训练一个回归模型 (RM),其结构格式可自定义。阶段数据经过人工标注,提供多种格式供选择,需要程序预先处理。
强化学习-RLRHLF 的核心阶段,旨在优化 RM 模型,提升其打分性能。采用特定的算法 (DPO/PPO) 引导优化,使模型生成的内容更符合人类偏好。此阶段与 SFT 相同的数据格式,通过优化,模型可产生更优化的内容。
总结微调领域模型的精髓
微调医疗大模型并非一蹴而就。遵循预训练、监督微调和 RHLF 的训练流程至关重要,涵盖了海量知识和要素。把握微调精髓,解锁模型潜力。
-对此,您有什么看法见解?-
-欢迎在评论区留言探讨和分享。-