微软用GPT-4的方法训练大模型,新任务的效果提高了,不需要样本

爱玩的蛋哥 2023-04-10 10:45:24

近日,微软研究院的杜伟和陈萍在 arXiv 上发表了一篇论文,介绍了他们使用 GPT-4 进行大模型指令微调的方法和结果。他们首次使用 GPT-4 作为教师模型,生成了中英文的指令遵循数据集,用于训练和评估 LLaMA 模型,这是一种开源的大语言模型。他们的实验结果表明,使用 GPT-4 生成的数据进行指令微调可以提升 LLaMA 模型在新任务上的零样本性能,与其他 SOTA 模型相比有明显优势。他们还公开了 GPT-4 生成的数据和相关代码,为 LLMs 指令微调的研究提供了新的资源和机会。

大语言模型(LLMs)是近年来自然语言处理领域的热门话题,它们具有强大的泛化能力,可以在多种任务上表现出色,比如上下文学习和思维链推理。然而,要让 LLMs 遵循自然语言指令并完成真实世界任务,并不是一件容易的事情。研究人员一直在探索 LLMs 的指令微调方法,即如何利用少量的标注数据或无监督数据来教 LLMs 学习和执行指令。

目前,有两种主流的指令微调方法:一是使用人类标注的 prompt 和反馈在广泛任务上微调模型,二是使用通过手动或自动生成指令增强的公共基准和数据集来监督微调。在这些方法中,Self-Instruct 微调是一种简单有效的方法,它从 SOTA 指令微调的教师 LLMs 生成的指令遵循数据中学习,使得 LLMs 与人类意图对齐。事实证明,指令微调已经成为提升 LLMs 零样本和小样本泛化能力的有效手段。

最近,ChatGPT 和 GPT-4 的成功为使用指令微调来改进开源 LLMs 提供了巨大的机遇。ChatGPT 是一个基于 GPT-3 的中文聊天机器人,它可以与用户进行流畅、有趣、知识性和个性化的对话。GPT-4 是 OpenAI 最新发布的大语言模型,它拥有 1750 亿个参数,是 GPT-3 的两倍多,并且在多个 NLP 任务上超越了 GPT-3 的性能。Meta LLaMA 是一系列开源 LLMs,其性能与 GPT-3 等专有 LLMs 相媲美。为了教 LLaMA 遵循指令,Self-Instruct 因其卓越性能和低成本被快速采用。比如斯坦福的 Alpaca 模型使用由 GPT-3.5 生成的 52k 指令遵循样本,Vicuna 模型使用约 700k 来自 ShareGPT 的指令遵循样本。

为了推进 LLMs 指令微调的 SOTA 水平,微软研究院的杜伟和陈萍在其论文《Instruction Turing with GPT-4》中首次使用 GPT-4 作为教师模型进行 self-intruct 微调。他们利用 GPT-4 的强大生成能力,创建了中英文的指令遵循数据集,用于训练和评估 LLaMA 模型,这是一种开源的大语言模型。他们的实验结果表明,使用 GPT-4 生成的数据进行指令微调可以提升 LLaMA 模型在新任务上的零样本性能,与其他 SOTA 模型相比有明显优势。他们还公开了 GPT-4 生成的数据和相关代码,为 LLMs 指令微调的研究提供了新的资源和机会。

该研究使用 GPT-4 生成了四个数据集:英语指令遵循数据集、中文指令遵循数据集、比较数据和非自然指令的回答。这些数据集分别用于探索和比较 GPT-4 和其他 LLMs 的输出质量、训练奖励模型、量化 GPT-4 和指令微调模型之间的差距。该研究基于 LLaMA 7B checkpoint,并使用监督微调训练了两个模型:LLaMA-GPT4 和 LLaMA-GPT4-CN,分别在英语和中文的指令遵循数据上训练。该研究还训练了一个基于 OPT 1.3B 的奖励模型,用于预测给定提示和响应之间的奖励。

为了评估指令微调 LLMs 的质量,该研究使用三个指标对测试样本进行评估:对三个对齐标准的人工评估、基于 GPT-4 反馈的自动评估以及非自然指令的 ROUGE-L(自动文摘评测方法之一)。实验结果验证了使用 GPT-4 生成的数据进行 LLMs 指令微调的有效性。GPT-4 生成的 52k 中英指令遵循数据在新任务上实现了较以往 SOTA 模型更好的零样本性能。与此同时,LLaMA-GPT4 和 GPT-4 在人类评估和非自然指令评估上也表现出相近的性能。

该研究为 LLMs 指令微调提供了一个新的思路和方法,利用 GPT-4 的强大生成能力,创建了高质量的指令遵循数据集,用于训练和评估开源 LLMs。该研究也为 LLMs 的应用提供了新的可能性,比如聊天机器人、问答系统、文本摘要等。该研究还展示了 GPT-4 的潜力和前景,它不仅是一个强大的语言模型,也是一个有效的教师模型。

0 阅读:68
爱玩的蛋哥

爱玩的蛋哥

随心分享一些东西