【昇思MindSpore技术公开课】第九节Instruction Tuning课程回顾来啦!
2023/06/21
【昇思MindSpore技术公开课】第九节Instruction Tuning课程回顾来啦!
在上周六(6月17日),我们进行了昇思MindSpore技术公开课-大模型专题第九节课程:Instruct Tuning的讲解。课程中,我们介绍了Instruction Tuning的核心思想。并由此引出ChatGPT的前身:InstructGPT模型,与思维链(Chain-of-thoughts)思想。接下来我们对课程进行简单回顾,迎接下一节公开课的进一步深入。
一、
课程回顾
Instruction Tuning:
- Instruction Tuning的核心思想:让模型能够理解任务描述(指令)。
- FLAN模型:finetune LM better understand task description via other。通过Instruction Tuning来提高大模型的zero-shot能力。
- Instruction Tuning和prompting的区别对比

- Instruction Tuning的局限性
1、问题1:无法支持开放域创新性的任务,如写小说。
2、问题2:语言模型对token-level的错误是同等惩罚的,但是实际上不同的token错误带来的影响差异会很大
3、问题3:即使使用Instruction Tuning,还是没法将LM的训练目标和人类的需求对齐。
InstructGPT:

从GPT到ChatGPT的发展,InstructGPT是ChatGPT的前身,Instruction Finetuning是ChatGPT必备的技术之一。
Chain-of-thoughts:

- 思维链随着模型规模的增大,开始出现,被称为大模型的涌现能力。
- 思维链Prompting可以通过在prompt中提供示例,让模型“举一反三”。
- 使用Let’s think step by step.这种Zero-shot的思维链提示,也能让模型性能大幅提升。
- 新时代的职业,Prompt工程师。
二、
下节课预告
本周六(6月24日)课程,我们将为大家带来昇思MindSpore技术公开课-大模型专题第十节课程:RLHF的讲解,探究ChatGPT的“语言艺术”。本周直播的课程内容有:
- 强化学习与PPO算法
- InstructGPT/ChatGPT中的RLHF
- 动手训练一个Reward模型
- 使用GPT2实现ChatGPT全流程(基于人工反馈的评论生成模型)
