【昇思MindSpore技术公开课】第九节Instruction Tuning课程回顾来啦！

2023/06/21

【昇思MindSpore技术公开课】第九节Instruction Tuning课程回顾来啦！

在上周六（6月17日），我们进行了昇思MindSpore技术公开课-大模型专题第九节课程：Instruct Tuning的讲解。课程中，我们介绍了Instruction Tuning的核心思想。并由此引出ChatGPT的前身：InstructGPT模型，与思维链（Chain-of-thoughts）思想。接下来我们对课程进行简单回顾，迎接下一节公开课的进一步深入。

一、

课程回顾

Instruction Tuning：

Instruction Tuning的核心思想：让模型能够理解任务描述（指令）。
FLAN模型：finetune LM better understand task description via other。通过Instruction Tuning来提高大模型的zero-shot能力。
Instruction Tuning和prompting的区别对比

Instruction Tuning的局限性

1、问题1：无法支持开放域创新性的任务，如写小说。

2、问题2：语言模型对token-level的错误是同等惩罚的，但是实际上不同的token错误带来的影响差异会很大

3、问题3：即使使用Instruction Tuning，还是没法将LM的训练目标和人类的需求对齐。

InstructGPT：

从GPT到ChatGPT的发展，InstructGPT是ChatGPT的前身，Instruction Finetuning是ChatGPT必备的技术之一。

Chain-of-thoughts：

思维链随着模型规模的增大，开始出现，被称为大模型的涌现能力。
思维链Prompting可以通过在prompt中提供示例，让模型“举一反三”。
使用Let’s think step by step.这种Zero-shot的思维链提示，也能让模型性能大幅提升。
新时代的职业，Prompt工程师。

二、

下节课预告

本周六（6月24日）课程，我们将为大家带来昇思MindSpore技术公开课-大模型专题第十节课程：RLHF的讲解，探究ChatGPT的“语言艺术”。本周直播的课程内容有：

强化学习与PPO算法
InstructGPT/ChatGPT中的RLHF
动手训练一个Reward模型
使用GPT2实现ChatGPT全流程（基于人工反馈的评论生成模型）

学习

核心框架

大模型套件

科学计算套件

领域套件

工具

模型库

生态资源

技术学习

专区

社区组织

贡献与成长

开发者活动

互动交流

活动

动态

【昇思MindSpore技术公开课】第九节Instruction Tuning课程回顾来啦！

【昇思MindSpore技术公开课】第九节Instruction Tuning课程回顾来啦！