代码
【昇思MindSpore技术公开课】请查收第四讲文本生成解码原理知识点回顾

【昇思MindSpore技术公开课】请查收第四讲文本生成解码原理知识点回顾

【昇思MindSpore技术公开课】请查收第四讲文本生成解码原理知识点回顾

昇思MindSpore公开课大模型专题第二季课程火爆来袭!未报名的小伙伴抓紧时间扫描下方二维码参与课程,并同步加入课程群,有免费丰富的课程资源在等着你。课程同步赋能华为ICT大赛2023-2024,欢迎大家报名参与!

image.png

在学习了GLM大模型之后,本周的公开课我们对LLM的核心能力——文本生成进行全面的解析,针对不同的文本生成(解码)方法进行了深入的原理介绍,并且依托MindSpore NLP提供了各种不同方法的demo。下面我们对本周公开课的内容进行总结,迎接下一节的深入:

cke_841.png

image.png

图 1 greedy search示例

2.2 Beam search:

通过在每个时间步保留最可能的 num_beams 个词,并从中最终选择出概率最高的序列来降低丢失潜在的高概率序列的风险。

优点:一定程度保留最优路径

缺点:无法解决重复问题和开放域生成效果差

image.png

cke_2775.png

image.png

cke_4567.png

image.png

图 5 Top-P sample示例

**4、**其他解码方法

通过插入固定词汇组合到beam search候选词中,达到指定文本生成内容的目的。

4.2 Contrastive Search

加入了前文相似度对比的惩罚项。

image.png

4.3 Assisted Search

LLM高效文本生成的解决方案,使用一个小的assistant model来进行预测或者是否使用cache文本的判断。减少LLM的调用次数。

二、

下节课预告

昇思MindSpore技术公开课第二期的第五讲将在12月9日(周六)14:00-15:30与大家见面。为大家带来Llama模型的讲解与代码演示,我们不见不散!