昇思25天打卡训练营第26天|文本解码原理--以MindNLP为例

Beam search通过在每个时间步保留最可能的 num_beams 个词，并从中最终选择出概率最高的序列来降低丢失潜在的高概率序列的风险。缺点: 错过了隐藏在低概率词后面的高概率词，如：dog=0.5, has=0.9!按照贪心搜索输出序列("The","nice","woman") 的条件概率为：0.5 x 0.4 = 0.2。选出概率最大的 K 个词，重新归一化，最后在归一化后的 K 个词

littlewood11

415人浏览 · 2024-07-28 11:02:21

littlewood11 · 2024-07-28 11:02:21 发布

1.回顾：自回归语言模型

1）文本序列的概率分布可分解为每个词基于其上文的条件概率的乘积，如下公式：

其中，𝑊_0:初始上下文单词序列
𝑇: 时间步
当生成EOS标签时，停止生成。
2）MindNLP/huggingface Transformers文本生成方法

- Greedy search

各时刻均选择概率最高的词作为当前输出词: $w_{t} = arg max_{t}P(w|w_{1:t-1})$

在上边图中，按照贪心搜索输出序列("The","nice","woman") 的条件概率为：0.5 x 0.4 = 0.2

缺点: 错过了隐藏在低概率词后面的高概率词，如：dog=0.5, has=0.9 ![image.png](attachment:image.png =600x600)

2.环境准备

安装以下程序包：

3.模型加载

4.Beam search

Beam search通过在每个时间步保留最可能的 num_beams 个词，并从中最终选择出概率最高的序列来降低丢失潜在的高概率序列的风险。如图以 num_beams=2 为例:

("The","dog","has") : 0.4 * 0.9 = 0.36

("The","nice","woman") : 0.5 * 0.4 = 0.20

优点：一定程度保留最优路径

缺点：1. 无法解决重复问题；2. 开放域生成效果差

例如，

缺点：1. 无法解决重复问题；2. 开放域生成效果差

5.n-gram 惩罚:

将出现过的候选词的概率设置为 0

设置no_repeat_ngram_size=2 ，任意 2-gram 不会出现两次

Notice: 实际文本生成需要重复出现

Sample

根据当前条件概率分布随机选择输出词𝑤_𝑡

优点：文本生成多样性高

缺点：生成文本不连续

6.TopK sample

选出概率最大的 K 个词，重新归一化，最后在归一化后的 K 个词中采样

将采样池限制为固定大小 K ：

在分布比较尖锐的时候产生胡言乱语
在分布比较平坦的时候限制模型的创造力

7.Top-P sample

在累积概率超过概率 p 的最小单词集中进行采样，重新归一化

采样池可以根据下一个词的概率分布动态增加和减少

8.top_k_top_p

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

cover

鲲鹏+昇腾：开启 AI for Science 新范式——基于PINN的流体仿真加速实践

鲲鹏昇腾开发者社区

鲲鹏 DevKit 持续集成部署实践：从零搭建 CI/CD 流水线

随着项目规模不断扩大，构建一条简单、稳定、自动化的 CI/CD 流水线变得越来越重要。鲲鹏 DevKit 在这一方面提供了完整的工具链支持，从代码检查到构建、测试、部署都有覆盖，让我们能够在国产化环境中快速搭建可靠的持续交付体系。我将结合实际使用经验，介绍如何基于 DevKit 构建一条完整、高效的 CI/CD 流水线，并给出相关配置示例与最佳实践。本次实验是在华为云开发者空间上进行的，点击进入D

鲲鹏昇腾开发者社区

cover

华为 DevKit 25.2.rc1 源码迁移分析使用教程（openEuler + ARM64）

鲲鹏昇腾开发者社区

所有评论(0)

查看更多评论

littlewood11

已为社区贡献16条内容