关于Python文本生成的Beam Search解码问题

2024-04-02 19:04:59 133人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

目录贪婪搜索是在每个时间步中选择概率最高的单词，也是我们最常用的一种方法，Beam Search不取每个标记本身的绝对概率，而是考虑每个标记的所有可能扩展。然后根据其对数概率选择最合

import torch.nn.functional as F
def log_probability_single(logits, labels):
    logp = F.log_softmax(logits, dim=-1)
    logp_label = torch.gather(logp, 2, labels.unsqueeze(2)).squeeze(-1)
    return logp_label
def sentence_logprob(model, labels, input_len=0):
    with torch.no_grad():
        result = model(labels)
        log_probability = log_probability_single(result.logits[:, :-1, :],
                                                 labels[:, 1:])
    sentence_log_prob = torch.sum(log_probability[:, input_len:])
    return sentence_log_prob.cpu().numpy()

接下来，可以将其应用于贪婪搜索解码方法生成的输出，并计算生成的序列的对数概率。

在此示例中，我将在村上春木的书中简要介绍：1Q84。

input_sentence = "A love story, a mystery, a fantasy, a novel of self-discovery, a dystopia to rival George Orwell's — 1Q84 is Haruki Murakami's most ambitious undertaking yet: an instant best seller in his native Japan, and a tremendous feat of imagination from one of our most revered contemporary writers."

max_sequence = 100
input_ids = tokenizer(input_sentence,
                      return_tensors='pt')['input_ids'].to(device)
output = model.generate(input_ids, max_length=max_sequence, do_sample=False)

greedy_search_output = sentence_logprob(model,
                                        output,
                                        input_len=len(input_ids[0]))
print(tokenizer.decode(output[0]))

我们可以看到生成的序列的对数概率为-52.31。

在这里插入图片描述

现在，我们将并比较通过Beam Search生成的序列的对数概率得分，得分越高潜在结果越好。

我们可以增加n-gram惩罚参数no_repeat_ngram_size，这有助于减少输出中的重复生成的序列。

beam_search_output = model.generate(input_ids,
                                    max_length=max_sequence,
                                    num_beams=5,
                                    do_sample=False,
                                    no_repeat_ngram_size=2)
beam_search_log_prob = sentence_logprob(model,
                                        beam_search_output,
                                        input_len=len(input_ids[0]))
print(tokenizer.decode(beam_search_output[0]))
print(f"\nlog_prob: {beam_search_log_prob:.2f}")

输出如下：

分时和连贯性要比贪婪的方法好很多，对吧。

到此这篇关于python文本生成的Beam Search解码的文章就介绍到这了,更多相关Python文本生成的Beam Search内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

--结束END--

本文标题: 关于Python文本生成的Beam Search解码问题

本文链接: https://lsjlt.com/news/119533.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

关于Python文本生成的Beam Search解码问题

目录贪婪搜索是在每个时间步中选择概率最高的单词，也是我们最常用的一种方法，Beam Search不取每个标记本身的绝对概率，而是考虑每个标记的所有可能扩展。然后根据其对数概率选择最合...

99+

2024-04-02
关于Python的文本文件转换编码问题

目录前言测试数据编码转换代码执行结果说明前言因为编程的原因，经成会遇到字符编码的问题。如开发工具使用的是UTF-8编码（推荐使用），然后需要导入一个从其它地...

99+

2023-05-16

Python文本文件文件转换编码
关于sql脚本导入Oracle时重复生成check约束的问题解决

前言最近在工作中一位细心的同事发现产品的全量sql脚本中有一些重复的check约束检查，就像下图这样的重复脚本怪异之处还在于，每次执行一遍该脚本，然后导出脚本，在导出脚本中重复的次数就会增加一遍。通...

99+

2024-04-02
Python中，关于读取文件编码解码的问

UnicodeDecodeError: 'gbk' codec can't decode byte 0xb1 in position 94: illegal multibyte sequence 有时候用o...

99+

2023-01-31

文件 Python
关于idea-web.xml版本过低怎么生成新的（web.xml报错）问题

版本：一、版本过低，web.xml报错，报错信息为： The content of element type "web-app" must match "(icon?,...

99+

2024-04-02
关于idea的gitignore文件编写及解决ignore文件不生效问题

1.下载idea的《.ignore》插件，重启idea生效 2.添加自己想要忽略的文件夹及文件，一般选这个就够了 3.如果想要忽略提交的文件夹名称变成黄色了，就代表成功忽略...

99+

2024-04-02
关于使用shell脚本循环处理文本的问题

公司是使sPggWSbe用puppet来进行配置管理, 某天修改完puppet后领导回复: 我们有一个文档cabinet.txt记录了物理机器所在的机柜, 除了文档里的其他机器都是虚拟机或云服务器, 对虚拟机的pupp...

99+

2022-06-04

shell脚本处理文本 shell脚本循环处理文本
关于Python dict存中文字符dumps()的问题

Background 之前数据库只区分了Android，IOS两个平台，游戏上线后现在PM想要区分国服，海外服，港台服。这几个字段从前端那里的接口获得，code过程中发现无论如何把中...

99+

2024-04-02
Python的文本文件转换编码问题怎么解决

这篇文章主要介绍“Python的文本文件转换编码问题怎么解决”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“Python的文本文件转换编码问题怎么解决”文章能帮助大家解决问题。测试数据注：测试文本采用...

99+

2023-07-06
mybatis-generator生成文件覆盖问题的解决

目录mybatis-generator生成文件覆盖解决方案mybatis-generator避免覆盖自定义的sql方法mybatis-generator生成文件覆盖在Idea中使用...

99+

2024-04-02
怎么解决关于Python dict存中文字符dumps()的问题

本篇内容主要讲解“怎么解决关于Python dict存中文字符dumps()的问题”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“怎么解决关于Python dict存中文字符dumps()的问题”...

99+

2023-06-25
Python随机验证码生成和join 字符串的问题解析

函数：string.join() Python中有join()和os.path.join()两个函数，具体作用如下： join()：连接字符串数组。将字符串、元组、列表中的元素以指...

99+

2024-04-02
从同一个 .proto 文件生成 Python 和 Go 代码 - 导入问题

Golang不知道大家是否熟悉？今天我将给大家介绍《从同一个 .proto 文件生成 Python 和 Go 代码 - 导入问题》，这篇文章主要会讲到等等知识点，如果你在看完本篇文章后，有更好的建议...

99+

2024-04-05
Python编解码问题及文本文件处理方法详解

编解码器在字符与字节之间的转换过程称为编解码，Python自带了超过100种编解码器，比如： ascii（英文体系） gb2312（中文体系） utf-...

99+

2024-04-02
关于react+antd样式不生效问题的解决方式

目录1、添加antd组件样式不生效2、运行yarn eject时暴露配置文件报错3、less-loader版本过高，删除旧版本，下载低版本即可4、项目中引入icon代码报错补充：Re...

99+

2024-04-02
关于bat脚本中的命令状态码相关的%errorlevel%变量问题

bat脚本中常用%errorlevel%表达上一条命令的返回值，即命令执行状态码、也称命令退出码一般上一条命令的执行结果返回的值只有两种，0和非0 （如常见的1，2，4，5，900...

99+

2024-04-02
关于Springboot数据库配置文件明文密码加密解密的问题

有时候因为安全问题，需要把配置文件的中数据库用户名密码由明文改成密文，大多数其实是为了应付甲方而已。 1.pom.xml引入依赖 <dependency> <...

99+

2024-04-02
python中文编码乱码问题的解决

目录前言：一、什么是字符编码。1.ASCII2.GB23123.Unicode4.UTF-8二、Python2中的字符编码三、decode()与encode()方法四、一个字符编码的...

99+

2024-04-02
详解python脚本自动生成需要文件实例代码

python脚本自动生成需要文件在工作中我们经常需要通过一个文件写出另外一个文件，然而既然是对应关系肯定可以总结规律让计算机帮我们完成，今天我们就通过一个通用文件生成的python脚本来实现这个功能，将大...

99+

2022-06-04

自动生成详解脚本
关于Python读取文件的路径中斜杠问题

最近用Python读取文件，发现有时候用 '\' 会报错，换成 '\\' 就不会报错。查了下资料发现，'\'是Python的转义字符，如果路径中存在'\t'或者'\r'这样的特殊字符，'\'就无法起到目录跳转的作用，因此报错。解决办法就是...

99+

2023-01-31

斜杠路径文件