PyTorch训练LSTM时loss.backward()报错的解决方案

2024-04-02 19:04:59 721人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

训练用PyTorch编写的LSTM或RNN时，在loss.backward()上报错： RuntimeError: Trying to backward through the g

训练用PyTorch编写的LSTM或RNN时，在loss.backward()上报错：

RuntimeError: Trying to backward through the graph a second time, but the buffers have already been freed. Specify retain_graph=True when calling backward the first time.

千万别改成loss.backward(retain_graph=True)，会导致显卡内存随着训练一直增加直到OOM：

RuntimeError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 10.73 GiB total capacity; 9.79 GiB already allocated; 13.62 MiB free; 162.76 MiB cached)

正确做法：


LSRM / RNN模块初始化时定义好hidden，每次forward都要加上self.hidden = self.init_hidden():
Class LSTMClassifier(nn.Module):
    def __init__(self, embedding_dim, hidden_dim)：
    # 此次省略其它代码
    self.rnn_cell = nn.LSTM(embedding_dim, hidden_dim)
    self.hidden = self.init_hidden()
    # 此次省略其它代码
    
    def init_hidden(self):
        # 开始时刻, 没有隐状态
        # 关于维度设置的详情,请参考 Pytorch 文档
        # 各个维度的含义是 (Seguence, minibatch_size, hidden_dim)
        return (torch.zeros(1, 1, self.hidden_dim),
                torch.zeros(1, 1, self.hidden_dim))
    def forward(self, x):
        # 此次省略其它代码
        self.hidden = self.init_hidden()  # 就是加上这句!!!!
        out, self.hidden = self.rnn_cell(x, self.hidden)     
        # 此次省略其它代码
        return out

或者其它模块每次调用这个模块时，其它模块的forward()都对这个LSTM模块init_hidden()一下。

如定义一个模型LSTM_Model()：


Class LSTM_Model(nn.Module):
    def __init__(self, embedding_dim, hidden_dim)：
        # 此次省略其它代码
        self.rnn = LSTMClassifier(embedding_dim, hidden_dim)
        # 此次省略其它代码
        
    def forward(self, x):
        # 此次省略其它代码
        self.rnn.hidden = self.rnn.init_hidden()  # 就是加上这句!!!!
        out = self.rnn(x)     
        # 此次省略其它代码
        return out

这是因为：

根据官方tutorial，在 loss 反向传播的时候，pytorch 试图把 hidden state 也反向传播，但是在新的一轮 batch 的时候 hidden state 已经被内存释放了，所以需要每个 batch 重新 init （clean out hidden state），或者 detach，从而切断反向传播。

补充：pytorch:在执行loss.backward()时out of memory报错

在自己编写SurfNet网络的过程中，出现了这个问题，查阅资料后，将得到的解决方法汇总如下

可试用的方法：

1、reduce batch size, all the way down to 1

2、remove everything to CPU leaving only the network on the GPU

3、remove validation code, and only executing the training code

4、reduce the size of the network (I reduced it significantly: details below)

5、I tried scaling the magnitude of the loss that is backpropagating as well to a much smaller value

在训练时，在每一个step后面加上：


torch.cuda.empty_cache()

在每一个验证时的step之后加上代码：


with torch.no_grad()

不要在循环训练中累积历史记录


total_loss = 0
for i in range(10000):
    optimizer.zero_grad()
    output = model(input)
    loss = criterion(output)
    loss.backward()
    optimizer.step()
    total_loss += loss

total_loss在循环中进行了累计，因为loss是一个具有autograd历史的可微变量。你可以通过编写total_loss += float(loss)来解决这个问题。

本人遇到这个问题的原因是，自己构建的模型输入到全连接层中的特征图拉伸为1维向量时太大导致的，加入pool层或者其他方法将最后的卷积层输出的特征图尺寸减小即可。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持编程网。

您可能感兴趣的文档:

--结束END--

本文标题: PyTorch训练LSTM时loss.backward()报错的解决方案

本文链接: https://lsjlt.com/news/127239.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

PyTorch训练LSTM时loss.backward()报错的解决方案

训练用PyTorch编写的LSTM或RNN时，在loss.backward()上报错： RuntimeError: Trying to backward through the g...

99+

2024-04-02
使用PyTorch训练LSTM时出现loss.backward()报错如何解决

使用PyTorch训练LSTM时出现loss.backward()报错如何解决？相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。正确做法：LSRM / RNN模...

99+

2023-06-15
pytorch 两个GPU同时训练的解决方案

使用场景我有两个GPU卡。我希望我两个GPU能并行运行两个网络模型。代码错误代码1： #对于0号GPU os.environ['CUDA_VISIBLE_DEVICES']...

99+

2024-04-02
pytorch训练神经网络爆内存的解决方案

训练的时候内存一直在增加，最后内存爆满，被迫中断。后来换了一个电脑发现还是这样，考虑是代码的问题。检查才发现我的代码两次存了loss，只有一个地方写的是loss.item（）。...

99+

2024-04-02
pytorch DistributedDataParallel 多卡训练结果变差的解决方案

DDP 数据shuffle 的设置使用DDP要给dataloader传入sampler参数（torch.utils.data.distributed.DistributedSamp...

99+

2024-04-02
安装pytorch时报sslerror错误的解决方案

首先说一下，我是用的anaconda3装的pytorch 为了方便建议你也安装一个。其实这个挺简单的,你找找“c:/user/你的用户名/”目录下有没有一个叫 .condarc ...

99+

2024-04-02
pytorch训练时的显存占用递增的问题解决

目录遇到的问题：解决方法：补充：Pytorch显存不断增长问题的解决思路遇到的问题：在pytorch训练过程中突然out of memory。解决方法： 1. 测试的时候爆显存有...

99+

2023-01-15

pytorch 显存占用递增 pytorch 显存占用
Pytorch训练网络过程中loss突然变为0的解决方案

问题 // loss 突然变成0 python train.py -b=8 INFO: Using device cpu INFO: Network: 1 inp...

99+

2024-04-02
Pytorch——报错解决：多卡训练超时错误Timed out initializing process group in store based barrier on rank

报错截图解决方法找到.conda/envs/bevdet/lib/python3.6/site-packages/torch/distributed/constants.py，修改默认时间从30...

99+

2023-09-07

pytorch 深度学习 python
一行代码解决PyTorch训练模型时突然出现的For debugging consider passing CUDA_LAUNCH_BLOCKING=1报错

一、问题描述今天在调试模型的代码，然后代码一直运行得好好地，就突然出现了一下的错误： RuntimeError: CUDA error: invalid device ordinal CUDA kernel error...

99+

2023-09-07

pytorch python
pytorch加载预训练模型与自己模型不匹配的解决方案

pytorch中如果自己搭建网络并且加载别人的与训练模型的话，如果模型和参数不严格匹配，就可能会出问题，接下来记录一下我的解决方法。两个有序字典找不同模型的参数和pth文件的参数...

99+

2024-04-02
解决报错：“slow_conv2d_cpu“ not implemented for ‘Half‘ | 训练DreamBooth

用了autodl上的镜像：CrazyBoyM/dreambooth-for-diffusion/dreambooth-for-diffusion:v3，在无卡模式下调试代码到时候，因为没有Cuda支持，无法使用半精度VAE模块进行推理，因此...

99+

2023-09-10

python 人工智能深度学习
详解pytorch的多GPU训练的两种方式

目录方法一：torch.nn.DataParallel1. 原理2. 常用的配套代码如下3. 优缺点方法二：torch.distributed1. 代码说明方法一：torch.nn....

99+

2024-04-02
解决Pytorch修改预训练模型时遇到key不匹配的情况

一、Pytorch修改预训练模型时遇到key不匹配最近想着修改网络的预训练模型vgg.pth，但是发现当我加载预训练模型权重到新建的模型并保存之后。在我使用新赋值的网络模型时出现...

99+

2024-04-02
解决Pytorch半精度浮点型网络训练的问题

用Pytorch1.0进行半精度浮点型网络训练需要注意下问题： 1、网络要在GPU上跑，模型和输入样本数据都要cuda().half() 2、模型参数转换为half型，不必索引到每层...

99+

2024-04-02
Tensorflow训练模型默认占满所有GPU的解决方案

目录Tensorflow训练模型默认占满所有GPU问题TensorFlow默认的是占用所有GPU解决tensorflow2.2把GPU显存占满解决代码总结Tensorflow训练模型...

99+

2023-05-12

Tensorflow训练 Tensorflow训练模型 Tensorflow训练默认占满GPU
PyTorch平方根报错的处理方案

问题描述初步使用PyTorch进行平方根计算，通过range()创建一个张量，然后对其求平方根。 a = torch.tensor(list(range(9))) b = to...

99+

2024-04-02
pytorch cuda安装报错的解决方法

目录一、按照cuda版本在官网找命令二、换源三、Bug描述四、解决方法五、查看是否使用GPU总结2022.12.8在win+cuda11.8下安装最新Pytorch GPU版时遇到包...

99+

2023-01-07

pytorch cuda安装 Pytorch cuda pytorch调用cuda
pytorch loss反向传播出错的解决方案

今天在使用pytorch进行训练，在运行 loss.backward() 误差反向传播时出错： RuntimeError: grad can be implicitly creat...

99+

2024-04-02
pandas merge报错的解决方案

pandas 做merge的时候报这个错： df22 = pd.merge(df1,df2,left_on='company_name',right_on = 'name',how...

99+

2024-04-02