首页 > 资讯 > 精选 >基于CUDA out of memory的解决方法是什么

360

分享到

基于CUDA out of memory的解决方法是什么

2023-07-05 04:07:00 360人浏览泡泡鱼

摘要

今天小编给大家分享一下基于CUDA out of memory的解决方法是什么的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收

今天小编给大家分享一下基于CUDA out of memory的解决方法是什么的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。

CUDA out of memory的解决

我的输入样本维度是(1000,12,24,72)，一开始我是这么输入数据的：

trainer.train(x_train, t_train, x_val, t_val)

发现必溢出，后来我取出其中400个样本输入：

trainer.train(x_train[:400], t_train[:400], x_val, t_val)

发现不溢出了，训练正常，然后我把400删掉，但没删冒号：

trainer.train(x_train[:], t_train[:], x_val, t_val)

竟然也没有溢出！！！虽然训练速度降了，但是也能正常训练，我不是很懂原理是啥，好神奇！

但是样本量一大起来，即使用冒号法还是可能会溢出。比方说我后来把4000个样本作为x/t_train：

>>>x_train.shape(4000,12,24,72)>>>t_train.shape(4000,24)>>>trainer.train(x_train[:], t_train[:], x_val, t_val)RuntimeError:CUDA out of memory...

之所以说“可能”会溢出，是因为确实是有小概率能正常训练的，但是大部分情况还是会out of memory…

再附上两个我昨天看到的两种不同的解决方案。

一个是减少带梯度的中间变量（即非叶子节点）。简言之，能一行代码搞定的，尽量不要写成多行，即使写成多行，也要尽可能减少新变量的建立。

另一个是在eval的时候，让所有的变量都不带梯度。只需要添加一行代码：

with torch.no_grad():    outputs = Net_(inputs)

在with语句里的所有变量requires_grad都是False。

CUDA error: out of memory问题

本人遇到的问题是在训练是正常，一到验证时就会出现cuda error: out of memory的问题

解决思路溯寻

首先就是考虑减少batch_size和num_worker，对于我的情况不奏效

然后找到pin_memory发现是设置的True，改为false，仍旧不管用

包括把

 # Empty GPU cache        if torch.cuda.is_available():            torch.cuda.empty_cache()

放到报错位置的前后，不奏效

后来再聚焦问题关键，是一到验证就会出问题，所以专门查攻略，我初步怀疑是因为验证没有参与反向传播，梯度累积，内存爆了，但当时代码中有with torch.no_grad(): ，所以并没有发现关键，知道看到别人里面 forWord是放在with torch.no_grad()后面的，所以最后

with torch.no_grad():                # Forward pass                loss, np_probs, hv_logits = self.forward(images, targets)

以上就是“基于CUDA out of memory的解决方法是什么”这篇文章的所有内容，感谢各位的阅读！相信大家阅读完这篇文章都有很大的收获，小编每天都会为大家更新不同的知识，如果还想学习更多的知识，请关注编程网精选频道。

--结束END--

本文标题: 基于CUDA out of memory的解决方法是什么

本文链接: https://lsjlt.com/news/349648.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

基于CUDA out of memory的解决方法是什么

CUDA out of memory的解决

CUDA error: out of memory问题

解决思路溯寻

基于CUDA out of memory的解决方法是什么

粗暴解决CUDA out of memory的问题

如何解决CUDA out of memory的问题

【ERROR】ORA-27102: out of memory 解决方法

基于SimpleFramework的Enterprise2.0解决方案是什么

基于Java递归算法的封装解决方法是什么

adb出现adb server is out of date时的解决的方法

基于flashback_scn的expdp导出方法是什么

Java中关于OOM的场景及解决方法是什么

基于maven install 没反应的解决方法

基于Python搭建个人云盘的方法是什么

基于React封装一个组件的方法是什么

关于Opensuse双系统的问题和解决方法是什么

golang pprof监控memory block mutex使用的方法是什么

ASP.NET MVC基于异常处理的解决方法

recorder.js基于Html5录音功能的实现方法是什么

基于Harbor构建docker私有仓库的方法是什么

基于端口的虚拟主机测试方法是什么

基于域名的虚拟主机配置方法是什么

mysql乱码的解决方法是什么

使用golang框架有哪些常见的问题？

golang框架与其他流行框架的比较？

如何使用 C++ STL 扩展 C++ 语言的功能？

PHP 框架安全指南：如何实现安全编码实践？

mysql拆分函数使用要注意哪些事项

C++ 思维导图：全面整理编程核心知识

基于社区支持最强大的PHP框架

如何在 C++ 中有效使用 STL 函数对象？

PHP 框架中的调试和故障排除技术

经验丰富的开发者的PHP框架评估指南