返回顶部
首页 > 资讯 > 服务器 >服务器上运行跑深度学习代码(一)
  • 767
分享到

服务器上运行跑深度学习代码(一)

深度学习服务器python 2023-09-12 16:09:56 767人浏览 安东尼
摘要

文章目录 重现论文里的代码更新服务器python版本程序提示torch 找不到CUDA!!!文件中路径的选择batch size 的设置与程序的运行有关系? 重现论文里的代码 我准备复

文章目录

重现论文里的代码

我准备复现的是Point2roof的代码。这是第一次复现论文代码,所以记录一下^ _ ^。

GitHub找到他的项目point2roof项目
先把工程down下来 ^ _ ^ 。
看他工程里面提供的README。
在这里插入图片描述
这篇里面提到他的数据集,我也顺便下载下来了。目前只是想跑一下代码,好像没必要下载数据集?
接下来按照他说的安装环境。
在这里插入图片描述
我这里是先从网上把PyTorch下载到本地,然后通过WinSCP拖到实验室的服务器里面。WinSCP使用过程就不介绍了。

主要是下载时要注意服务器里面的python的版本。
服务器里面已经安装了CUDA驱动和 Anaconda ,我们几个共用一个账号,前面的兄弟已经装起来了,所以我直接用现成的。
他记录的配置环境的博客Linux服务器上配置论文代码环境。


先看服务器上的Python版本。
在这里插入图片描述
乌龙了!我之前服务器没没进去,查看的时本地的python版本,所以下载的时3.9版本的。(T_T)。
在这里插入图片描述

PyTorch下载的时候要看CUDA的版本和自己python的版本。

查看CUDA版本命令如下:
在这里插入图片描述

对了CUDA是使用GPU的时候选的版本,如果时使用CPU的话,选CPU的版本就好。下载地址PyTorch下载地址
感觉python版本是不是可以根据

更新服务器python版本

搞错了,这里应该先用conda创建虚拟环境,之后再安装更新python。

conda 创建虚拟环境
在这里插入图片描述
先查看一下已经创建的虚拟环境。

conda 创建虚拟环境的命令为:conda create -n your_env_name python=3.9
在这里就可以选择python的版本。

在这里插入图片描述

删除配置的虚拟环境:conda env remove --name your_env_name

删除前面测试时配置的虚拟环境pointnet

在这里插入图片描述
现在激活我们创建的point2roof虚拟环境。conda activate your_env_name
推出命令是:conda deactivate
在这里插入图片描述

现在开始安装PyTorch (灬ºωº灬)
在这里插入图片描述
先进入自己下载的安装包的路径下。然后使用pip install torch-1.9.1+cu102-cp39-cp39-linux_x86_64.whl 开始安装

安装完成进入python验证一下。
在这里插入图片描述
安装成功。

按照README提示的命令运行一下。
在这里插入图片描述
然后到有test.py 的路劲下命令行输入:python test.py
按照提示缺什么包就安装什么包。
需要注意的是
安装 yaml这个库pip 里要加py前缀
安装sklearn时使用的时scikit-learn这个包。

在这里插入图片描述
在这里插入图片描述

——>遇到找不到路径的问题时,按照提示修改路劲。

程序提示torch 找不到CUDA!!!

我在外面检查torch时显示找到了CUDA,但是程序开始跑的时候,就找不到CUDA!!!
在这里插入图片描述
看了这篇No CUDA GPUs are available问题解决我在最前面加了

print(torch.cuda.is_available())

在这里插入图片描述

不在报这个错误了!!

文件中路径的选择

看清楚服务器中当前程序运行时的路径是什么!!!
我的是在这里
在这里插入图片描述

完整的路径应该是“/home/c1316/hqq/point2roof/Point2Roof-master/model_cfg.yaml”
要看vscode打开的路劲,而不是test.py文件所在路径

(感觉理解有点问题!!!!)

test.txt中的路径修改为如下
在这里插入图片描述

batch size 的设置与程序的运行有关系?

原始程序batch size设置为1.我运行,就会莫名奇妙奔溃,有时会如下错误报错
在这里插入图片描述
报错如下:
在这里插入图片描述
看这篇<测试模型时RuntimeError: >说调整batch size 大小就可以改善。我设置为20 有时能跑,有时又跑不起来,始终跑不完.如下:
在这里插入图片描述
运行到这就奔溃了!!!T_T
值调整为40 程序能跑完,但是结果不太正确!
在这里插入图片描述
边缘精度为nan.
不知道哪里出错了!!

但是这个环境应该是可以了吧!
(batch size 不会影响影响程序的,如果过大会导致资源不够会溢出,过小应该不会又问题!!!)
后面针对这个问题在找一下具体原因。- _ -!!!

来源地址:https://blog.csdn.net/qq_35021992/article/details/129404925

--结束END--

本文标题: 服务器上运行跑深度学习代码(一)

本文链接: https://lsjlt.com/news/404757.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作