Python 官方文档:入门教程 => 点击学习
本文编写日期是:2023年4月. python开发环境是Anaconda 3.10版本,具体Anaconda的安装这里就不赘述了,基础来的。建议先完整看完本文再试,特别是最后安装过程经验分享,可以抑制安装过程中一些奇怪的念头,减少走弯路。
本文编写日期是:2023年4月. python开发环境是Anaconda 3.10版本,具体Anaconda的安装这里就不赘述了,基础来的。建议先完整看完本文再试,特别是最后安装过程经验分享,可以抑制安装过程中一些奇怪的念头,减少走弯路。
目录
首先确定你的电脑是N卡,也是英伟达的显卡,否则本文就不用看了。
在官网找到最新的驱动下载安装。
安装过程略过,全选,C盘安装。
安装完成后,CMD运行nvidia-smi,查看这个驱动支持的最高版本CUDA
或者入NVIDIA的控制面板查看:
也就是后面安装的CUDA版本,不能高于12.1
安装之前,最好先安装好Microsoft的 Visual Studio
安装 Visual Studio | Microsoft Learn
安装守后选好CUDA版本,此处是入口:CUDA 工具包下载
但是,先别急着下载安装,注意了!!!!!!!!!!!!!!!!!!!!!
如果运行的Tensorflow框架,那么要看最新的Tensorflow支持什么版本的CUDA,再进行安装。
(至于多版本CUDA同时共存的方法,可参考这位大佬的文章:CUDA版本共存方法
个人经验,不要急着研究多版本问题,后面有环境需求了,再慢慢看。)
回到Tensorflow支持的CUDA版本问题。
在本文件的发布时刻,Tensorflow在Native windows系统下,目前只支持到Tensorflow 2.10.1版本。意思就是:暂时不要了解太多,就安装到Tensorflow 2.10.1版本就够用了(目前还有2.11等版本)。具体原因,请读回官方文档:Tensorflow版本安装
注意需要转回英文页面,中文实在被阉割太多了。实在看不明白,复制出来翻译吧。原因简而言之就是Windows开始进军开源,在原生系统(Native Windows)下,整合出了一个Windows WSL2功能,也就是在Windows系统内,整合了linux系统的功能。相当于不用再为了两种系统,在机器上做双系统了,但实用性上来说,只能说,能用吧。具体关于WSL2的,网上有很多资料,此处不多说。参考另一大佬:WSL2的安装使用
对应Tensorflow 2.10.1的版本,目前支持到CUDA 11.8.0版本,下载CUDA Toolkit 11.8.0后默认C盘全选安装(我C盘很大,哈哈,我有两条990 1T SSD。其实是懒得自定义,后面也容易出错)。
如果以前安装过其他版本的tensorflow,强烈建议使用以下命令卸载:
pip uninstall tensorflow # 卸载旧版本的tensorflow
pip uninstall tensorflow-intel # 卸载intel版本的tensorflow,一般没有
pip uninstall tensorflow-gpu #卸载老的GPU版本
tensorflow从2.x版本后已将CPU版和GPU版进行合并,所以不要使用pip install tensorflow-gpu了,成功了也是旧版本的。这使用以下命令进行安装:
pip install tensorflow=2.10.1
这里不用conda安装,也不要添加国内的镜像源,原因后面会说,速度会比较慢,但值得等待!
下载CUDA 11.8.0 版本的cuDNN加速包,版本是V8.8.1 for CUDA 11.x 官方地址在:cuDNN下载地址
下载后解压,将解压后的三个文件夹bin、lib、include复制到安装目录下,合并。
配置环境变量
以上可以看到CUDA 11.8.0安装完成后,已经设置在环境变量公有路径。
接下来配置CUDA和CUDNN的路径,去到PATH变量名下,点击编辑:
添加如图中所示的环境变量V11_8的5个变量,缺一不可,这里用的是短地址,默认安装路径下,为C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8
(对了,如果你看不到这个环境变量清单,只看到一行文本,那是因为你的第一个变量是个短地址,随便添加一个C:\或者把已有的长地址移到第一行,后保存重新打开就有了)
保存,建议重启电脑,可以先等会。
查算力,按照下图,CD到安装地址,运行deviceQuery.exe 。不要羡慕哥,没错,又在显摆4090了。
再运行 bandwidthTest.exe
以上两者都的结果都是PASS,则说明暂时配置成功。
1,如果以下代码运行得到如注释所示的结果,则证明安装成功。
import tensorflow as tfprint("Num GPUs Available: ", len(tf.config.list_physical_devices('GPU')))#这一行输出至少是数量1,说明有1个显卡print("CUDA Available:", tf.test.is_built_with_cuda())#这一行要输出Trueprint("GPU Support:", tf.test.is_built_with_gpu_support())#这一行也要输出True
2,就算安装成功,也要运行一下以下代码,看计算过程会不会调用GPU:
tf.debugging.set_log_device_placement(True)# Create some tensorsa = tf.constant([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0]])b = tf.constant([[1.0, 2.0], [3.0, 4.0], [5.0, 6.0]])c = tf.matmul(a, b)print(c)
如果显示的是如下图CPU字样,就很遗憾了,4090也没得得瑟,调用的还是CPU。如果结果有下图2中的GPU字样,那么恭喜,一次成功。
如果没有成功,先不急,说明系统有旧的版本或者安装版本还是不对,需要重新装过,本人也是经历了几次才装成功。
以上,说明已经成功安装Tensorflow2.10.1,成功调用CUDA,但,还不知道能不能成功启用CUDNN加速器。所以,用以下代码进行测试:
import osos.environ["CUDA_VISIBLE_DEVICES"]="0"import numpy as npimport tensorflow as tffrom tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense, Dropout, Conv2D, MaxPool2D, Flattenfrom tensorflow.keras.datasets import mnistfrom tensorflow.keras.utils import to_cateGoricalfrom tensorflow.keras.callbacks import TensorBoardimport timefrom tensorflow.python.client import device_libdef create_model(): model = Sequential() model.add(Conv2D(32, (5, 5), activation='relu', input_shape=[28, 28, 1])) model.add(Conv2D(64, (5, 5), activation='relu')) model.add(MaxPool2D(pool_size=(2, 2))) model.add(Flatten()) model.add(Dropout(0.5)) model.add(Dense(128, activation='relu')) model.add(Dropout(0.5)) model.add(Dense(10, activation='softmax')) return modeldef compile_model(model): model.compile(loss='categorical_crossentropy', optimizer="adam", metrics=['acc']) return modeldef train_model(model, x_train, y_train, batch_size=128, epochs=10): tbCallBack = TensorBoard(log_dir="model", histogram_freq=1, write_grads=True) history = model.fit(x_train, y_train, batch_size=batch_size, epochs=epochs, shuffle=True, verbose=2,validation_split=0.2, callbacks=[tbCallBack]) return history, modelif __name__ == "__main__": print(tf.__version__) print(device_lib.list_local_devices()) (x_train, y_train), (x_test, y_test) = mnist.load_data() print(np.shape(x_train), np.shape(y_train), np.shape(x_test), np.shape(y_test)) x_train = np.expand_dims(x_train, axis=3) x_test = np.expand_dims(x_test, axis=3) y_train = to_categorical(y_train, num_classes=10) y_test = to_categorical(y_test, num_classes=10) print(np.shape(x_train), np.shape(y_train), np.shape(x_test), np.shape(y_test)) model = create_model() model = compile_model(model) print("start Time") ts = time.time() history, model = train_model(model, x_train, y_train, epochs=2) print("Time consumption:", time.time() - ts)
能够成功输出结果,则基本就是成功了。博主在跑这段程序的时候,Jupyter出现报错:The kernel appears to have died. It will restart automatically.
GPU也直接退出运算。
查看Jupyter后台,报错文为:Could not locate zlibwapi.dll. Please make sure it is in your library path!
查看官方文档,Installation Guide :: NVIDIA Deep Learning cuDNN Documentation ,意思是缺少zlibwapi.dll动态库文件,点击红色部分下载,但从Nvidia官网是无法成功下载的:
只能从Zlibdll官网下载:zlibwapi.dll下载,但是下载的时候要看清楚自己的系统是32位还是64位的,一般现在都是Intel EM64T,也就是英特尔64位系统, 点击下载。
下载后的文件如下:
分别复制文件到以下地址:
博主一开始因为下载成了32位的文件包,复制进去后运行报错:Could not load library zlibwapi.dll. Error code 193. 英文能力需要提升啊,There看成It.
以上是关于Tensorflow2.0在N卡上运行的具体配置,基本上是当前在原生Windows系统下,所能安装的最高版本的程序,各个程序的版本如下,一定要安装对版本:
接下来,安装另一个图像处理框架:PyTorch
前面设置对了,这个安装相对就比较顺利了,进入官网:PyTorch
按照自己的系统配置以及安装 的CUDA版本,运行安装即可:
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
接着运行检测程序:
import torchprint(torch.cuda.is_available())print(torch.__version__)
运行结果如下,说明PyTorch也成功调用显卡。
再运行测试程序:
import timeimport torchimport torchvisionfrom torch import nnfrom torch.utils.data import DataLoaderfrom torch.utils.tensorboard import SummaryWriterdevice = torch.device("cuda")train_data = torchvision.datasets.CIFAR10('../dataset', True, transfORM=torchvision.transforms.ToTensor(), download=True)test_data = torchvision.datasets.CIFAR10('../dataset', False, transform=torchvision.transforms.ToTensor(), download=True)train_data_size = len(train_data) test_data_size = len(test_data) print("训练集长度:{}, 测试集长度:{}".format(train_data_size, test_data_size))# 用 DataLoader加载数据集train_dataloader = DataLoader(train_data, batch_size=64)test_dataloader = DataLoader(test_data, batch_size=64)# 创建网络模型class Model(nn.Module): def __init__(self): super(Model, self).__init__() self.model = nn.Sequential( nn.Conv2d(3, 32, 5, 1, 2), nn.MaxPool2d(2), nn.Conv2d(32, 32, 5, 1, 2), nn.MaxPool2d(2), nn.Conv2d(32, 64, 5, 1, 2), nn.MaxPool2d(2), nn.Flatten(), nn.Linear(64*4*4, 64), nn.Linear(64, 10) ) def forward(self, x): x = self.model(x) return xmodel = Model()model.to(device)# 损失函数loss_fn = nn.CrossEntropyLoss()loss_fn.to(device)# 优化器learning_rate = 0.01 # 1e-2 = 10^-2optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)# 设置训练网络的参数total_train_step = 0 # 训练次数total_test_step = 0 # 测试次数epoch = 10 # 训练轮数# 添加tensorboardwriter = SummaryWriter("../logs_train")for i in range(epoch): print("--------------第{}轮训练开始---------------".format(i+1)) # 训练开始 model.train() for data in train_dataloader: if total_train_step % 100 == 1: start_time = time.time() imgs, targets = data imgs = imgs.to(device) targets = targets.to(device) outputs = model(imgs) loss = loss_fn(outputs, targets) # 优化器优化模型 optimizer.zero_grad() loss.backward() optimizer.step() total_train_step += 1 if total_train_step % 100 == 0: end_time = time.time() print("训练次数:{},loss:{:.3f},time:{:.3f}".format(total_train_step, loss.item(), end_time-start_time)) writer.add_Scalar('train_loss', loss.item(), total_train_step) # 测试开始 model.eval() total_test_loss = 0 total_accuracy = 0 # 整体正确预测的个数 with torch.no_grad(): # 清空梯度 for data in test_dataloader: imgs, targets = data imgs = imgs.to(device) targets = targets.to(device) outputs = model(imgs) loss = loss_fn(outputs, targets) total_test_loss += loss accuracy = (outputs.argmax(1) == targets).sum() total_accuracy += accuracy print("测试集上的平均loss: {:.3f}".format(total_test_loss/len(test_dataloader))) print("整体测试集上的正确率:{:.3f}".format(total_accuracy/test_data_size)) writer.add_scalar('test_loss', total_test_loss, total_test_step) writer.add_scalar('test_accuracy', total_accuracy/test_data_size, total_test_step) total_test_step += 1 # 保存训练模型 # torch.save(model, "../model_data/model_{}.pth".format(i+1)) if i % 100 == 0: torch.save(model.state_dict(), "../model_data/model_{}.pth".format(i + 1)) print("模型已保存!")writer.close()
速度简直飞起:
以上,就是所有的安装过程,其实过程并不像上面写的这么顺利:
关于版本的问题由于一开始太过兴奋,直接下载了CUDA12.1安装,后面发现在Tensorflow2.10.1无法运行CUDA12.1,又下载了CUDA11.8,再后面又研究了怎么双版本CUDA,12.1与11.8的共存方法,并做了设置。 结果一直检测不到GPU。
过程中还卸载了Tensorflow,重新安装 Tensorflow。还在pip和conda的安装方式下纠结。一开始安装的是Tensorflow2.10.0,卸载又重新安装,结果在重新安装过程中按了退出,导致整个Tensorflow的库坏掉,不得不重新来过。
最后的解决方法是:先卸载CUDA 12.1,以及删除对应的复制的CUDNN文件,同时删除设置的环境变量。然后卸载Anaconda。清理一下清册表,重启。
重新安装一次CUDA 11.8, 安装之前需要安装微软的Visual Studio.安装教程如安装 Visual Studio | Microsoft Learn
重新安装pip 安装Tensorflow 2.10.1,个人不太喜欢用Conda安装,Anaconda有时没有最新的文件包,所以还是选择从Pypi源下载,但是速度超级慢,用了5个小时,开机过夜下载完的。这里特别要强调的是,对于这些比较大的而且停更的关键库,最好不要用国内镜像源,虽然飞快,但博主中间试过一次,还是会报错是的,库不完全。而且现在很多国内源对它停更了,即使是Tsinghua源也不能保证一定能行,比如以下玩法就失败了,显示成功安装,但调用不了。
pip install tensorflow==2.10.1 -i Https://pypi.tuna.tsinghua.edu.cn/simple#选择国内清华Pypi源安装
总结以上,对于无法调用GPU的问题,大多数还是各个程序的版本不对应,本文的版本匹配是博主亲测成功的。
对于网传还有这么一个Tensorflow, CUDAToolkit, CUDNN, Python版本的对应表,也是官网的版本对应表:Build from source on Windows | TensorFlow
其实这个对应表是针对上文提及的Tensorflow-gpu版本的,也就是旧的Tensorflow版本,在Tensorflow2.0版本中已经将gpu版本合并了,并不需要单独pip tensorflow-gpu。所以这里看到的CUDA及CUDNN版本都相对比较旧,其实按照这个版本安装理论上也是可行的,特别是针对一些旧的显卡。
另外,在一些英文教程中,还提到了直接conda 安装CUDA和CUDNN, 直接一行搞定,但前提也是要搞清楚各个程序的版本对应。相对来说就没有那么麻烦,不用下载CUDAToolkit手动安装以及CUDNN的配置,本人没有亲测过,不过在上一台独显笔记本电脑中,误打误撞安装上了,也是可行的,但Conda的库更新没那么及时,现在用以下语句安装的话,会报错找不到版本为8.8.1的cudnn包,降级cudnn的包版本也许可行,这里就不测试了,折腾几天终于可以跑了。
所以个人还是推荐手动安装CUDA和CUDNN。
conda install -c conda-forge cudatoolkit=11.8 cudnn=8.8.1
来源地址:https://blog.csdn.net/dogoogle/article/details/129979185
--结束END--
本文标题: 全网最新最全的基于Tensorflow和PyTorch深度学习环境安装教程: Tensorflow 2.10.1 加 CUDA 11.8 加 CUDNN8.8.1加PyTorch2.0.0
本文链接: https://lsjlt.com/news/442903.html(转载时请注明来源链接)
有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341
2024-03-01
2024-03-01
2024-03-01
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
回答
回答
回答
回答
回答
回答
回答
回答
回答
回答
0