首页 > 资讯 > 后端开发 > Python >详解model.train()和model.eval()两种模式的原理与用法

848

分享到

详解model.train()和model.eval()两种模式的原理与用法

model.train()原理用法 model.eval()原理用法 model.train()和model.eval() 2023-03-23 17:03:13 848人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

一、两种模式 PyTorch可以给我们提供两种方式来切换训练和评估(推断)的模式，分别是：model.train() 和 model.eval()。一般用法是：在训练开始之前写上

一、两种模式

PyTorch可以给我们提供两种方式来切换训练和评估(推断)的模式，分别是：model.train() 和 model.eval()。

一般用法是：在训练开始之前写上 model.trian() ，在测试时写上 model.eval() 。

二、功能

1. model.train()

在使用 pytorch 构建神经网络的时候，训练过程中会在程序上方添加一句model.train()，作用是启用 batch nORMalization 和 dropout 。

如果模型中有BN层（Batch Normalization）和 Dropout ，需要在训练时添加 model.train()。

model.train() 是保证 BN 层能够用到每一批数据的均值和方差。对于 Dropout，model.train() 是随机取一部分网络连接来训练更新参数。

2. model.eval()

model.eval()的作用是不启用 Batch Normalization 和 Dropout。

如果模型中有 BN 层（Batch Normalization）和 Dropout，在测试时添加 model.eval()。

model.eval() 是保证 BN 层能够用全部训练数据的均值和方差，即测试过程中要保证 BN 层的均值和方差不变。对于 Dropout，model.eval() 是利用到了所有网络连接，即不进行随机舍弃神经元。

为什么测试时要用 model.eval() ？

训练完 train 样本后，生成的模型 model 要用来测试样本了。在 model(test) 之前，需要加上model.eval()，否则的话，有输入数据，即使不训练，它也会改变权值。这是 model 中含有 BN 层和 Dropout 所带来的的性质。

eval() 时，pytorch 会自动把 BN 和 DropOut 固定住，不会取平均，而是用训练好的值。
不然的话，一旦 test 的 batch_size 过小，很容易就会被 BN 层导致生成图片颜色失真极大。
eval() 在非训练的时候是需要加的，没有这句代码，一些网络层的值会发生变动，不会固定，你神经网络每一次生成的结果也是不固定的，生成质量可能好也可能不好。

也就是说，测试过程中使用model.eval()，这时神经网络会沿用 batch normalization 的值，而并不使用 dropout。

3. 总结与对比

如果模型中有 BN 层(Batch Normalization）和 Dropout，需要在训练时添加 model.train()，在测试时添加 model.eval()。

其中 model.train() 是保证 BN 层用每一批数据的均值和方差，而 model.eval() 是保证 BN 用全部训练数据的均值和方差；

而对于 Dropout，model.train() 是随机取一部分网络连接来训练更新参数，而 model.eval() 是利用到了所有网络连接。

三、Dropout 简介

dropout 常常用于抑制过拟合。

设置Dropout时，torch.nn.Dropout(0.5)，这里的 0.5 是指该层（layer）的神经元在每次迭代训练时会随机有 50% 的可能性被丢弃（失活），不参与训练。也就是将上一层数据减少一半传播。

到此这篇关于详解model.train()和model.eval()两种模式的原理与用法的文章就介绍到这了,更多相关model.train()和model.eval()原理用法内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

--结束END--

本文标题: 详解model.train()和model.eval()两种模式的原理与用法

本文链接: https://lsjlt.com/news/201076.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

详解model.train()和model.eval()两种模式的原理与用法

一、两种模式

二、功能

1. model.train()

2. model.eval()

为什么测试时要用 model.eval() ？

3. 总结与对比

三、Dropout 简介

详解model.train()和model.eval()两种模式的原理与用法

【Pytorch】model.train() 和 model.eval() 原理与用法

Pytorch中的model.train() 和 model.eval() 原理与用法解析

Spring中AOP概念与两种动态代理模式原理详解

JAVA设计模式之备忘录模式原理与用法详解

Vue中Router路由两种模式hash与history详解

Java经典设计模式之责任链模式原理与用法详解

Android 两种启动模式的实例详解

Python中Dict两种实现的原理详解

一文详解Pinia和Vuex与两个Vue状态管理模式

vue中路由的两种模式以及实现原理

详解Linux 服务管理两种方式service和systemctl

Android事件处理的两种方式详解

详解IIS在ASP.NET Core下的两种部署模式

详解android与服务端交互的两种方式

详解python连接telnet和ssh的两种方式

详解Java单例模式的实现与原理剖析

npm与nrm两种方式查看源和切换镜像详解

MySQL 8.0用户和角色管理原理与用法详解

vue3的介绍和两种创建方式详解(cli和vite)

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义