返回顶部
首页 > 资讯 > 后端开发 > Python >分享Python 中的 7 种交叉验证方法
  • 172
分享到

分享Python 中的 7 种交叉验证方法

2024-04-02 19:04:59 172人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

目录一、什么是交叉验证?二、它是如何解决过拟合问题的?1、HoldOut 交叉验证2、K 折交叉验证3、分层 K 折交叉验证4、Leave P Out 交叉验证5、留一交叉验证6、蒙

在任何有监督机器学习项目的模型构建阶段,我们训练模型的目的是从标记的示例中学习所有权重和偏差的最佳值。

如果我们使用相同的标记示例来测试我们的模型,那么这将是一个方法论错误,因为一个只会重复刚刚看到的样本标签的模型将获得完美的分数,但无法预测任何有用的东西 - 未来的数据,这种情况称为过拟合。

为了克服过度拟合的问题,我们使用交叉验证。 所以你必须知道什么是交叉验证? 以及如何解决过拟合的问题?

一、什么是交叉验证?

交叉验证是一种用于估计机器学习模型性能的统计方法,它是一种评估统计分析结果如何推广到独立数据集的方法。

二、它是如何解决过拟合问题的?

在交叉验证中,我们将训练数据生成多个小的训练测试分割,使用这些拆分来调整您的模型。 例如,在标准的 k 折交叉验证中,我们将数据划分为 k 个子集。 然后,我们在 k-1 个子集上迭代训练算法,同时使用剩余的子集作为测试集。 通过这种方式,我们可以在未参与训练的数据上测试我们的模型。

在本文中,我将分享 7 种最常用的交叉验证技术及其优缺点,我还提供了每种技术的代码片段。

下面列出了这些技术方法:

  • HoldOut 交叉验证
  • K-Fold 交叉验证
  • 分层 K-Fold交叉验证
  • Leave P Out 交叉验证
  • 留一交叉验证
  • 蒙特卡洛 (Shuffle-Split)
  • 时间序列(滚动交叉验证)

1、HoldOut 交叉验证

在这种交叉验证技术中,整个数据集被随机划分为训练集和验证集。 根据经验,整个数据集的近 70% 用作训练集,其余 30% 用作验证集。

优点:

1.快速执行:因为我们必须将数据集拆分为训练集和验证集一次,并且模型将在训练集上仅构建一次,因此可以快速执行。

缺点:

  • 不适合不平衡数据集:假设我们有一个不平衡数据集,它具有“0”类和“1”类。 假设 80% 的数据属于“0”类,其余 20% 的数据属于“1”类。在训练集大小为 80%,测试数据大小为数据集的 20% 的情况下进行训练-测试分割。 可能会发生“0”类的所有 80% 数据都在训练集中,而“1”类的所有数据都在测试集中。 所以我们的模型不能很好地概括我们的测试数据,因为它之前没有看到过“1”类的数据。
  • 大量数据无法训练模型。

在小数据集的情况下,将保留一部分用于测试模型,其中可能具有我们的模型可能会错过的重要特征,因为它没有对该数据进行训练。

代码片段

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LoGISticRegression
from sklearn.metrics import accuracy_score
iris=load_iris()
X=iris.data
Y=iris.target
print("Size of Dataset {}".fORMat(len(X)))
logreg=LogisticRegression()
x_train,x_test,y_train,y_test=train_test_split(X,Y,test_size=0.3,random_state=42)
logreg.fit(x_train,y_train)
predict=logreg.predict(x_test)
print("Accuracy score on training set is {}".format(accuracy_score(logreg.predict(x_train),y_train)))
print("Accuracy score on test set is {}".format(accuracy_score(predict,y_test)))

2、K 折交叉验证

在这种 K 折交叉验证技术中,整个数据集被划分为 K 个相等大小的部分。 每个分区称为一个“折叠”。因此,因为我们有 K 个部分,所以我们称之为 K 折叠。 一折用作验证集,其余 K-1 折用作训练集。

该技术重复 K 次,直到每个折叠用作验证集,其余折叠用作训练集。

模型的最终精度是通过取k-models 验证数据的平均精度来计算的。

优点:

  • 整个数据集既用作训练集又用作验证集:

缺点:

  • 不用于不平衡的数据集:正如在 HoldOut 交叉验证的情况下所讨论的,在 K-Fold 验证的情况下也可能发生训练集的所有样本都没有样本形式类“1”,并且只有 类“0”。验证集将有一个类“1”的样本。
  • 不适合时间序列数据:对于时间序列数据,样本的顺序很重要。 但是在 K 折交叉验证中,样本是按随机顺序选择的。

代码片段:

from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score,KFold
from sklearn.linear_model import LogisticRegression
iris=load_iris()
X=iris.data
Y=iris.target
logreg=LogisticRegression()
kf=KFold(n_splits=5)
score=cross_val_score(logreg,X,Y,cv=kf)
print("Cross Validation Scores are {}".format(score))
print("Average Cross Validation score :{}".format(score.mean()))

3、分层 K 折交叉验证

分层 K-Fold 是 K-Fold 交叉验证的增强版本,主要用于不平衡的数据集。 就像 K-fold 一样,整个数据集被分成大小相等的 K-fold。

但是在这种技术中,每个折叠将具有与整个数据集中相同的目标变量实例比率。

优点:

  • 对于不平衡数据非常有效:分层交叉验证中的每个折叠都会以与整个数据集中相同的比率表示所有类别的数据。

缺点:

  • 不适合时间序列数据:对于时间序列数据,样本的顺序很重要。 但在分层交叉验证中,样本是按随机顺序选择的。

代码片段:

from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score,StratifiedKFold
from sklearn.linear_model import LogisticRegression
iris=load_iris()
X=iris.data
Y=iris.target
logreg=LogisticRegression()
stratifiedkf=StratifiedKFold(n_splits=5)
score=cross_val_score(logreg,X,Y,cv=stratifiedkf)
print("Cross Validation Scores are {}".format(score))
print("Average Cross Validation score :{}".format(score.mean()))

4、Leave P Out 交叉验证

Leave P Out 交叉验证是一种详尽的交叉验证技术,其中 p 样本用作验证集,剩余的 np 样本用作训练集。

假设我们在数据集中有 100 个样本。 如果我们使用 p=10,那么在每次迭代中,10 个值将用作验证集,其余 90 个样本将用作训练集。

重复这个过程,直到整个数据集在 p-样本和 n-p 训练样本的验证集上被划分。

优点:

  • 所有数据样本都用作训练和验证样本。

缺点:

  • 计算时间长:由于上述技术会不断重复,直到所有样本都用作验证集,因此计算时间会更长。
  • 不适合不平衡数据集:与 K 折交叉验证相同,如果在训练集中我们只有 1 个类的样本,那么我们的模型将无法推广到验证集。

代码片段

from sklearn.model_selection import LeavePOut,cross_val_score
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
iris=load_iris()
X=iris.data
Y=iris.target
lpo=LeavePOut(p=2)
lpo.get_n_splits(X)
tree=RandomForestClassifier(n_estimators=10,max_depth=5,n_jobs=-1)
score=cross_val_score(tree,X,Y,cv=lpo)
print("Cross Validation Scores are {}".format(score))
print("Average Cross Validation score :{}".format(score.mean()))

5、留一交叉验证

留一交叉验证是一种详尽的交叉验证技术,其中 1 个样本点用作验证集,其余 n-1 个样本用作训练集。

假设我们在数据集中有 100 个样本。 然后在每次迭代中,1 个值将用作验证集,其余 99 个样本作为训练集。 因此,重复该过程,直到数据集的每个样本都用作验证点。

它与使用 p=1 的 LeavePOut 交叉验证相同。

代码片段:

from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import LeaveOneOut,cross_val_score
iris=load_iris()
X=iris.data
Y=iris.target
loo=LeaveOneOut()
tree=RandomForestClassifier(n_estimators=10,max_depth=5,n_jobs=-1)
score=cross_val_score(tree,X,Y,cv=loo)
print("Cross Validation Scores are {}".format(score))
print("Average Cross Validation score :{}".format(score.mean()))

6、蒙特卡罗交叉验证(Shuffle Split)

蒙特卡罗交叉验证,也称为Shuffle Split交叉验证,是一种非常灵活的交叉验证策略。 在这种技术中,数据集被随机划分为训练集和验证集。

我们已经决定了要用作训练集的数据集的百分比和用作验证集的百分比。 如果训练集和验证集大小的增加百分比总和不是 100,则剩余的数据集不会用于训练集或验证集。

假设我们有 100 个样本,其中 60% 的样本用作训练集,20% 的样本用作验证集,那么剩下的 20%( 100-(60+20)) 将不被使用。

这种拆分将重复我们必须指定的“n”次。

优点:

  • 1.我们可以自由使用训练和验证集的大小。
  • 2.我们可以选择重复的次数,而不依赖于重复的折叠次数。

缺点:

  • 可能不会为训练集或验证集选择很少的样本。
  • 不适合不平衡的数据集:在我们定义了训练集和验证集的大小后,所有的样本都是随机选择的,所以训练集可能没有测试中的数据类别 设置,并且该模型将无法概括为看不见的数据。

代码片段:

from sklearn.model_selection import ShuffleSplit,cross_val_score
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
logreg=LogisticRegression()
shuffle_split=ShuffleSplit(test_size=0.3,train_size=0.5,n_splits=10)
scores=cross_val_score(logreg,iris.data,iris.target,cv=shuffle_split)
print("cross Validation scores:n {}".format(scores))
print("Average Cross Validation score :{}".format(scores.mean()))

7、时间序列交叉验证

什么是时间序列数据?

时间序列数据是在不同时间点收集的数据。由于数据点是在相邻时间段收集的,因此观测值之间可能存在相关性。这是区分时间序列数据与横截面数据的特征之一。

在时间序列数据的情况下如何进行交叉验证?

在时间序列数据的情况下,我们不能选择随机样本并将它们分配给训练集或验证集,因为使用未来数据中的值来预测过去数据的值是没有意义的。

由于数据的顺序对于时间序列相关问题非常重要,所以我们根据时间将数据拆分为训练集和验证集,也称为“前向链”方法或滚动交叉验证。

我们从一小部分数据作为训练集开始。基于该集合,我们预测稍后的数据点,然后检查准确性。

然后将预测样本作为下一个训练数据集的一部分包括在内,并对后续样本进行预测。

优点:

  • 最好的技术之一。

缺点:

  • 不适用于其他数据类型的验证:与其他技术一样,我们选择随机样本作为训练或验证集,但在该技术中数据的顺序非常重要。

代码片段:

import numpy as np
from sklearn.model_selection import TimeSeriesSplit
X = np.array([[1, 2], [3, 4], [1, 2], [3, 4], [1, 2], [3, 4]])
y = np.array([1, 2, 3, 4, 5, 6])
time_series = TimeSeriesSplit()
print(time_series)
for train_index, test_index in time_series.split(X):
    print("TRAIN:", train_index, "TEST:", test_index)
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

结论:

在本文中,我试图概述各种交叉验证技术的工作原理以及我们在实施这些技术时应牢记的事项,我真诚地希望在这个数据科学之旅中对你有所帮助。

到此这篇关于 分享python 中的 7 种交叉验证方法的文章就介绍到这了,更多相关Python 交叉验证方法内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: 分享Python 中的 7 种交叉验证方法

本文链接: https://lsjlt.com/news/141167.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 分享Python 中的 7 种交叉验证方法
    目录一、什么是交叉验证?二、它是如何解决过拟合问题的?1、HoldOut 交叉验证2、K 折交叉验证3、分层 K 折交叉验证4、Leave P Out 交叉验证5、留一交叉验证6、蒙...
    99+
    2024-04-02
  • Python中交叉验证的方法有哪些
    这篇文章主要介绍“Python中交叉验证的方法有哪些”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python中交叉验证的方法有哪些”文章能帮助大家解决问题。一、什么是交叉验证?交叉验证是一种用于估...
    99+
    2023-06-29
  • python留一交叉验证的实例
    目录python 留一交叉验证基本原理代码实现留一法交叉验证 Leave-One-Out Cross Validation我们用SKlearn库来实现一下LOOpython 留一交叉...
    99+
    2024-04-02
  • 验证手机号码的JS方法分享
    第一个:复制代码 代码如下:function Checkreg() { //验证电话号码手机号码,包含153,159号段 if (document.form.phone.value=...
    99+
    2022-11-15
    验证 手机号码 js
  • springboot验证码的生成与验证的两种方法
    目录前言效果一览(单击图片刷新验证码)一、使用整合kaptcha方式实现验证码生成与验证二、使用hutool-captcha方式实现验证码生成与验证前言 在springboot的登陆...
    99+
    2024-04-02
  • Python生成随机验证码的两种方法
    使用python生成随机验证码的方法有很多种,今天小编给大家分享两种方法,大家可以灵活运用这两种方法,设计出适合自己的验证码方法。 方法一: 利用range方法,对于range方法不清楚的同学,请参考文章《...
    99+
    2022-06-04
    两种 验证码 方法
  • python中常用的九种预处理方法分享
    本文总结的是我们大家在python中常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍; 1. 标准化(Standardization or Mean Removal and...
    99+
    2022-06-04
    常用 方法 python
  • dedecms自定义表单增加验证码的方法分享
    利用织梦内容管理系统(Dedecms)自带提供的自定义表单功能即可满足大多数的此类需求。   通过给自定义表单加入验证码的功能,可以防止一些用户恶意提交。   1、先进入DedeCMS后台生成自定义表单。   2、在自定...
    99+
    2022-06-12
    表单 验证码
  • 分享python 写 csv 文件的两种方法
    目录问题描述方法一: csv方法二: pandas问题描述 在深度学习相关任务的训练时,需要在训练的每个 epoch 记录当前 epoch 的准确率(如下图所示),那么在 pytho...
    99+
    2024-04-02
  • Python实现"验证回文串"的几种方法
    一、LeetCode——125.验证回文串 1.问题描述 给定一个字符串,验证它是否是回文串,只考虑字母和数字字符,可以忽略字母的大小写。 说明:本题中,我们将空字符串定义为有效的...
    99+
    2024-04-02
  • JS中表单提交验证的示例分析
    这篇文章将为大家详细讲解有关JS中表单提交验证的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。在进行表单提交时,需要对输入框和文本域等的value的合理性进行验证...
    99+
    2024-04-02
  • 在Python web中实现验证码图片代码分享
    系统版本: CentOS 7.4 Python版本: Python 3.6.1 在现在的WEB中,为了防止爬虫类程序提交表单,图片验证码是最常见也是最简单的应对方法之一。 1.验证码图片的生成 ̳...
    99+
    2022-06-04
    验证码 代码 图片
  • 分享几种python变量合并方法
    目录一、list 合并二、str 合并三、dict 合并一、list 合并 第一种方法: a =[91,95,97,99] b =[92,93,96,98] c = a+b  # 合...
    99+
    2024-04-02
  • 关于angular表单动态验证的一种新思路分享
    目录引言实现方案跨字段验证器重置验证规则重置FromGroup项总结引言 在项目中,我们有时候往往需要动表单的验证做动态的规划。比如在一个注册界面中同步注册两种用户,但两种用户的输入...
    99+
    2024-04-02
  • PHP验证码复制粘贴问题解决方法分享
    标题:PHP验证码复制粘贴问题解决方法分享 在网站开发过程中,验证码是一种常用的安全机制,用于防止恶意攻击和机器人恶意注册。然而,一些用户可能会尝试通过复制粘贴的方式绕过验证码,从而绕...
    99+
    2024-02-29
    验证码 php 解决方法 验证码生成
  • 7个Python中的隐藏小技巧分享
    目录前言1、功能属性2、不完整代码的占位符3、 eval() 函数4、在 Python 解析器中使用以下命令启动文件托管服务器5、无限参数6、Zip() 方法7、旋转列表前言 Pyt...
    99+
    2023-03-20
    Python隐藏技巧分享 Python隐藏技巧 Python技巧
  • SQL Server中交叉联接的使用方法
    这篇文章主要介绍“SQL Server中交叉联接的使用方法”,在日常操作中,相信很多人在SQL Server中交叉联接的使用方法问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”...
    99+
    2024-04-02
  • Java中ArrayList同步的2种方法分享
    目录方法1:使用 Collections.synchronizedList() 方法方法 2:使用 CopyOnWriteArrayList向量同步时为什么要使用arrayList?...
    99+
    2024-04-02
  • Python列表删除的三种方法代码分享
    1、使用del语句删除元素 >>> i1 = ["a",'b','c','d'] >>> del i1[0] >>> print(i1) ['b...
    99+
    2022-06-04
    三种 代码 方法
  • python 统计代码耗时的几种方法分享
    目录时间戳相减 装饰器 timeit模块 重复调用 timeit()cProfile性能分析工具 时间戳相减 在代码执行前后各记录一个时间点,两个时间戳相减即程序运行耗时。 获取时...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作