返回顶部
首页 > 资讯 > 后端开发 > Python >R语言数据挖掘实战系列(3)
  • 407
分享到

R语言数据挖掘实战系列(3)

实战数据挖掘语言 2023-01-31 03:01:14 407人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

R语言数据挖掘实战系列(3)三、数据探索        通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索。数据质量分析        数据质量分析的主要任务是检查原始数据中是否存在

R语言数据挖掘实战系列(3)

三、数据探索

        通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索。

数据质量分析

        数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。常见的脏数据包括:缺失值、异常值、不一致的值、重复数据及含有特殊符号的数据。

        缺失值分析

        数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失。产生的原因有(1)有些信息暂时无法获取,或者获取信息的代价太大;(2)有些信息是被遗漏的;(3)属性不存在。缺失值的影响有(1)数据挖掘建模将丢失大量的有用信息;(2)数据挖掘模型所表现出的不确定性更加显著,模型中蕴含的规律更难把握;(3)包含空值的数据会使建模过程陷入混乱,导致不可靠的输出。缺失值分析:使用简单的统计分析,可以得到含有缺失值的属性的个数、以及每个属性的未缺失数、缺失数与缺失率等。缺失值处理,从总体上来说分为删除存在缺失值的记录、对可能值进行插补和不处理三种情况。

        异常值分析

        异常值分析是检验数据是否有录入错误以及含有不合常理的数据。异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值又称为离群点,异常值分析也成为离群点分析。

        (1)简单统计量分析。对变量做一个描述性统计,进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值,用来判断这个变量的取值是否超出了合理的范围。

        (2)3σ原则。如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过三倍标准差的值。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。

        (3)箱型图分析。箱型图提供了识别异常值的一个标准:异常值通常被定义为小于QL-1.5IQR或大于QU+1.5IQR的值。QL称为下四分位数,表示全部观察值中有四分之一的数据取值比它小;QU称为上四分位数,表示全部观察值中有四分之一的数据取值比它大;IQR称为四分位数间距,是上四分位数QU与下四分位数QL之差,其间包含了全部观察值的一半。

        一致性分析

        数据的不一致是指数据的矛盾性、不相容性。在数据挖掘过程中,不一致数据的产生主要发生在数据集成的过程中,可能是由被挖掘数据来自于不同的数据源、对于重复存放的数据未能进行一致性更新造成的。

数据特征分析

        分布分析

        分布分析能揭示数据的分布特征和分布类型。

        1.定量数据的分布分析

        对于定量变量,选择“组数”和“组宽”是做频率分布分析时最主要的问题,一般按照以下步骤:(1)求极差;(2)决定组距与组数;(3)决定分点;(4)列出频率分布表;(5)绘制频率分布直方图。遵循的主要原则有:各组之间必须是相互排斥;各组必须将所有的数据包含在内;各组的组宽最好相等。

        2.定性数据的分布分析

        对于定性变量,通常根据变量的分类类型来分组,可以采用饼形图和条形图来描述定性变量的分布。

        对比分析

        对比分析是指把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。特别适用于指标间的横纵向比较、时间序列的比较分析。对比分析的关键在于选择合适的对比标准。对比分析主要有两种形式:绝对数比较,相对数比较(由两个有联系的指标对比计算的,用以反映客观现象之间数量联系程度的综合指标,其数值表现为相对数。相对数可以分为结构相对数、比例相对数、比较相对数、强度相对数、计划完成程度相对数和动态相对数。)

        统计量分析

        用统计指标对定量数据进行统计描述,通常从集中趋势和离中趋势两个方面进行分析。平均水平的指标是对个体集中趋势的度量,使用最广泛的是均值和中位数;反应变异程度的指标则是对个体离开平均水平的度量,使用较广泛的是标准差(方差)、四分位数间距。

        1.集中趋势度量

        均值、中位数、众数

        2.离中趋势分析

        极差、标准差、变异系数(度量标准差相对于均值的离中趋势,计算公式为:CV=标准差/均值×100%)、四分位数间距(四分位数间距是上四分位数QU与下四分位数QL之差,其间包含了全部观察值的一半。其值越大,说明数据的变异程度越大,反之,说明变异程度越小。)

        周期性分析

        周期性分析是探索某个变量是否随时间变化而呈现某种周期变化趋势。

        贡献度分析

        贡献度分析又称帕累托分析,它的原理是帕累托法则又称20/80定律。

        相关性分析

        分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。

        1.直接绘制散点图

        判断两个变量是否具有线性相关关系最直观的方法是直接绘制散点图。

        2.绘制散点图矩阵

        需要同时考察多个变量间的相关关系时,可利用散点图矩阵来同时绘制各变量间的散点图,从而快速发现多个变量间的主要相关性。

        3.计算相关系数

        在二元变量的相关分析过程中比较常用的有Pearson相关系数、Spearman秩相关系数和判定系数。Pearson相关系数一般用于分析两个连续性变量之间的关系,并且要求连续变量的取值服从正态分布。不服从正态分布的变量,分类或等级变量之间的关联性可采用Spearman秩相关系数来描述。

        易知,只要两个变量具有严格单调的函数关系,那么它们就是完全Spearman相关的,然而,Pearson相关只有在变量具有线性关系时才是完全相关的。研究表明,在正态分布假定下,Spearman秩相关系数与Pearson相关系数在效率上是等价的,而对于连续测量数据,更适合用Pearson相关系数进行分析。

        判定系数。判定系数是相关系数的平方,用r2表示;用来衡量回归方程对y的解释程度。判定系数取值范围:0≤r2≤1。r2越接近于1,表明x与y之间的相关性越强;r2越接近于0,表明两个变量之间几乎没有线性相关关系。

R语言主要数据探索函数

        统计特征函数

        统计特征函数用于计算数据的均值、方差、标准差、分位数、相关系数、协方差等,这些统计特征能反映出数据的整体分布。

函数名函数功能
mean()计算数据样本的算术平均数
exp(mean(log()))计算数据样本的几何平均数
var()计算数据样本的方差
sd()计算数据样本的标准差
cor()计算数据样本的相关系数矩阵
cov()计算数据样本的协方差矩阵
moment()计算数据样本的指定阶中心距
summary()计算数据样本的均值、最大值、最小值、中位数、四分位数

        统计作图函数

        通过统计作图函数绘制的图表可以直观地反映出数据及统计量的性质及其内在规律,如盒图可以表示多个样本的均值,误差条形图能同时显示下限误差和上限误差,最小二乘拟合曲线图能分析两变量间的关系。

作图函数名作图函数功能
barplot()绘制简单条形图
pie()绘制饼形图
hist()绘制二维条形直方图,可显示数据的分配情形
boxplot()绘制样本数据的箱型图
plot()绘制线性二维图、折线图、散点图


--结束END--

本文标题: R语言数据挖掘实战系列(3)

本文链接: https://lsjlt.com/news/187593.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • R语言数据挖掘实战系列(3)
    R语言数据挖掘实战系列(3)三、数据探索        通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索。数据质量分析        数据质量分析的主要任务是检查原始数据中是否存在...
    99+
    2023-01-31
    实战 数据挖掘 语言
  • 「数据挖掘入门系列」Python快速入门
    Python环境搭建本次入门系列将使用Python作为开发语言。要使用Python语言,我们先来搭建Python开发平台。我们将基于Python 2.7版本、以及Python的开发发行版本Anaconda版本来开发。Anacond...
    99+
    2021-03-07
    「数据挖掘入门系列」Python快速入门
  • Python3数据分析与挖掘建模实战视频
    第1章 课程介绍【赠送相关电子书+随堂代码】 本章首先介绍本课程是什么,有什么特色,能学习到什么,内容如何安排,需要什么基础,是否适合学习这门课程等。然后对数据分析进行概述,让大家对数据分析的含义和作用有一个整体的认知,让大家对自己接下来...
    99+
    2023-01-31
    建模 实战 数据
  • 自编R语言小程序助力孟德尔随机化(Mendelian Randomization)数据挖掘
    咱们再前两期已经对孟德尔随机化进行了一个初步的介绍,孟德尔随机化步骤相对简单固定,一共就是3步,但是如果我们一个一个的对研究变量和结果数据进行筛选,也是挺费时间的,我随手写了一个R的小程序可以帮助咱们...
    99+
    2023-10-09
    r语言 小程序 开发语言
  • R语言实现用cbind合并两列数据
    我有两个数据文件,分别只有一列,这两列数据行数一行,我想把这两列合并到一个数据文件中,方便使用。 我的两个数据文件分别是1.txt,2.txt,保存后的文件名是3.txt。 //...
    99+
    2024-04-02
  • R语言apply系列函数如何使用
    这篇文章主要讲解了“R语言apply系列函数如何使用”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“R语言apply系列函数如何使用”吧!R语言的循环效率并不高,所以并不推荐循环以及循环嵌套。...
    99+
    2023-07-05
  • r语言怎么将多列数据合并一列
    在R语言中,可以使用c()函数将多列数据合并成一列。以下是合并多列数据为一列的示例代码: # 创建示例数据 col1 ...
    99+
    2023-10-24
    r语言
  • r语言怎么将多列数据合并
    在R语言中,可以使用`cbind()`函数将多个列数据合并在一起。该函数将按列连接数据。以下是一个示例:```R# 创建两个数据向量...
    99+
    2023-09-14
    r语言
  • R语言-如何定义数据框的列名
    1.在定义数据框时,定义列名: 例如: a<-c(2,23,45,6,7,1,6,7) b<-c(4,6,1,2,5,66,10,2...
    99+
    2024-04-02
  • R语言列表和数据框怎么使用
    本篇内容主要讲解“R语言列表和数据框怎么使用”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“R语言列表和数据框怎么使用”吧!1.列表列表“list”是一种比较的特别的对象集合,不同的序号对于不同的...
    99+
    2023-06-26
  • R语言中对数据框的列名重命名的实现
    报错类型 Error: All arguments must be named plyr中的rename和dplyr中的rename用法是不同的. plyr::rename ...
    99+
    2024-04-02
  • R语言列表和数据框的具体使用
    目录1.列表1.1创建1.2 访问 1.3 注意2.数据框2.1 创建2.2 访问1.列表 列表“list”是一种比较的特别的对象集合,不同的序号对...
    99+
    2024-04-02
  • R语言中的列表数据类型有哪些
    在R语言中,列表(list)是一种非常灵活和强大的数据类型,可以存储不同类型的数据,也可以嵌套存储其他列表。以下是列表数据类型的一些...
    99+
    2024-04-03
    R语言
  • R语言实现操作MySQL数据库
    用R语言做数据分析时,常常需要从多种数据源取数据,其中数据库是非常常见的数据源。用R操作MySQL数据库,可以说是数据分析师必备的技能了,本文介绍RMySQL包,可以在R语言中对数据...
    99+
    2024-04-02
  • R语言对Web数据操作实例
    许多网站提供数据供其用户使用。 例如,世界卫生组织(WHO)以CSV,txt和XML文件的形式提供健康和医疗信息的报告。 使用R语言程序,我们可以从这些网站以编程方式提取特定数据。 ...
    99+
    2024-04-02
  • R语言如何实现数据输入
    这篇文章将为大家详细讲解有关R语言如何实现数据输入,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。首先,数据输入最直接最直观的方法就是键盘输入,在上面几篇都已经讲到,利用c创建向量,利用matrix创建矩阵...
    99+
    2023-06-14
  • C语言数据结构系列队列篇
    目录一、队列(Queue)0x00 队列的概念0x01 队列的结构二、队列的定义0x00 链式队列0x02 接口函数三、队列的实现0x...
    99+
    2024-04-02
  • 利用R语言合并数据框的行与列实例代码
    目录合并数据框的行与列一、rbind()和cbind()函数二、merge()函数总结合并数据框的行与列 大家好,这里是想做生信大恐龙的生信小白。今天熟悉数据操作中的数据合并。 一、...
    99+
    2024-04-02
  • R语言 数据集行列互换的技巧分享
    现在给大家介绍的数据处理技巧是长转宽,也就相当于Excel中的转置,不过用R语言实现的长转宽还有数据合并的功能,自然比Excel强大多了。 这里给大家介绍4个函数,其中melt()、...
    99+
    2024-04-02
  • 怎么在R语言中定义数据框的列名
    这篇文章给大家介绍怎么在R语言中定义数据框的列名,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。1.在定义数据框时,定义列名:例如:a<-c(2,23,45,6,7,1,6,7)   ...
    99+
    2023-06-14
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作