返回顶部
首页 > 资讯 > 后端开发 > Python >Python线性回归图文实例详解
  • 817
分享到

Python线性回归图文实例详解

2024-04-02 19:04:59 817人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

目录前言:1.简单线性回归模型 2.多元线性回归模型2.1 应用F检验法完成模型的显著性检验2.2应用t检验法完成回归系数的显著性检验3.基于回归模型识别异常点4.含有离散变量的回归

前言:

线性回归模型属于经典的统计学模型,该模型的应用场景是根据已知的变量(即自变量)来预测某个连续的数值变量(即因变量)。例如餐厅根据媒体的营业数据(包括菜谱价格、就餐人数、预订人数、特价菜折扣等)预测就餐规模或营业额;网站根据访问的历史数据(包括新用户的注册量、老用户的活跃度、网站内容的更新频率等)预测用户的支付转化率;医院根据患者的病历数据(如体检指标、药物复用情况、平时的饮食习惯等)预测某种疾病发生的概率。

理解什么是线性回归

线性回归也被称为最小二乘法回归(Linear Regression, also called Ordinary Least-Squares (OLS) Regression)。它的数学模型是这样的:

y = a+ b* x+e

其中,a 被称为常数项或截距;b 被称为模型的回归系数或斜率;e 为误差项。a 和 b 是模型的参数。

当然,模型的参数只能从样本数据中估计出来:

y'= a' + b'* x

我们的目标是选择合适的参数,让这一线性模型最好地拟合观测值。拟合程度越高,模型越好。

由于针对具体操作相关文档太多,所以本文内容涉及具体操作较少,主要是讲方法。

本文内所用到的包:


import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import scipy.stats as stats
import statsmodels.api as sm
from scipy.stats import chi2_contingency

1.简单线性回归模型

  • 也被称为一元线性回归模型,是指模型中只含有一个自变量和一个因变量
  • 一般可以通过散点图刻画两个变量之间的关系,并基于散点图绘制简单线性拟合线,进而使变量之间的关系体现地更加直观

以经典的刹车距离为例:


ccpp=pd.read_csv('cars.csv')
sns.set(font=getChineseFont(8).get_name())
sns.lmplot(x='speed',y='dist',data=ccpp,
               legend_out=False,#将图例呈现在图框内
               truncate=True#根据实际的数据范围,对拟合线做截断操作
               )
plt.show()

从散点图来看,自变量speed与因变量dist之间存在明显的正相关,即刹车速度越大,刹车距离越长。图内的阴影部分为拟合线95%的置信区间,每个散点都是尽可能地围绕在拟合线附近。

通过ols函数求得回归模型的参数解'y~s'表示简单线性回归模型


fit=sm.fORMula.ols('dist~speed',data=ccpp).fit()
print(fit.params)#Intercept:-17.579095,speed:3.932409

因此,关于刹车距离的简单线性模型为:

dist=-17.579095+3.932409speed

也就是说,刹车速度每提升一个单位,将促使刹车距离增加3.93个单位。

2.多元线性回归模型

实际应用中,简单线性回归模型并不多见,因为影响因变量的自变量往往不止一个用于构建多元线性回归模型的数据实际上由两部分组成:一个是一维的因变量y;另一个是二维矩阵的自变量x

以利润表Profit为例,研究影响利润的因素

表结构如下:

profit=pd.read_csv(‘Profit.csv',sep=",")


fit=sm.formula.ols('Profit~RD_Spend+Administration+Marketing_Spend',data=profit).fit()
print(fit.params)#Intercept:50122.192990,RD_Spend:0.805715,Administration:-0.026816,Marketing_Spend:0.027228

不考虑模型的显著性和回归系数的显著性,得到的回归模型可以表示为:

Profit=50122.192990+0.805715RD_Spend-0.026816Administration+0.027228Marketing_Spend

但是,在实际应用中,单纯的利用ols函数将偏回归系数计算出来,并构造一个多元线性回归模型,得到的结果往往不是理想的,这时候需要借助于统计学中的F检验法和t检验法,完成模型的显著性检验和回归系数的显著性检验。

2.1 应用F检验法完成模型的显著性检验

步骤如下:

  1. 提出问题的原假设和备择假设;
  2. 在原假设的条件下,构造统计量F;
  3. 根据样本信息,计算统计量F的值;
  4. 对比统计量的值和理论值,如果计算的统计量值超过理论的值,则拒绝原假设,否则需要接受原假设

假设认为模型的所有偏回归系数全为0(即认为没有一个自变量可以构成因变量的线性组合)

通常在实际的应用中将概率值p与0.05做比较,小于0.05则拒绝原假设,否则接受原假设

2.2应用t检验法完成回归系数的显著性检验

模型通过了显著性检验,只能说明模型关于因变量的线性组合是合理的,但不能说明每个自变量对因变量都具有显著意义,所以还要对模型的回归系数做显著性检验。

只有当回归系数通过了t检验,才可以认为模型的系数是显著的t检验的出发点就是验证每一个自变量是否能够成为影响因变量的重要因素t检验的原假设是假定第j变量的回归系数为0,即认为该变量不是因变量的影响因素t统计量大于理论的t分布值,则拒绝原假设,否则接受原假设;也可以根据概率值P判断是否需要拒绝原假设


#返回模型概览
print(fit.summary())

由图可知:F-statistic:296.0,Prob (F-statistic):4.53e-30,F统计量值为296.0,对应的概率值P远远小于0.05,说明应该拒绝原假设,认为模型是显著的。

在各自变量的t统计中,Administration和Marketing_Spend变量所对应的概率值p大于0.05,说明不能拒绝原假设,认为该变量是不显著的,无法认定其实影响Profit的重要因素

对于F检验来说,如果无法拒绝原假设,则认为模型是无效的,通常解决办法是增加数据量、改变自变量或选择其他模型;对于t检验,如果无法拒绝原假设,则认为对应的自变量与因变量之间不存在线性关系,通常的解决办法是剔除该变量或修正该变量(如选择对于的数学转换函数对其修正处理)

根据返回的fit模型的概览信息,由于Administration和Marketing_Spend变量的t检验结果是不显著的,故可以探索其余因变量Profit之间的散点关系,如果确实没有线性关系,可将其从模型中剔除。


sns.lmplot(x='Administration',y='Profit',data=profit,
               legend_out=False,#将图例呈现在图框内
               fit_reg=False#不显示拟合曲线
               )
sns.lmplot(x='Marketing_Spend',y='Profit',data=profit,
               legend_out=False,#将图例呈现在图框内
               fit_reg=False#不显示拟合曲线
               )
plt.show()

图中自变量Administration、Marketing_Spend与因变量Profit没有呈现明显的线性关系,故可以认为两者不存在互相依赖关系


#将Administration、Marketing_Spend变量从模型中剔除
fit2 = sm.formula.ols('Profit~RD_Spend',data=profit).fit()
print(fit2.params)#Intercept:49032.899141,RD_Spend :0.854291
print(fit2.summary())#Prob (F-statistic):3.50e-32;P>|t|:0.000

对模型fit重新调整后,得到的新模型fit2仍然通过了显著性检验,而且每个自变量所对应的系数也是通过显著性检验的。

最终得到的模为:

Profit=49032.899141+0.854291RD_Spend

该回归模型中的系数解释为:在其他条件不变的情况下RD_Spend每增加一个单位,将使Profit增加0.854291个单位。

3.基于回归模型识别异常点

  1. 回归模型计算过程会依赖于自变量的均值,均值的最大弊端是其容易受到异常点(或极端值)的影响
  2. 建模数据中存在异常点,一定程度上会影响到建模的有效性
  3. 对于现行回归模型来说,通常利用帽子矩阵、DFFITS准则、学生化残差或Cook距离进行异常点检测
  4. 使用以上4中方法判别数据集的第i个样本是否为异常点,前提是已构建好一个线性回归模型,然后基于由get_influence方法获得4种统计量的值

继续使用上面的数据。


#异常值检验
outliers=fit2.get_influence()
#高杠杆值点(帽子矩阵)
leverage=outliers.hat_matrix_diag
#diffits值
dffits=outliers.dffits[0]
#学生化残差
resid_stu=outliers.resid_studentized_external
#cook距离
cook=outliers.cooks_distance[0]

#合并以上4种异常值检验的统计量值

concat_result=pd.concat([pd.Series(leverage,name=‘leverage'),pd.Series(dffits,name=‘diffits'),

pd.Series(resid_stu,name=‘resid_stu'),pd.Series(cook,name=‘cook')],axis=1)

#将上面的concat_result结果与profit数据集合

raw_outliers=pd.concat([profit,concat_result],axis=1)

前5行数据集打印结果如下:

简单起见,这里使用学生化残差,当学生化残差大于2时,即认为对应的数据点为异常值


#计算异常值数量的比例
outliers_ratio=sum(np.where(np.abs(raw_outliers.resid_stu)>2,1,0))/raw_outliers.shape[0]
print(outliers_ratio)#0.04

结果显示,通过学生化残差识别出了异常值,并且异常值比例为4%。由于异常值比例非常小,故可以考虑将其直接从数据集中删除,由此继续建模将会得到更加稳健且合理的模型


#通过筛选的方法,将异常点排除
none_outliers=raw_outliers.loc[np.abs(raw_outliers.resid_stu)<=2,]
#应用无异常值的数据集重新建模
fit3=sm.formula.ols('Profit~RD_Spend',data=profit).fit()
#返回模型的概览信息
print(fit3.params)#Intercept:49032.899141,RD_Spend:0.854291
print(fit3.summary())

排除异常点之后得到的模型fit3,不管是模型的显著性检验还是系数的显著性检验,各自的概率P值均小于0.05,说明他们均通过显著性检验。

模型fit3为:Profit=49032.899141+0.854291RD_Spend

从fit3模型来看RD_Spend(研发成本)每增加一个单位的成本,所带来的Profit(收益)提升要明显比其他的高,所以将更多的成本花费在研发上是个不错的选择。

以原始数据profit为例,根据fit3模型重新预测各成本下的收益预测值:


pred=fit3.predict(profit[['RD_Spend']])
#对于实际值与预测值的比较
df=pd.concat([pd.Series(profit.Profit/100,name='real'),pd.Series(pred/100,name='prediction')],axis=1)
df['误差绝对值']=np.abs((df['real']-df['prediction'])/100)
print(df.head(10))

从结果上看有的预测值比较接近实际值,有的预测测偏离实际值较远,但从总体上来说,预测值与实际值之间的差异并不是特别大。

4.含有离散变量的回归模型

  1. 虚拟变量也称为哑变量,专门用来解决离散型变量无法量化的问题
  2. 解决思路为:根据离散变量的值,衍生出多个"0-1"值的新变量 如:0表示不属于当前状态,1表示属于当前状态
  3. 假设有未婚、已婚、离婚三个哑变量,违背了数据的非多重共线性假设(即哑变量之间存在非常高的相关性),非已婚非离婚为未婚状态,所以在构建哑变量处理离散型自变量时,哑变量的个数应该为n-1,其中n表示离散型自变量的不同值个数
  4. 对于线性回归模型来说,从所有哑变量中删除某个哑变量时,被删除的哑变量便成为参照变量(因为可以将参照变量用于对比其他变量对因变量的影响)

以经典的泰坦尼克号数据为例:


titanic=pd.read_csv('Titanic_all.csv',sep=",")
print(titanic.dtypes)

12个变量中涉及5个离散型变量和7个数值型变量。根据知己情况可知,船舱等级Pclass应为离散型变量(3等、2等、1等,并非数值)

查看各变量的缺失比例


print(titanic.isnull().sum(axis=0)/titanic.shape[0])

Cabin缺失比例超过77%,Embarked缺失比例仅为0.22%,二者数据删除。

在这里我们需要利用年龄的非缺失数据构造多元线性回归模型,进而预测缺失比例为19.87%的乘客年龄

如需基于其余变量来预测年龄变量Age,至少有5个变量与年龄无关(乘客编号、姓名、票号信息、座位号信息和登船地点),删除。

1.删除无意义的变量


titanic.drop(labels=['PassengerId','Name','Ticket','Cabin','Embarked'],axis=1,inplace=True)

2.哑变量转换


titanic.Pclass=titanic.Pclass.astype(str)#Pclass变量转换为字符型变量
#将Pclass和Sex变量作哑变量处理
dummies=pd.get_dummies(data=titanic[['Pclass','Sex']])
#将titanic数据集与dummies数据集进行合并
titanic_new=pd.concat([titanic,dummies],axis=1)
#根据哑变量原则,需要从新生成的0和1变量中提出两个变量作为参照变量(以性别中的男性为参照变量,以船舱等几种的Pclass_3作为参照变量)
titanic_new.drop(labels=['Pclass','Sex','Pclass_3','Sex_male'],axis=1,inplace=True)

3.将数据拆分为两部分

  • 在清洗后的数据集titanic_new中,仅有Age变量存在缺失值
  • 为预测该变量的缺失值,需要将数据集按照年龄是否缺失拆分为两个数据子集,分别用于线性回归模型的构造和基于构造好的数据集对其进行预测

missing=titanic_new.loc[titanic.Age.isnull(),]
no_missing=titanic_new.loc[~titanic.Age.isnull(),]

4.构建多元线性回归模型


 #提取出所有的自变量名称
predictors=no_missing.columns[~no_missing.columns.isin(['Age'])]
#构造多元线性回归模型的"类"
lm_Class=sm.OLS(endog=no_missing.Age,#指定模型中的因变量
                            exog=no_missing[predictors]#指定模型中的自变量
                            )
#基于"类",对模型进行拟合
lm_model=lm_Class.fit()
print(lm_model.summary())

根据F检验的结果可知模型是显著的,但是从t检验的结果来看,仅有船舱等级Pclass和性别Sex是通过显著性检验的。

绘制其他变量与年龄之间的散点图


sns.pairplot(no_missing[['Survived','SibSp','Parch','Fare','Age']])

唯有SibSp与Age之间存在一定趋势性,将出SibSp之外其他变量从模型中剔除。

基于散点图结果重新构造多元线性回归模型


predictors2=['SibSp','Pclass_1','Pclass_2','Sex_female']
lm_Class2=sm.OLS(endog=no_missing.Age,#指定模型中的因变量
                            exog=no_missing[predictors2]#指定模型中的自变量
                            )
lm_model2=lm_Class2.fit()
print(lm_model2.summary())

在新的模型中,F检验的统计量和t检验的统计量所对应的概率P值均小于0.05,说明他们通过了显著性检验。

最后再利用可视化的QQ图,验证模型的残差是否服从正态分布的假设


sns.set(font=getChineseFont(8).get_name())
pp_qq_plot=sm.ProbPlot(lm_model2.resid)
pp_qq_plot.qqplot(line='q')
plt.title('Q-Q图')
plt.show()

图形中的散点基本上都围绕在斜线附近,可以判断模型lm_model2的残差服从正态分布,最终证明了lm_model2模型是合理的。

5.未知年龄的预测


pred_Age=lm_model2.predict(exog=missing[predictors2])
#将年龄的预测值替换missing数据集中的Age变量
missing.loc[:,'Age']=pred_Age
#print(missing.head(5))
#将结果插补到原始数据中

总结

到此这篇关于python线性回归的文章就介绍到这了,更多相关Python线性回归内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Python线性回归图文实例详解

本文链接: https://lsjlt.com/news/158632.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Python线性回归图文实例详解
    目录前言:1.简单线性回归模型 2.多元线性回归模型2.1 应用F检验法完成模型的显著性检验2.2应用t检验法完成回归系数的显著性检验3.基于回归模型识别异常点4.含有离散变量的回归...
    99+
    2024-04-02
  • 详解TensorFlow2实现线性回归
    目录概述MSE线性回归公式梯度下降线性回归实现计算 MSE梯度下降迭代训练主函数完整代码概述 线性回归 (Linear Regression) 是利用回归分析来确定两种或两种以上变量...
    99+
    2024-04-02
  • R语言多元线性回归实例详解
    目录一、模型简介二、求解过程总结一、模型简介 一元线性回归是一个主要影响因素作为自变量来解释因变量的变化,在现实问题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用两个或两...
    99+
    2024-04-02
  • Python数学建模StatsModels统计回归之线性回归示例详解
    目录1、背景知识1.1 插值、拟合、回归和预测1.2 线性回归2、Statsmodels 进行线性回归2.1 导入工具包2.2 导入样本数据2.3 建模与拟合2.4 拟合和统计结果的...
    99+
    2024-04-02
  • python实现线性回归的示例代码
    目录1线性回归1.1简单线性回归1.2 多元线性回归1.3 使用sklearn中的线性回归模型1线性回归 1.1简单线性回归 在简单线性回归中,通过调整a和b的参数值,来拟合从x到...
    99+
    2024-04-02
  • python机器学习之线性回归详解
    目录一、python机器学习–线性回归二、OLS线性回归2.1 Ordinary Least Squares 最小二乘法2.2 OLS线性回归的代码实现三、梯度下降算法3.1 GDL...
    99+
    2024-04-02
  • 线性回归与岭回归python代码实现
      在线性回归中我们要求的参数为: 详细的推导可以参见:http://blog.csdn.net/weiyongle1996/article/details/73727505 所以代码实现主要就是实现上式,python代码如下: i...
    99+
    2023-01-31
    线性 代码 python
  • python实现线性回归算法
    本文用python实现线性回归算法,供大家参考,具体内容如下 # -*- coding: utf-8 -*- """ Created on Fri Oct 11 19:25:11...
    99+
    2024-04-02
  • Python怎么实现线性回归
    Python怎么实现线性回归,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。1、概述(1)人工智能学习        &n...
    99+
    2023-06-26
  • Python线性回归怎么理解
    这篇文章主要讲解了“Python线性回归怎么理解”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python线性回归怎么理解”吧!前言:线性回归模型属于经典的统计学模型,该模型的应用场景是根据...
    99+
    2023-06-21
  • python机器学习基础线性回归与岭回归算法详解
    目录一、什么是线性回归1.线性回归简述2.数组和矩阵数组矩阵3.线性回归的算法二、权重的求解1.正规方程2.梯度下降三、线性回归案例1.案例概述2.数据获取3.数据分割4.数据标准化...
    99+
    2024-04-02
  • Python实现多元线性回归模型的方法详解
    多元线性回归是一种广泛应用于数据分析和机器学习的统计模型。它通过使用多个自变量来预测一个或多个因变量的值。在Python中,我们可以使用许多不同的库和框架来实现多元线性回归模型,例如NumPy、Pandas和Scikit-Lea...
    99+
    2024-01-24
    机器学习
  • Python线性回归分析
    这篇文章主要介绍“Python线性回归分析”,在日常操作中,相信很多人在Python线性回归分析问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python线性回归分析”的疑惑有所帮助!接下来,请跟着小编一起来...
    99+
    2023-06-25
  • python人工智能算法之线性回归实例
    目录线性回归使用场景分析:总结:线性回归 是一种常见的机器学习算法,也是人工智能中常用的算法。它是一种用于预测数值型输出变量与一个或多个自变量之间线性关系的方法。例如,你可以使用线...
    99+
    2023-03-21
    python 线性回归算法 python 人工智能
  • Python 机器学习之线性回归详解分析
    为了检验自己前期对机器学习中线性回归部分的掌握程度并找出自己在学习中存在的问题,我使用C语言简单实现了单变量简单线性回归。 本文对自己使用C语言实现单变量线性回归过程中遇到的问题和心...
    99+
    2024-04-02
  • pytorch实现线性回归
    pytorch实现线性回归代码练习实例,供大家参考,具体内容如下 欢迎大家指正,希望可以通过小的练习提升对于pytorch的掌握 # 随机初始化一个二维数据集,使用朋友torch...
    99+
    2024-04-02
  • PyTorch实现线性回归详细过程
    目录一、实现步骤1、准备数据2、设计模型3、构造损失函数和优化器4、训练过程5、结果展示二、参考文献一、实现步骤 1、准备数据 x_data = torch.tensor([[1.0...
    99+
    2024-04-02
  • Python反向传播实现线性回归步骤详细讲解
    目录1. 导入包2. 生成数据3. 训练数据4. 绘制图像5. 代码1. 导入包 我们这次的任务是随机生成一些离散的点,然后用直线(y = w *x + b )去拟合 首先看一下我们...
    99+
    2024-04-02
  • 人工智能—Python实现线性回归
    1、概述 (1)人工智能学习           (2)机器学习  (3)有监督学习  (4)线...
    99+
    2024-04-02
  • python一元线性回归怎么实现
    在Python中,可以使用NumPy和Scikit-learn库来实现一元线性回归。以下是一元线性回归的实现步骤:1. 导入所需的库...
    99+
    2023-08-18
    python
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作