返回顶部
首页 > 资讯 > 后端开发 > Python >详解Python 关联规则分析
  • 354
分享到

详解Python 关联规则分析

2024-04-02 19:04:59 354人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

目录1. 关联规则1.1 基本概念1.2 关联规则Apriori算法2. mlxtend实战关联规则2.1 安装2.2 简单的例子3. 总结1. 关联规则 大家可能听说过用于宣传数

1. 关联规则

大家可能听说过用于宣传数据挖掘的一个案例:啤酒和尿布;据说是沃尔玛超市在分析顾客的购买记录时,发现许多客户购买啤酒的同时也会购买婴儿尿布,于是超市调整了啤酒和尿布的货架摆放,让这两个品类摆放在一起;结果这两个品类的销量都有明显的增长;分析原因是很多刚生小孩的男士在购买的啤酒时,会顺手带一些婴幼儿用品。

不论这个案例是否是真实的,案例中分析顾客购买记录的方式就是关联规则分析法Association Rules。

关联规则分析也被称为购物篮分析,用于分析数据集各项之间的关联关系。

1.1 基本概念

  • 项集:item的集合,如集合{牛奶、麦片、糖}是一个3项集,可以认为是购买记录里物品的集合。
  • 频繁项集:顾名思义就是频繁出现的item项的集合。如何定义频繁呢?用比例来判定,关联规则中采用支持度和置信度两个概念来计算比例值
  • 支持度:共同出现的项在整体项中的比例。以购买记录为例子,购买记录100条,如果商品A和B同时出现50条购买记录(即同时购买A和B的记录有50),那边A和B这个2项集的支持度为50%

  • 置信度:购买A后再购买B的条件概率,根据贝叶斯公式,可如下表示:

提升度:为了判断产生规则的实际价值,即使用规则后商品出现的次数是否高于商品单独出现的评率,提升度和衡量购买X对购买Y的概率的提升作用。如下公式可见,如果X和Y相互独立那么提升度为1,提升度越大,说明X->Y的关联性越强

1.2 关联规则Apriori算法

关联规则方法的步骤如下:

  • 发现频繁项集
  • 找出关联规则

Apriori算法是经典的关联规则算法。Apriori算法的目标是找到最大的K项频繁集。Apriori算法从寻找1项集开始,通过最小支持度阈值进行剪枝,依次寻找2项集,3项集直到没有更过项集为止。

下面是一个案例图解:

  • 图中有4个记录,记录项有1,2,3,4,5若干
  • 首先先找出1项集对应的支持度(C1),可以看出4的支持度低于最小支持阈值,先剪掉(L1)。
  • 从1项集生成2项集,并计算支持度(C2),可以看出(1,5)(1,2)支持度低于最小支持阈值,先剪掉(L2)
  • 从2项集生成3项集,(1,2,3)(1,2,5)(2,3,5)只有(2,3,5)满足要求
  • 没有更多的项集了,就定制迭代

2. mlxtend实战关联规则

关联规则目前在scikit-learn中并没有实现。这里介绍另一个python库mlxtend。

2.1 安装


pip install mlxtend

2.2 简单的例子

来看下数据集:


import pandas as pd

item_list = [['牛奶','面包'],
    ['面包','尿布','啤酒','土豆'],
    ['牛奶','尿布','啤酒','可乐'],
    ['面包','牛奶','尿布','啤酒'],
    ['面包','牛奶','尿布','可乐']]

item_df = pd.DataFrame(item_list)

数据格式处理,传入模型的数据需要满足bool值的格式


from mlxtend.preprocessing import TransactionEncode

te = TransactionEncoder()
df_tf = te.fit_transfORM(item_list)
df = pd.DataFrame(df_tf,columns=te.columns_)

  • 计算频繁项集

from mlxtend.frequent_patterns import apriori

# use_colnames=True表示使用元素名字,默认的False使用列名代表元素, 设置最小支持度min_support
frequent_itemsets = apriori(df, min_support=0.05, use_colnames=True)

frequent_itemsets.sort_values(by='support', ascending=False, inplace=True)

# 选择2频繁项集
print(frequent_itemsets[frequent_itemsets.itemsets.apply(lambda x: len(x)) == 2])  

  • 计算关联规则

from mlxtend.frequent_patterns import association_rules

# metric可以有很多的度量选项,返回的表列名都可以作为参数
association_rule = association_rules(frequent_itemsets,metric='confidence',min_threshold=0.9)

#关联规则可以提升度排序
association_rule.sort_values(by='lift',ascending=False,inplace=True)    
association_rule
# 规则是:antecedents->consequents

选择出来关联规则之后,根据提升度排序后,可能最高提升度的规则是在我们常识范围内,那这个规则的价值就不高。所以我们要在产生的规则中根据业务特点进行筛选,像开篇提到(啤酒->尿布)完全不同的品类之间的关联。

笔者最近用关联规则分析用户的体检报告记录,也得出了关于各个病症的有意义的关联,如并发症,不同病症相互影响等。

3. 总结

本分介绍关联规则的基本概念和经典算法Apriori,以及Python的实现库mlxtend使用。

总结如下:

  • 关联规则用于分析数据集各项之间的关联关系,想一想啤酒和尿布的故事
  • 三个重要概念:支持度,置信度和提升度
  • Apriori通过迭代先找1项集,用支持度过滤项集,逐步找出所有k项集
  • 用置信度或提升度来选择满足的要求的规则
  • mlxtend对数据要求转换成bool值才可用

以上就是详解Python 关联规则分析的详细内容,更多关于Python 关联规则分析的资料请关注编程网其它相关文章!

--结束END--

本文标题: 详解Python 关联规则分析

本文链接: https://lsjlt.com/news/121939.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 详解Python 关联规则分析
    目录1. 关联规则1.1 基本概念1.2 关联规则Apriori算法2. mlxtend实战关联规则2.1 安装2.2 简单的例子3. 总结1. 关联规则 大家可能听说过用于宣传数...
    99+
    2024-04-02
  • 总结分析python数据化运营关联规则
    目录内容介绍一般应用场景关联规则实现关联规则应用举例内容介绍 以 Python 使用 关联规则 简单举例应用关联规则分析。 关联规则 也被称为购物篮分析,用于分析数据集各项之间的关联...
    99+
    2024-04-02
  • R语言关联规则深入详解
    在用R语言做关联规则分析之前,我们先了解下关联规则的相关定义和解释。 关联规则的用途是从数据背后发现事物之间可能存在的关联或者联系,是无监督的机器学习方法,用于知识发现,而非预测。 ...
    99+
    2024-04-02
  • Python中有哪些关联规则
    这期内容当中小编将会给大家带来有关Python中有哪些关联规则,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。1.1 基本概念 项集:item的集合,如集合{牛奶、麦片、糖}是一个3项集,可以认为...
    99+
    2023-06-15
  • Python中关联的规则有哪些
    今天就跟大家聊聊有关Python中关联的规则有哪些,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。1. 关联规则大家可能听说过用于宣传数据挖掘的一个案例:啤酒和尿布;据说是沃尔玛超市在...
    99+
    2023-06-14
  • 亚马逊关联规则
    以下是一些可能涉及到关联规则的情况: 购买产品或服务时,将同一种产品或服务与其他类似产品或服务进行比较。 购买产品或服务时,向其他账户发送类似的优惠券或促销信息。 向其他账户或产品发送特定的电子邮件或链接。 向其他账户或产品发送特定的付...
    99+
    2023-10-27
    亚马逊 规则
  • Sentinel热点规则示例详解分析
    目录概念@SentinelResource小试牛刀TestController.javadefaultFallbackfallback流量控制熔断降级热点参数限流高级选项概念 ...
    99+
    2024-04-02
  • Python的正则规则举例分析
    这篇文章主要讲解了“Python的正则规则举例分析”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python的正则规则举例分析”吧!问题复现我们都知道,Python有个正则规则\w,几乎所有...
    99+
    2023-06-02
  • 灰色关联分析法详解及python实践
    1. 关于灰色关联分析 1.1. 什么是灰色关联分析 灰色关联分析是指对一个系统发展变化态势的定量描述和比较的方法,其基本思想是通过确定参考数据列和若干个比较数据列的几何形状相似程度来判断其联系是否紧...
    99+
    2023-09-27
    python 人工智能 灰色关联分析 数据分析
  • 亚马逊店铺关联规则
    例如,如果一个卖家有以下三个亚马逊账户,并且每个账户中的商品之间存在关联销售:A账户:卖出一件商品,B账户:同一种商品再次销售。 那么,卖家就需要在A账户中下架所有同一种商品的销售,并在B账户中保留有售价较高的商品。这样,消费者在A账户中购...
    99+
    2023-10-27
    亚马逊 店铺 规则
  • Sentinel熔断规则原理示例详解分析
    目录概述熔断(降级)策略慢调用比例概念测试异常比例概念测试异常数概念测试概述 除了流量控制以外,对调用链路中不稳定的资源进行熔断降级也是保障高可用的重要措施之一。 由于调用关系的复杂...
    99+
    2024-04-02
  • 基于Python代码实现Apriori 关联规则算法
    目录一、关联规则概述二、应用场景举例1、股票涨跌预测2、视频、音乐、图书等推荐3、打车路线预测(考虑时空)4、风控策略自动化挖掘三、3个最重要的概念1、支持度2、置信度3、提升度4、...
    99+
    2024-04-02
  • 怎么用Python代码实现Apriori关联规则算法
    这篇文章主要介绍了怎么用Python代码实现Apriori关联规则算法的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇怎么用Python代码实现Apriori关联规则算法文章都会有所收获,下面我们一起来看看吧。一...
    99+
    2023-06-29
  • 亚马逊店铺关联规则是什么
    具体的规则包括: 账户信息关联:亚马逊通过技术手段获取卖家相关信息,包括个人名字、地址信息、信用卡、手机号、营业执照、收款账户等,如果多个店铺使用相同的账户信息进行注册,可能被判定为关联店铺。 产品描述关联:亚马逊检测店铺之间的产品描述...
    99+
    2023-10-27
    亚马逊 店铺 规则
  • js原型的规则分析
    小编给大家分享一下js原型的规则分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!1、规则说明(1)所有的引用类型都可以自定义添加属性(2)所有的引用类型都有自己...
    99+
    2023-06-15
  • 【商业挖掘】关联规则——Apriori算法(最全~)
    目录 一、关联规则挖掘 二、Apriori-关联规则算法 三、Apriori算法分解—Python大白话式实现 步骤1: 外部库调用❀  步骤2: 数据导入❀ 步骤3: 数据处理❀   步骤4:输出所有Goodlist❀ 步骤5:项集重组❀...
    99+
    2023-09-15
    数据挖掘 人工智能 python 剪枝 数据结构
  • 关系型数据库的设计规则详解
    目录表关系设计1、一对一关联(one-to-one)2、一对多关系(one-to-many)3、多对多(many-to-many)4、自我引用(Self reference)E-R(...
    99+
    2024-04-02
  • vue如何关闭部分eslint规则
    小编给大家分享一下vue如何关闭部分eslint规则,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!关闭部分eslint规则其实 ...
    99+
    2024-04-02
  • 如何优化数据库的数据关联规则
    优化数据库的数据关联规则可以通过以下几种方法实现: 索引优化:为经常进行数据关联的字段创建索引,可以加快数据查询的速度,提高数据关联的效率。 数据库表结构优化:合理设计数据库表的结构,避免冗余字段和表,规范化设计可以减少数据冗余,提...
    99+
    2024-07-03
    数据库
  • Python函数中的作用域规则详解
    目录1、简单介绍一下闭包2、在Python中,并不是任何代码块都能引入新的作用域3、在Python中,名字绑定在所属作用域中引入新的变量,同时绑定到一个对象。总结Python是静态作...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作