返回顶部
首页 > 资讯 > 后端开发 > Python >Apriori算法的python实现
  • 516
分享到

Apriori算法的python实现

算法Aprioripython 2023-01-31 01:01:30 516人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

原始链接:基于python的机器学习实战:Apriori 原始链接里的代码是在Python2下写的,有的地方我看的不是太明白,在这里,我把它修改成能在python3下运行了,还加入了一些方便自己理解的注释。 Apriori算法的pyspa

原始链接:基于python机器学习实战:Apriori

原始链接里的代码是在Python2下写的,有的地方我看的不是太明白,在这里,我把它修改成能在python3下运行了,还加入了一些方便自己理解的注释。

Apriori算法的pyspark实现:pyspark实现Apriori算法、循环迭代、并行处理

#coding=utf8
#python3.5
#Http://www.cnblogs.com/90zeng/p/apriori.html

def loadDataSet():
    '''创建一个用于测试的简单的数据集'''
    return [ [ 1, 3, 4,5 ], [ 2, 3, 5 ], [ 1, 2, 3,4, 5 ], [ 2,3,4, 5 ] ]
def createC1( dataSet ):
    '''
        构建初始候选项集的列表,即所有候选项集只包含一个元素,
        C1是大小为1的所有候选项集的集合
    '''
    C1 = []
    for transaction in dataSet:
        for item in transaction:
            if [ item ] not in C1:
                C1.append( [ item ] )
    C1.sort()
    #return map( frozenset, C1 )
    #return [var for var in map(frozenset,C1)]
    return [frozenset(var) for var in C1]
def scanD( D, Ck, minSupport ):
    '''
        计算Ck中的项集在数据集合D(记录或者transactions)中的支持度,
        返回满足最小支持度的项集的集合,和所有项集支持度信息的字典。
    '''
    ssCnt = {}
    for tid in D:                  # 对于每一条transaction
        for can in Ck:             # 对于每一个候选项集can,检查是否是transaction的一部分 # 即该候选can是否得到transaction的支持
            if can.issubset( tid ):
                ssCnt[ can ] = ssCnt.get( can, 0) + 1
    numItems = float( len( D ) )
    retList = []
    supportData = {}
    for key in ssCnt:
        support = ssCnt[ key ] / numItems                   # 每个项集的支持度
        if support >= minSupport:                           # 将满足最小支持度的项集,加入retList
            retList.insert( 0, key )
        supportData[ key ] = support                        # 汇总支持度数据
    return retList, supportData
def aprioriGen( Lk, k ): # Aprior算法
    '''
        由初始候选项集的集合Lk生成新的生成候选项集,
        k表示生成的新项集中所含有的元素个数
    '''
    retList = []
    lenLk = len( Lk )
    for i in range( lenLk ):
        for j in range( i + 1, lenLk ):
            L1 = list( Lk[ i ] )[ : k - 2 ];
            L2 = list( Lk[ j ] )[ : k - 2 ];
            L1.sort();L2.sort()
            if L1 == L2:
                retList.append( Lk[ i ] | Lk[ j ] ) 
    return retList
def apriori( dataSet, minSupport = 0.5 ):
    C1 = createC1( dataSet )                                # 构建初始候选项集C1
    #D = map( set, dataSet )                                 # 将dataSet集合化,以满足scanD的格式要求
    #D=[var for var in map(set,dataSet)]
    D=[set(var) for var in dataSet]
    L1, suppData = scanD( D, C1, minSupport )               # 构建初始的频繁项集,即所有项集只有一个元素
    L = [ L1 ]                                              # 最初的L1中的每个项集含有一个元素,新生成的
    k = 2                                                   # 项集应该含有2个元素,所以 k=2
    
    while ( len( L[ k - 2 ] ) > 0 ):
        Ck = aprioriGen( L[ k - 2 ], k )
        Lk, supK = scanD( D, Ck, minSupport )
        suppData.update( supK )                             # 将新的项集的支持度数据加入原来的总支持度字典中
        L.append( Lk )                                      # 将符合最小支持度要求的项集加入L
        k += 1                                              # 新生成的项集中的元素个数应不断增加
    return L, suppData                                      # 返回所有满足条件的频繁项集的列表,和所有候选项集的支持度信息 
def calcConf( freqSet, H, supportData, brl, minConf=0.7 ):  # 规则生成与评价  
    '''
        计算规则的可信度,返回满足最小可信度的规则。
        freqSet(frozenset):频繁项集
        H(frozenset):频繁项集中所有的元素
        supportData(dic):频繁项集中所有元素的支持度
        brl(tuple):满足可信度条件的关联规则
        minConf(float):最小可信度
    '''
    prunedH = []
    for conseq in H:
        conf = supportData[ freqSet ] / supportData[ freqSet - conseq ]
        if conf >= minConf:
            print(freqSet - conseq, '-->', conseq, 'conf:', conf)
            brl.append( ( freqSet - conseq, conseq, conf ) )
            prunedH.append( conseq )
    return prunedH

def rulesFromConseq( freqSet, H, supportData, brl, minConf=0.7 ):
    '''
        对频繁项集中元素超过2的项集进行合并。
        freqSet(frozenset):频繁项集
        H(frozenset):频繁项集中的所有元素,即可以出现在规则右部的元素
        supportData(dict):所有项集的支持度信息
        brl(tuple):生成的规则
    '''
    m = len( H[ 0 ] )
    if len( freqSet ) > m + 1: # 查看频繁项集是否足够大,以到于移除大小为 m的子集,否则继续生成m+1大小的频繁项集
        Hmp1 = aprioriGen( H, m + 1 )
        Hmp1 = calcConf( freqSet, Hmp1, supportData, brl, minConf ) #对于新生成的m+1大小的频繁项集,计算新生成的关联规则的右则的集合
        if len( Hmp1 ) > 1: # 如果不止一条规则满足要求(新生成的关联规则的右则的集合的大小大于1),进一步递归合并,
                            #这样做的结果就是会有“[1|多]->多”(右边只会是“多”,因为合并的本质是频繁子项集变大,
                            #而calcConf函数的关联结果的右侧就是频繁子项集)的关联结果
            rulesFromConseq( freqSet, Hmp1, supportData, brl, minConf )

def generateRules( L, supportData, minConf=0.7 ):
    '''
        根据频繁项集和最小可信度生成规则。
        L(list):存储频繁项集
        supportData(dict):存储着所有项集(不仅仅是频繁项集)的支持度
        minConf(float):最小可信度
    '''
    bigRuleList = []
    for i in range( 1, len( L ) ):
        for freqSet in L[ i ]:                                                      # 对于每一个频繁项集的集合freqSet
            H1 = [ frozenset( [ item ] ) for item in freqSet ]
            if i > 1:# 如果频繁项集中的元素个数大于2,需要进一步合并,这样做的结果就是会有“[1|多]->多”(右边只会是“多”,
                     #因为合并的本质是频繁子项集变大,而calcConf函数的关联结果的右侧就是频繁子项集),的关联结果
                rulesFromConseq( freqSet, H1, supportData, bigRuleList, minConf )
            else:
                calcConf( freqSet, H1, supportData, bigRuleList, minConf )
    return bigRuleList
if __name__ == '__main__':
    myDat = loadDataSet()                                   # 导入数据集
    #C1 = createC1( myDat )                                  # 构建第一个候选项集列表C1
    #D = map( set, myDat )                                   # 构建集合表示的数据集 D,python3中的写法,或者下面那种
    #D=[var for var in map(set,myDat)]
    #D=[set(var) for var in myDat] #D: [{1, 3, 4}, {2, 3, 5}, {1, 2, 3, 5}, {2, 5}]
    #L, suppData = scanD( D, C1, 0.5 )                       # 选择出支持度不小于0.5 的项集作为频繁项集
    #print(u"频繁项集L:", L)
    #print(u"所有候选项集的支持度信息:", suppData)
    #print("myDat",myDat)
    L, suppData = apriori( myDat, 0.5 )                     # 选择频繁项集
    print(u"频繁项集L:", L)
    print(u"所有候选项集的支持度信息:", suppData)
    rules = generateRules( L, suppData, minConf=0.7 )
    print('rules:\n', rules)


--结束END--

本文标题: Apriori算法的python实现

本文链接: https://lsjlt.com/news/184578.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Apriori算法的python实现
    原始链接:基于Python的机器学习实战:Apriori 原始链接里的代码是在python2下写的,有的地方我看的不是太明白,在这里,我把它修改成能在python3下运行了,还加入了一些方便自己理解的注释。 Apriori算法的pyspa...
    99+
    2023-01-31
    算法 Apriori python
  • 基于Python代码实现Apriori 关联规则算法
    目录一、关联规则概述二、应用场景举例1、股票涨跌预测2、视频、音乐、图书等推荐3、打车路线预测(考虑时空)4、风控策略自动化挖掘三、3个最重要的概念1、支持度2、置信度3、提升度4、...
    99+
    2024-04-02
  • python数据挖掘Apriori算法实现关联分析
    目录摘要:关联分析Apriori原理算法实现挖掘关联规则利用Apriori算法解决实际问题发现毒蘑菇的相似特征总结:摘要: 主要是讲解一些数据挖掘中频繁模式挖掘的Apriori算法原...
    99+
    2024-04-02
  • 怎么用Python代码实现Apriori关联规则算法
    这篇文章主要介绍了怎么用Python代码实现Apriori关联规则算法的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇怎么用Python代码实现Apriori关联规则算法文章都会有所收获,下面我们一起来看看吧。一...
    99+
    2023-06-29
  • Apriori算法怎么使用
    Apriori算法是一种用于挖掘频繁项集和关联规则的算法。其主要思想是通过迭代的方式,从候选项集中找出频繁项集,并使用频繁项集来生成...
    99+
    2023-10-26
    Apriori
  • apriori算法的优缺点是什么
    Apriori算法是一种用于数据挖掘中频繁项集的发现的经典算法。其优点和缺点如下:优点:1. 简单易懂:Apriori算法的思想直观...
    99+
    2023-09-25
    apriori
  • 如何深入理解Python中的Apriori关联分析算法
    今天就跟大家聊聊有关如何深入理解Python中的Apriori关联分析算法,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。在美国有这样一家奇怪的超市,它将啤酒与尿布这样两个奇怪的东西放...
    99+
    2023-06-02
  • Apriori算法怎么减少搜索空间
    Apriori算法可以通过两种方式来减少搜索空间: 最小支持度:通过设置一个最小支持度阈值,只保留频繁项集中支持度高于该阈值的项...
    99+
    2024-05-24
    Apriori
  • KNN算法的Python实现
    # KNN算法思路:#-----------------------------------------------------##step1:读入数据,存储为链表#step2:数据预处理,包括缺失值处理、归一化等#step3:设置K值#s...
    99+
    2023-01-31
    算法 KNN Python
  • 【商业挖掘】关联规则——Apriori算法(最全~)
    目录 一、关联规则挖掘 二、Apriori-关联规则算法 三、Apriori算法分解—Python大白话式实现 步骤1: 外部库调用❀  步骤2: 数据导入❀ 步骤3: 数据处理❀   步骤4:输出所有Goodlist❀ 步骤5:项集重组❀...
    99+
    2023-09-15
    数据挖掘 人工智能 python 剪枝 数据结构
  • 【推荐系统入门到项目实战】:关联规则之Apriori算法(含代码实现)
    【推荐系统】:关联规则 🌸个人主页:JOJO数据科学📝个人介绍:统计学top3高校统计学硕士在读💌如果文章对你有帮助,欢迎✌关注、👍...
    99+
    2023-09-12
    1024程序员节 推荐算法 关联规则
  • python实现dbscan算法
    DBSCAN 算法是一种基于密度的空间聚类算法。该算法利用基于密度的聚类的概念,即要求聚类空间中的一定区域内所包含对象(点或其它空间对象)的数目不小于某一给定阀值。DBSCAN 算法的显著优点是聚类速度快且能够有效处...
    99+
    2022-06-02
    python dbscan算法
  • python实现Simhash算法
    1、simhash步骤 simhash包含分词、hash、加权、合并、降维五大步骤 simhash代码如下: import jieba import jieba.analyse im...
    99+
    2024-04-02
  • Python实现LRU算法
    在第一节中已经实现了双向链表DoubleLinkedList类,本节我们基于双向链表实现LRU(Least Recently Used最近最少使用)缓存置换算法。Redis的淘汰机制...
    99+
    2024-04-02
  • kmp算法python实现
    kmp算法 kmp算法用于字符串的模式匹配,也就是找到模式字符串在目标字符串的第一次出现的位置比如abababc那么bab在其位置1处,bc在其位置5处我们首先想到的最简单的办法就是蛮力的一个字符一个字符的匹配,但那样的时间复杂度会是O...
    99+
    2023-01-31
    算法 kmp python
  • PageRank算法(python实现)
    Python 实现的PageRank算法,纯粹使用python原生模块,没有使用numpy、scipy。这个程序实现还比较原始,可优化的地方较多。 #-*- coding:utf-8 -*- import random N = 8 ...
    99+
    2023-01-31
    算法 PageRank python
  • LRU算法——python实现
    在LeetCode上看到这么一道题: Design and implement a data structure for Least Recently Used (LRU) cache. It should support the f...
    99+
    2023-01-31
    算法 LRU python
  • dijkstra算法python实现
    MAX_value = 999999 def dijkstra(graph, s): # 判断图是否为空,如果为空直接退出 if graph is None: return None dist ...
    99+
    2023-01-31
    算法 dijkstra python
  • 详解Python AdaBoost算法的实现
    目录1. AdaBoost 算法简介2. AdaBoost算法 逻辑详解2.1 数据2.2 带权错误率2.3 损失函数 与 确定样本权重2.4 确定模型权重2.5 输出模型3.Ada...
    99+
    2024-04-02
  • Python实现蚁群算法
    目录1、引言2蚁群算法理论3算法理论图解 4人工蚁群优化过程 5 基本蚁群算法及其流程 5.1  蚁群算法公式 ...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作