返回顶部
首页 > 资讯 > 后端开发 > Python >怎么通过python模糊匹配算法对两个excel表格内容归类
  • 127
分享到

怎么通过python模糊匹配算法对两个excel表格内容归类

2023-07-05 14:07:55 127人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

今天小编给大家分享一下怎么通过python模糊匹配算法对两个excel表格内容归类的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下

今天小编给大家分享一下怎么通过python模糊匹配算法对两个excel表格内容归类的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。

    一、问题描述

    在实习的时候,需要将两个表格的内容进行匹配分类,比如两个不同的工程项目针对的对象都是A,那么就需要将这两个工程项目归类到A当中,而这当中的工程项目和施工对象数量都还挺多的,因此想着写个程序来自动将它们归类起来,这样可以减少很大一部分的工作量。

    二、运用方法

    由于两个表格中拥有相似的关键词,即一个表格的内容形式为为A工程项目,另一个表格的内容形式为A单位,那么我就需要将其中的“A”这个关键词相匹配就能够筛选出来了。能够达到目的的程序写法有不少,而我在这次的问题中选择了通过模糊匹配的算法来实现该功能。

    三、代码编写

    注:这里我们导入了difflib库,用于使用模糊匹配算法;xlwt库,用于导出excel表格

    3.1

    首先我们导入两个需要处理的excel表格。

    df1=pd.read_excel(r'D:\杂货\项目.xlsx',sheet_name='Sheet1')df2=pd.read_excel(r'D:\杂货\项目2.xlsx',sheet_name='Sheet1')#导入两个需要处理的excel表格

    怎么通过python模糊匹配算法对两个excel表格内容归类

     两个表格的内容形式大致如上。而我的需求是将这两个表格相关的工程项目匹配归类。

    3.2

    再将我们所要处理的两列数据放入一个列表当中。

    for i in df1['XXXXXX改造']:#将这两列的数据存入list1和list2两个列表中    list1.append(i)for j in df2['XXXXXX新改']:    list2.append(j)

    3.3

    通过模糊匹配算法,将list2中的数据内容与list1中的数据内容一一匹配。

    for n in range(len(list2)):#通过模糊匹配算法,将list2与list1中的数据一一匹配,设置近似度为42%,得到匹配结果res    query_Word=str(list2[n])    res=difflib.get_close_matches(query_word,list1,1,cutoff=0.42)    res = "".join(res)    listx.append(res)

    需要注意的是,该处调用了difflib库中的get_close_matches(query_word,list1,n,cutoff)方法,其中的query_word为被匹配的字符串;list1为要匹配的字符串列表;n为前topn个最佳匹配反回,我将其设置为1;cutoff为匹配度大小,为[0,1]的浮点数,也可以称为两者的相似程度,这个就看个人需求和具体问题来设置,我将其相似程度设置为0.42则恰好能够将我所需要匹配的两个表格的内容都匹配成功。

    由于res匹配出来的每一个结果都是是列表的形式,而我们想要将结果写入新的表格当中需要字符串形式的结果,因此使用res=””.join(res)方法将列表转换为字符串的形式,然后将字符串形式的结果放入listx列表当中,以便于写入新的excel表格。

    3.4

    由于担心会存在匹配结果遗漏的情况出现,因此我又将list1中的数据内容与list2中的数据内容一一匹配。

    for m in range(len(list1)):#同上,将list1与list2的数据一一匹配    query_word=str(list1[m])    res=difflib.get_close_matches(query_word,list2,1,cutoff=0.42)    res="".join(res)    listy.append(res)

    这时我将被匹配的字符串设置为list1中的字符串,要匹配的字符串列表设置为list2,其他参数一样,相当于说我先用表格1去匹配表格2,再用表格2去匹配表格1,这样就能够较好地解决遗漏的问题。

    3.5

    最后设置好新的excel表格的参数

    workbook=xlwt.Workbook(encoding='utf-8')#设定好新的excel表格的参数worksheet=workbook.add_sheet('test_sheet')worksheet.write(0,0,label='XXX改造')#从第0行第0列开始输入标签为XXX改造的数据worksheet.write(0,1,label='XX金额')#从第0行第1列开始输入标签为XX金额的数据worksheet.write(0,2,label='XXX新改')worksheet.write(0,3,label='XX金额')worksheet.write(0,4,label='已XXX金额') for i in range(len(listx)):#写入运算出来的数据    worksheet.write(i+1,0,label=listx[i])for j in range(len(listy)):    worksheet.write(j+1,2,label=listy[j])for k in range(len(list1)):    worksheet.write(k+1,1,label=list3[k])for l in range(len(list2)):    worksheet.write(l+1,3,label=list4[l])    worksheet.write(l+1,4,label=list5[l])workbook.save(r'D:\杂货\新项目6.xls')#导出excel表格

    这里使用的向excel表格中写入数据内容的方法就不过多介绍,对于有一定处理excel经验的人能够很容易理解代码的含义。

    最后输出的表格形式如下:

    怎么通过python模糊匹配算法对两个excel表格内容归类

     通过两遍匹配,两者相互匹配度都高的则会出对应地出现在表格中,而只有单一匹配度高的,则出现了左边有数据右边没有数据,或者右边有数据左边没有数据的情况。

    四、代码集合

    import pandas as pdimport difflibimport xlwt#导入库 df1=pd.read_excel(r'D:\杂货\项目.xlsx',sheet_name='Sheet1')df2=pd.read_excel(r'D:\杂货\项目2.xlsx',sheet_name='Sheet1')#导入两个需要处理的excel表格 list1=[]#设置空列表,用于存储2017年一列的数据list2=[]#用于存储2018年一列的数据list3=list(df1['XX金额'])#将excel表格中的列数据列表化list4=list(df2['XX金额'])list5=list(df2['XXX金额'])listx=[]#用于存储匹配结果的数据listy=[]#同上for i in df1['XXXXXXXXX改造']:#将这两列的数据存入list1和list2两个列表中    list1.append(i)for j in df2['XXXXXXXXXXXXX新改']:    list2.append(j) for n in range(len(list2)):#通过模糊匹配算法,将list2与list1中的数据一一匹配,设置近似度为42%,得到匹配结果res    query_word=str(list2[n])    res=difflib.get_close_matches(query_word,list1,1,cutoff=0.42)    res = "".join(res)    listx.append(res) for m in range(len(list1)):#同上,将list1与list2的数据一一匹配    query_word=str(list1[m])    res=difflib.get_close_matches(query_word,list2,1,cutoff=0.42)    res="".join(res)    listy.append(res) workbook=xlwt.Workbook(encoding='utf-8')#设定好新的excel表格的参数worksheet=workbook.add_sheet('test_sheet')worksheet.write(0,0,label='XXXXXXXXX改造')worksheet.write(0,1,label='XX金额')worksheet.write(0,2,label='XXXXXXXXXXX新改')worksheet.write(0,3,label='XX金额')worksheet.write(0,4,label='XXX金额') for i in range(len(listx)):#写入运算出来的数据    worksheet.write(i+1,0,label=listx[i])for j in range(len(listy)):    worksheet.write(j+1,2,label=listy[j])for k in range(len(list1)):    worksheet.write(k+1,1,label=list3[k])for l in range(len(list2)):    worksheet.write(l+1,3,label=list4[l])    worksheet.write(l+1,4,label=list5[l])workbook.save(r'D:\杂货\新项目6.xls')#导出excel表格

    以上就是“怎么通过Python模糊匹配算法对两个excel表格内容归类”这篇文章的所有内容,感谢各位的阅读!相信大家阅读完这篇文章都有很大的收获,小编每天都会为大家更新不同的知识,如果还想学习更多的知识,请关注编程网Python频道。

    --结束END--

    本文标题: 怎么通过python模糊匹配算法对两个excel表格内容归类

    本文链接: https://lsjlt.com/news/352716.html(转载时请注明来源链接)

    有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

    猜你喜欢
    • 通过python模糊匹配算法对两个excel表格内容归类
      目录一、问题描述二、运用方法三、代码编写3.13.23.33.43.5四、代码集合五、总结一、问题描述 在实习的时候,需要将两个表格的内容进行匹配分类,比如两个不同的工程项目针对的对...
      99+
      2023-03-22
      python excel表格归类 python模糊匹配算法归类
    • 怎么通过python模糊匹配算法对两个excel表格内容归类
      今天小编给大家分享一下怎么通过python模糊匹配算法对两个excel表格内容归类的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下...
      99+
      2023-07-05
    • Python Pandas两个表格内容模糊匹配的实现
      目录一、方法21. 导入库2. 构建关键词3. 构建句子4. 建立统一索引5. 表连接6. 关键词匹配二、方法21. 构建字典2. 关键词匹配3. 结果展示4. 匹配结果展开总结一、...
      99+
      2024-04-02
    • 如何进行Python pandas两个表格内容模糊匹配的实现
      如何进行Python pandas两个表格内容模糊匹配的实现,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。一、方法2此方法是两个表构建某一相同字段,然后全连接,...
      99+
      2023-06-25
    软考高级职称资格查询
    编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
    • 官方手机版

    • 微信公众号

    • 商务合作