返回顶部
首页 > 资讯 > 后端开发 > Python >怎么利用python实现Simhash算法
  • 198
分享到

怎么利用python实现Simhash算法

2023-07-02 14:07:20 198人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

本文小编为大家详细介绍“怎么利用python实现Simhash算法”,内容详细,步骤清晰,细节处理妥当,希望这篇“怎么利用Python实现Simhash算法”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。1. 为什

本文小编为大家详细介绍“怎么利用python实现Simhash算法”,内容详细,步骤清晰,细节处理妥当,希望这篇“怎么利用Python实现Simhash算法”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。

1. 为什么需要Simhash?

传统相似度算法:文本相似度的计算,一般使用向量空间模型(VSM),先对文本分词,提取特征,根据特征建立文本向量,把文本之间相似度的计算转化为特征向量距离的计算,如欧式距离、余弦夹角等。

缺点:大数据情况下复杂度会很高。

Simhash应用场景:计算大规模文本相似度,实现海量文本信息去重。

Simhash算法原理:通过hash值比较相似度,通过两个字符串计算出的hash值,进行异或操作,然后得到相差的个数,数字越大则差异越大。

2. 文章关键词特征提取算法TD-IDF

词频(TF):一个词语在整篇文章中出现的次数与词语总个数之比;

逆向词频(IDF):一个词语,在所有文章中出现的频率都非常高,这个词语不具有代表性,就可以降低其作用,也就是赋予其较小的权值。

怎么利用python实现Simhash算法

分子代表文章总数,分母表示该词语在这些文章出现的篇数。一般会采取分母加一的方法,防止分母为0的情况出现,在这个比值之后取对数,就是IDF了。

最终用tf*idf得到一个词语的权重,进而计算一篇文章的关键词。然后根据每篇文章对比其关键词的方法来对文章进行去重。simhash算法对效率和性能进行平衡,既可以很少的对比(关键词不能取太多),又能有好的代表性(关键词不能过少)。

3. Simhash原理

Simhash是一种局部敏感hash。即假定A、B具有一定的相似性,在hash之后,仍然能保持这种相似性,就称之为局部敏感hash。

得到一篇文章关键词集合,通过hash的方法把关键词集合hash成一串二进制,直接对比二进制数,其相似性就是两篇文档的相似性,在查看相似性时采用海明距离,即在对比二进制的时候,看其有多少位不同,就称海明距离为多少。

将文章simhash得到一串64位的二进制,根据经验一般取海明距离为3作为阈值,即在64位二进制中,只要有三位以内不同,就可以认为两个文档是相似的,这里的阈值也可以根据自己的需求来设置。也就是把一个文档hash之后得到一串二进制数的算法,称这个hash为simhash。

simhash具体实现步骤如下:

  • 将文档分词,取一个文章的TF-IDF权重最高的前20个词(feature)和权重(weight)。即一篇文档得到一个长度为20的(feature:weight)的集合。

  • 对其中的词(feature),进行普通的哈希之后得到一个64为的二进制,得到长度为20的(hash : weight)的集合。

  • 根据(2)中得到一串二进制数(hash)中相应位置是1是0,对相应位置取正值weight和负值weight。例如一个词进过(2)得到(010111:5)进过步骤(3)之后可以得到列表[-5,5,-5,5,5,5]。由此可以得到20个长度为64的列表[weight,-weight...weight]代表一个文档。

  • 对(3)中20个列表进行列向累加得到一个列表。如[-5,5,-5,5,5,5]、[-3,-3,-3,3,-3,3]、[1,-1,-1,1,1,1]进行列向累加得到[-7,1,-9,9,3,9],这样,我们对一个文档得到,一个长度为64的列表。

  • 对(4)中得到的列表中每个值进行判断,当为负值的时候去0,正值取1。例如,[-7,1,-9,9,3,9]得到010111,这样就得到一个文档的simhash值了。

  • 计算相似性。两个simhash取异或,看其中1的个数是否超过3。超过3则判定为不相似,小于等于3则判定为相似。

Simhash整体流程图如下:

怎么利用python实现Simhash算法

4. Simhash的不足

完全无关的文本正好对应成了相同的simhash,精确度并不是很高,而且simhash更适用于较长的文本,但是在大规模语料进行去重时,simhash的计算速度优势还是很不错的。

5. Simhash算法实现

# !/usr/bin/python# coding=utf-8class Simhash:    def __init__(self, tokens='', hashbits=128):        self.hashbits = hashbits        self.hash = self.simhash(tokens)    def __str__(self):        return str(self.hash)    # 生成simhash值    def simhash(self, tokens):        v = [0] * self.hashbits        for t in [self._string_hash(x) for x in tokens]:  # t为token的普通hash值            for i in range(self.hashbits):                bitmask = 1 << i                if t & bitmask:                    v[i] += 1  # 查看当前bit位是否为1,是的话将该位+1                else:                    v[i] -= 1  # 否则的话,该位-1        fingerprint = 0        for i in range(self.hashbits):            if v[i] >= 0:                fingerprint += 1 << i        return fingerprint  # 整个文档的fingerprint为最终各个位>=0的和    # 求海明距离    def hamming_distance(self, other):        x = (self.hash ^ other.hash) & ((1 << self.hashbits) - 1)        tot = 0        while x:            tot += 1            x &= x - 1        return tot    # 求相似度    def similarity(self, other):        a = float(self.hash)        b = float(other.hash)        if a > b:            return b / a        else:            return a / b    # 针对source生成hash值    def _string_hash(self, source):        if source == "":            return 0        else:            x = ord(source[0]) << 7            m = 1000003            mask = 2 ** self.hashbits - 1            for c in source:                x = ((x * m) ^ ord(c)) & mask            x ^= len(source)            if x == -1:                x = -2            return x

测试:

if __name__ == '__main__':    s = 'This is a test string for testing'    hash2 = Simhash(s.split())    s = 'This is a string testing 11'    hash3 = Simhash(s.split())    print(hash2.hamming_distance(hash3), "   ", hash2.similarity(hash3))

读到这里,这篇“怎么利用python实现Simhash算法”文章已经介绍完毕,想要掌握这篇文章的知识点还需要大家自己动手实践使用过才能领会,如果想了解更多相关内容的文章,欢迎关注编程网Python频道。

--结束END--

本文标题: 怎么利用python实现Simhash算法

本文链接: https://lsjlt.com/news/342182.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 怎么利用python实现Simhash算法
    本文小编为大家详细介绍“怎么利用python实现Simhash算法”,内容详细,步骤清晰,细节处理妥当,希望这篇“怎么利用python实现Simhash算法”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。1. 为什...
    99+
    2023-07-02
  • 如何利用python实现Simhash算法
    目录1. 为什么需要Simhash2. 文章关键词特征提取算法TD-IDF3. Simhash原理4. Simhash的不足5. Simhash算法实现1. 为什么需要Simhash...
    99+
    2024-04-02
  • python实现Simhash算法
    1、simhash步骤 simhash包含分词、hash、加权、合并、降维五大步骤 simhash代码如下: import jieba import jieba.analyse im...
    99+
    2024-04-02
  • python如何实现Simhash算法
    这篇文章主要介绍python如何实现Simhash算法,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!1、simhash步骤simhash包含分词、hash、加权、合并、降维五大步骤simhash代码如下:import...
    99+
    2023-06-29
  • 怎么利用PyTorch实现爬山算法
    这篇文章主要介绍“怎么利用PyTorch实现爬山算法”,在日常操作中,相信很多人在怎么利用PyTorch实现爬山算法问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么利用PyTorch实现爬山算法”的疑惑有所...
    99+
    2023-07-02
  • python中怎么利用numpy.dot实现点乘运算
    python中怎么利用numpy.dot实现点乘运算,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。说明对于两个一维数组,计算这两个数组对应下标元素的乘积和(数学...
    99+
    2023-06-20
  • 怎么利用java实现一个二分法算法
    这篇文章给大家介绍怎么利用java实现一个二分法算法,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。java 二分法算法1、前提:二分查找的前提是需要查找的数组必须是已排序的,我们这里的实现默认为升序2、原理:将数组分为...
    99+
    2023-05-31
    java 二分法算法 ava
  • 怎么查重python文本相似性计算simhash源码
    今天小编给大家分享一下怎么查重python文本相似性计算simhash源码的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。场景...
    99+
    2023-06-29
  • 怎么在Python中利用排序算法实现插入排序
    怎么在Python中利用排序算法实现插入排序,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。一、插入排序插入排序与我们平时打扑克牌非常相似,将新摸到的牌插入到已有的牌中合适的位置...
    99+
    2023-06-15
  • Python中怎么利用DBSCAN实现一个密度聚类算法
    Python中怎么利用DBSCAN实现一个密度聚类算法,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。基于密度这点有什么好处呢我们知道kmeans聚类算法只能处理球形的簇,也就是...
    99+
    2023-06-16
  • 利用Python如何实现K-means聚类算法
    目录前言算法原理 目标函数 算法流程  Python实现 总结 前言 K-Means 是一种非常简单的聚类算法(聚类算法都属于无监督学习)。给定固定数量的聚类和输入数据集,...
    99+
    2024-04-02
  • Python利用FlashText算法实现替换字符串
    目录前言1.准备2.基本使用提取关键词替换关键词关键词大小写敏感标记关键词位置获取目前所有的关键词批量添加关键词单一或批量删除关键词3.高级使用支持额外信息支持特殊单词边界4.结尾前...
    99+
    2024-04-02
  • 利用PyTorch实现爬山算法
    目录0. 前言1. 使用 PyTorch 实现爬山算法1.1 爬山算法简介1.2 使用爬山算法进行 CartPole 游戏2. 改进爬山算法0. 前言 在随机搜索策略中,每个回合都是...
    99+
    2024-04-02
  • 怎么利用Matlab实现迭代适应点算法
    本篇内容主要讲解“怎么利用Matlab实现迭代适应点算法”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎么利用Matlab实现迭代适应点算法”吧!道格拉斯-普克算法(Douglas&nd...
    99+
    2023-06-29
  • 怎么用python代码实现knn算法
    下面是一个简单的示例代码,实现了knn算法:```pythonimport numpy as npfrom collections ...
    99+
    2023-10-11
    python knn算法
  • 利用Python 实现分布式计算
    目录前言什么是 Ray安装 Ray使用 Ray使用 Ray 集群1. 下载 ubuntu 镜像2. 启动 ubuntu 容器,安装依赖3. 启动 head 节点和 worker 节点...
    99+
    2024-04-02
  • Python利用SVM算法实现识别手写数字
    目录前言使用 SVM 进行手写数字识别参数 C 和 γ 对识别手写数字精确度的影响完整代码前言 支持向量机 (Support Vector Machine, SVM) 是一种监督学习...
    99+
    2024-04-02
  • Python怎么实现遗传算法
    这篇文章给大家分享的是有关Python怎么实现遗传算法的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。(一)问题遗传算法求解正方形拼图游戏(二)代码#!/usr/bin/env python# ...
    99+
    2023-06-21
  • python怎么实现K-means算法
    本篇内容介绍了“python怎么实现K-means算法”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!  K-means 聚类算法  特点  ...
    99+
    2023-06-01
  • 利用java 怎么实现一个归并排序算法
    本篇文章给大家分享的是有关利用java 怎么实现一个归并排序算法,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。 归并排序算法,顾名思义,是一种先分再合的算法,其算法思...
    99+
    2023-05-31
    java 归并排序算法 ava
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作