返回顶部
首页 > 资讯 > 后端开发 > Python >​Python爬虫怎么实现url去重
  • 555
分享到

​Python爬虫怎么实现url去重

2023-06-02 12:06:35 555人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章主要介绍“python爬虫怎么实现url去重”,在日常操作中,相信很多人在python爬虫怎么实现url去重问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python爬虫怎么实现url去重”的疑惑有所

这篇文章主要介绍“python爬虫怎么实现url去重”,在日常操作中,相信很多人在python爬虫怎么实现url去重问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python爬虫怎么实现url去重”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

一、前言

Python爬虫里url去重策略及实现。

二、url去重及策略简介

1.url去重

    从字面上理解,url去重即去除重复的url,在爬虫中就是去除已经爬取过的url,避免重复爬取,既影响爬虫效率,又产生冗余数据。

2.url去重策略

    从表面上看,url去重策略就是消除url重复的方法,常见的url去重策略有五种,如下:

1# 1.将访问过的ur保存到数据库
2# 2.将访问过的ur保存到set(集合)中,只需要o(1)的代价就可以查询url
3#       10000000*2byte*50个字符/1024/1024/1024=9G
4# 3.url经过md5等方法哈希后保存到set中
5# 4.用 bitmap方法,将访问过的ur通过hash函数映射到某一位
6# 5. bloomfilter方法对 bitmap进行改进,多重hash函数降低冲突

三、看代码,边学边敲边记url去重策略

1.将访问过的ur保存到数据库中(初学使用)

实现起来最简单,但效率最低。
其核心思想是,把页面上爬取到的每个url存储到数据库,为了避免重复,每次存储前都要遍历查询数据库中是否已经存在当前url(即是否已经爬取过了),若存在,则不保存,否则,保存当前url,继续保存下一条,直至结束。

2.将访问过的ur保存到set内存中

将访问过的ur保存到set中,只需要o(1)的代价就可以查询url,取url方便快速,基本不用查询,但是随着存储的url越来越多,占用内存会越来越大。

1# 简单计算:假设有1亿条url,每个url平均长度为50个字符,python里unicode编码,每个字符16位,占2
2# 个字节(byte)
3# 计算式:10^8 x 50个字符 x 2个byte / 1024 / 1024 / 1024 = 9G
4#                                    B      M      G
5如果是2亿个url,那么占用内存将达18G,也不是特别方便,适合小型爬虫。
3.url经过md5缩减到固定长度
 1'''
2简单计算:一个url经MD5转换,变成一个128bit(位)的字符串,占16byte(字节),方法二中一个url保守
3估计占50个字符 x 2 = 100byte(字节),
4计算式: 这样一比较,MD5的空间节省率为:(100-16)/100 = 84%(相比于方法二)
5(scrapy框架url去重就是采用的类似方法)
6'''
7# 维基百科看MD5算法
8'''
9MD5概述
10设计者 : 罗纳德·李维斯特
11首次发布 : 1992年4月
12系列 : MD, MD2, MD3, MD4, MD5
13编码长度 : 128位
14结构 : Merkle–Damgård construction
15    MD5消息摘要算法(英语:MD5 Message-Digest AlGorithm),一种被广泛使用的密码散列函数,可
16以产生出一个128位(16字节)的散列值(hash value),用于确保信息传输完整一致。MD5由美国密码学家
17罗纳德·李维斯特(Ronald Linn Rivest)设计,于1992年公开,用以取代MD4算法。这套算法的程序在 
18RFC 1321 中被加以规范。
19将数据(如一段文字)运算变为另一固定长度值,是散列算法的基础原理。
20'''

MD5使用实例:

 1# 在python3中使用hashlib模块进行md5操作
2import hashlib
3
4# 待加密信息
5str01 = 'This is your md5 passWord!'
6# 创建md5对象
7md5_obj = hashlib.md5()
8# 进行MD5加密前必须 encode(编码),python里默认是unicode编码,必须转换成utf-8
9# 否则报错:TypeError: Unicode-objects must be encoded before hashing
10md5_obj.update(str01.encode(encoding='utf-8'))
11
12print('XksA的原话为 :' + str01)
13print('MD5加密后为 :' + md5_obj.hexdigest())
14
15# result :
16#        XksA的原话为 :This is your md5 password!
17#        MD5加密后为 :0a5f76e7b0f352e47fed559f904c9159
4.用 bitmap方法,将访问过的ur通过hash函数映射到某一位
 1'''
2实现原理:通过hash函数,将每个url映射到一个hash位置中,一个hash位可以只占用一个bit(位)大小,那
3么相对于方法三:一个url占128bit(位),hash函数法的空间节省成百倍增长。
4计算式:这样一比较,bitmap方法的空间节省率为:
5(128-1)/128= 99.2%(相比于方法三)
6(100 * 8 - 1)/(100*8)= 99.88%(相比于方法一)
7                       ##   (缺点:容易产生冲突)  ##
8'''
9# 维基百科看Hash 函数
10'''
11hash函数:
12散列函数(英语:Hash function)又称散列算法、哈希函数,是一种从任何一种数据中创建小的数字“指纹”
13的方法。散列函数把消息或数据压缩成摘要,使得数据量变小,将数据的格式固定下来。该函数将数据打乱混
14合,重新创建一个叫做散列值(hash values,hash codes,hash sums,或hashes)的指纹。散列值通常
15用一个短的随机字母和数字组成的字符串来代表。好的散列函数在输入域中很少出现散列冲突。在散列表和数
16据处理中,不抑制冲突来区别数据,会使得数据库记录更难找到。
17'''
5.bloomfilter方法对 bitmap进行改进,多重hash函数降低冲突
 1# 维基百科看Bloomfilter
2'''
3# 基本概述
4   如果想判断一个元素是不是在一个集合里,一般想到的是将集合中所有元素保存起来,然后通过比较确定。
5链表、树、散列表(又叫哈希表,Hash table)等等数据结构都是这种思路。但是随着集合中元素的增加,
6我们需要的存储空间越来越大。同时检索速度也越来越慢,上述三种结构的检索时间复杂度分别为:
7                            O(n),O(log n),O(n/k)
8# 原理概述
9   布隆过滤器的原理是,当一个元素被加入集合时,通过K个散列函数将这个元素映射成一个位数组中的K个
10点,把它们置为1。检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些点
11有任何一个0,则被检元素一定不在;如果都是1,则被检元素很可能在。这就是布隆过滤器的基本思想。
12# 优缺点
13    布隆过滤器可以用于检索一个元素是否在一个集合中。
14    优点是空间效率和查询时间都远远超过一般的算法。
15    缺点是有一定的误识别率和删除困难。
16'''
17# Bloomfilter介绍还可以看这里:https://blog.csdn.net/preyta/article/details/72804148

Bloomfilter底层实现:

 1# 源码地址:Https://GitHub.com/preytaren/fastbloom/blob/master/fastbloom/bloomfilter.py
2import math
3import logging
4import functools
5
6import pyhash
7
8from bitset import MmapBitSet
9from hash_tools import hashes
10
11
12class BloomFilter(object):
13    """
14    A bloom filter implementation,
15    which use Murmur hash and Spooky hash
16    """
17    def __init__(self, capacity, error_rate=0.0001, fname=None,
18                 h2=pyhash.murmur3_x64_128(), h3=pyhash.spooky_128()):
19        """
20        :param capacity: size of possible input elements
21        :param error_rate: posi
22        :param fname:
23        :param h2:
24        :param h3:
25        """
26        # calculate m & k
27        self.capacity = capacity
28        self.error_rate = error_rate
29        self.num_of_bits, self.num_of_hashes = self._adjust_param(4096 * 8,
30                                                                  error_rate)
31        self._fname = fname
32        self._data_store = MmapBitSet(self.num_of_bits)
33        self._size = len(self._data_store)
34        self._hashes = functools.partial(hashes, h2=h2, h3=h3, number=self.num_of_hashes)
35
36    def _adjust_param(self, bits_size, expected_error_rate):
37        """
38        adjust k & m through 4 steps:
39        1. Choose a ballpark value for n
40        2. Choose a value for m
41        3. Calculate the optimal value of k
42        4. Calculate the error rate for our chosen values of n, m, and k.
43           If it's unacceptable, return to step 2 and change m;
44           otherwise we're done.
45        in every loop, m = m * 2
46        :param bits_size:
47        :param expected_error_rate:
48        :return:
49        """
50        n, estimated_m, estimated_k, error_rate = self.capacity, int(bits_size / 2), None, 1
51        weight, e = math.log(2), math.exp(1)
52        while error_rate > expected_error_rate:
53            estimated_m *= 2
54            estimated_k = int((float(estimated_m) / n) * weight) + 1
55            error_rate = (1 - math.exp(- (estimated_k * n) / estimated_m)) ** estimated_k
56            logging.info(estimated_m, estimated_k, error_rate)
57        return estimated_m, estimated_k
58
59    def add(self, msg):
60        """
61        add a string to bloomfilter
62        :param msg:
63        :return:
64        """
65        if not isinstance(msg, str):
66            msg = str(msg)
67        positions = []
68        for _hash_value in self._hashes(msg):
69            positions.append(_hash_value % self.num_of_bits)
70        for pos in sorted(positions):
71            self._data_store.set(int(pos))
72
73    @staticmethod
74    def open(self, fname):
75        with open(fname) as fp:
76            raise NotImplementedError
77
78    def __str__(self):
79        """
80        output bitset directly
81        :return:
82        """
83        pass
84
85    def __contains__(self, msg):
86        if not isinstance(msg, str):
87            msg = str(msg)
88        positions = []
89        for _hash_value in self._hashes(msg):
90            positions.append(_hash_value % self.num_of_bits)
91        for position in sorted(positions):
92            if not self._data_store.test(position):
93                return False
94        return True
95
96    def __len__(self):
97        return self._size

到此,关于“Python爬虫怎么实现url去重”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注编程网网站,小编会继续努力为大家带来更多实用的文章!

--结束END--

本文标题: ​Python爬虫怎么实现url去重

本文链接: https://lsjlt.com/news/229962.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • ​Python爬虫怎么实现url去重
    这篇文章主要介绍“Python爬虫怎么实现url去重”,在日常操作中,相信很多人在Python爬虫怎么实现url去重问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python爬虫怎么实现url去重”的疑惑有所...
    99+
    2023-06-02
  • Python爬虫后如何获取重定向url
    小编给大家分享一下Python爬虫后如何获取重定向url,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!python的数据类型有哪些python的数据类型:1. 数...
    99+
    2023-06-14
  • URL去重该如何实现
    URL去重该如何实现,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。IPv6编码地址数:2^128(约3.4×10^38)IPv6是IETF设...
    99+
    2023-06-17
  • Python怎么实现selenium多线程爬虫
    要在Python中实现Selenium多线程爬虫,你可以按照以下步骤进行操作: 导入必要的库: from selenium im...
    99+
    2023-10-24
    Python selenium
  • python实现简单爬虫--爬图片
    首先有两个功能需求:第一:获取到要爬的页面html内容;第二:使用正则表达式进行匹配并进行保存到本地。#!/usr/bin/env python #encoding:utf-8 import urllib import re def get...
    99+
    2023-01-31
    爬虫 简单 图片
  • 怎么用Python代码实现新闻爬虫
    本篇内容介绍了“怎么用Python代码实现新闻爬虫”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!新闻源:Reddit我们可以通过Reddit...
    99+
    2023-06-16
  • python PyQt5 爬虫实现代码
    搞一个图形化界面还是挺酷的,是吧 安装库什么的应该不用多说了吧。。 一般来说会让你把 designer.exe(编辑图形化界面的东西,跟vb差不多) 当作外部工具导入到 pychar...
    99+
    2024-04-02
  • Python列表去重怎么实现
    可以通过使用set()函数,将列表转换为集合,实现列表去重。例如:lst = [1, 2, 3, 3, 4, 5, 5]new_ls...
    99+
    2023-10-20
    Python
  • Python爬虫怎么突破反爬虫机制
    这篇文章主要介绍“Python爬虫怎么突破反爬虫机制”,在日常操作中,相信很多人在Python爬虫怎么突破反爬虫机制问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python爬虫怎么突破反爬虫机制”的疑惑有所...
    99+
    2023-06-25
  • c#怎么实现爬虫程序
    这篇文章主要介绍了c#怎么实现爬虫程序的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇c#怎么实现爬虫程序文章都会有所收获,下面我们一起来看看吧。图1如图1,我们工作过程中,无论平台网站还是企业官网,总少不了新闻...
    99+
    2023-06-29
  • Java语言怎么实现爬虫
    这篇文章给大家分享的是有关Java语言怎么实现爬虫的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。为什么我们要爬取数据在大数据时代,我们要获取更多数据,就要进行数据的挖掘、分析、筛选,比如当我们做一个项目的时候,需...
    99+
    2023-06-22
  • python爬虫反爬怎么处理
    针对 python 爬虫的反爬措施,开发者可以通过以下方式处理:获取代理 ip:使用代理池或手动收集代理 ip 以隐藏真实 ip。模拟浏览器行为:发送真实的用户代理、设置合适的请求头并模...
    99+
    2024-05-22
    python
  • Python爬虫怎么实现搭建代理ip池
    这篇“Python爬虫怎么实现搭建代理ip池”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Python爬虫怎么实现搭建代理i...
    99+
    2023-07-02
  • 简单实现python爬虫功能
    在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材。   我们最常规的做法就是通过鼠标右键,选择另存为。但有些图...
    99+
    2022-06-04
    爬虫 简单 功能
  • 怎么使用Python爬虫
    本篇内容介绍了“怎么使用Python爬虫”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!导入模块import re fro...
    99+
    2023-06-16
  • Python怎么爬虫博文
    本篇内容主要讲解“Python怎么爬虫博文”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python怎么爬虫博文”吧!一. 大数据及数据挖掘基础***部分主要简单介绍三个问题:什么是大数据?什么...
    99+
    2023-06-17
  • Python爬虫XPath怎么用
    这篇文章主要为大家展示了“Python爬虫XPath怎么用”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“Python爬虫XPath怎么用”这篇文章吧。一、问题描述1.什么是XPath?xpath...
    99+
    2023-06-25
  • Python爬虫怎么爬取KFC地址
    这篇文章将为大家详细讲解有关Python爬虫怎么爬取KFC地址,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。python主要应用领域有哪些1、云计算,典型应用OpenStack。2、WEB前端开发,众多大...
    99+
    2023-06-14
  • Python爬虫怎么UA伪装爬取
    小编给大家分享一下Python爬虫怎么UA伪装爬取,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!python可以做什么Python是一种编程语言,内置了许多有效的...
    99+
    2023-06-14
  • Python爬虫的两套解析方法和四种爬虫实现
    【本文转载自微信公众号:数据科学家养成记,作者:louwill,转载授权请联系原作者】 对于大多数朋友而言,爬虫绝对是学习python的最好的起手和入门方式。因为爬虫思维模式固定,编程模式也相对简单,一般在细节处理上积累一些经验都...
    99+
    2023-06-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作