Python多线程爬虫简单示例

爬虫示例多线程 2022-06-04 19:06:47 282人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

python是支持多线程的，主要是通过thread和threading这两个模块来实现的。thread模块是比较底层的模块，threading模块是对thread做了一些包装的，可以更加方便的使用。虽然

python是支持多线程的，主要是通过thread和threading这两个模块来实现的。thread模块是比较底层的模块，threading模块是对thread做了一些包装的，可以更加方便的使用。

虽然Python的多线程受GIL限制，并不是真正的多线程，但是对于I/O密集型计算还是能明显提高效率，比如说爬虫。

下面用一个实例来验证多线程的效率。代码只涉及页面获取，并没有解析出来。


# -*-coding:utf-8 -*-
import urllib2, time
import threading
 
 
class MyThread(threading.Thread):
  def __init__(self, func, args):
    threading.Thread.__init__(self)
    self.args = args
    self.func = func
 
  def run(self):
    apply(self.func, self.args)
 
 
def open_url(url):
  request = urllib2.Request(url)
  html = urllib2.urlopen(request).read()
  print len(html)
  return html
 
if __name__ == '__main__':
  # 构造url列表
  urlList = []
  for p in range(1, 10):
    urlList.append('Http://s.wanfangdata.com.cn/Paper.aspx?q=%E5%8C%BB%E5%AD%A6&p=' + str(p))
   
  # 一般方式
  n_start = time.time()
  for each in urlList:
    open_url(each)
  n_end = time.time()
  print 'the nORMal way take %s s' % (n_end-n_start)
   
  # 多线程
  t_start = time.time()
  threadList = [MyThread(open_url, (url,)) for url in urlList]
  for t in threadList:
    t.setDaemon(True)
    t.start()
  for i in threadList:
    i.join()
  t_end = time.time()
  print 'the thread way take %s s' % (t_end-t_start)

分别用两种方式获取10个访问速度比较慢的网页，一般方式耗时50s，多线程耗时10s。

多线程代码解读:


# 创建线程类，继承Thread类
class MyThread(threading.Thread):
  def __init__(self, func, args):
    threading.Thread.__init__(self) # 调用父类的构造函数
    self.args = args
    self.func = func
 
  def run(self): # 线程活动方法
    apply(self.func, self.args)


threadList = [MyThread(open_url, (url,)) for url in urlList] # 调用线程类创建新线程，返回线程列表
  for t in threadList:
    t.setDaemon(True) # 设置守护线程，父线程会等待子线程执行完后再退出
    t.start() # 线程开启
  for i in threadList:
    i.join() # 等待线程终止，等子线程执行完后再执行父线程

以上就是本文的全部内容，希望对大家的学习有所帮助。

您可能感兴趣的文档:

--结束END--

本文标题: Python多线程爬虫简单示例

本文链接: https://lsjlt.com/news/15240.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

Python多线程爬虫简单示例

python是支持多线程的，主要是通过thread和threading这两个模块来实现的。thread模块是比较底层的模块，threading模块是对thread做了一些包装的，可以更加方便的使用。虽然...

99+

2022-06-04

爬虫示例多线程
Python异步爬虫多线程与线程池示例详解

目录背景异步爬虫方式多线程，多进程（不建议）线程池，进程池（适当使用）单线程+异步协程（推荐）多线程线程池背景当对多个url发送请求时，只有请求完第一个url才会接着请求第二个ur...

99+

2024-04-02
python爬虫中多线程和多进程的示例分析

小编给大家分享一下python爬虫中多线程和多进程的示例分析，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！python是什么意思Python是一种跨平台的、具有解释性、编译性、互动性和面向对象的脚本语言，其最初的设计是用于...

99+

2023-06-14
python实现简单爬虫功能的示例

在我们日常上网浏览网页的时候，经常会看到一些好看的图片，我们就希望把这些图片保存下载，或者用户用来做桌面壁纸，或者用来做设计的素材。我们最常规的做法就是通过鼠标右键，选择另存为。但有些图片鼠标右键的时候...

99+

2022-06-04

爬虫示例简单
Python简单爬虫

爬取链家二手房源信息import requests import re from bs4 import BeautifulSoup import csv url = ['https://cq.lianjia.com/ershoufang/...

99+

2023-01-31

爬虫简单 Python
python3爬虫中多线程的使用示例

这篇文章主要介绍了python3爬虫中多线程的使用示例，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。本文教程操作环境：windows7系统、Python 3.9.1，DELL...

99+

2023-06-14
Python 爬虫学习笔记之单线程爬虫

介绍本篇文章主要介绍如何爬取麦子学院的课程信息（本爬虫仍是单线程爬虫），在开始介绍之前，先来看看结果示意图怎么样，是不是已经跃跃欲试了？首先让我们打开麦子学院的网址，然后找到麦子学院的全部课程信息，像...

99+

2022-06-04

爬虫单线程学习笔记
Python+多线程+队列爬虫

Python+多线程+队列，爬虫例子 # -*- coding: utf-8-*- import urllib2 import urllib import json import time import datetime import t...

99+

2023-01-31

爬虫队列多线程
Python 爬虫学习笔记之多线程爬虫

XPath 的安装以及使用 1 . XPath 的介绍刚学过正则表达式，用的正顺手，现在就把正则表达式替换掉，使用 XPath，有人表示这太坑爹了，早知道刚上来就学习 XPath 多省事啊。其实我个人认...

99+

2022-06-04

爬虫之多线程
node.js实现简单爬虫示例详解

目录node.js实现简单爬虫第一步第二步爬虫结果小结：node.js实现简单爬虫工具：cheerio cheerio 是 nodejs 特别为服务端定制的，能够快速灵活的对 JQ...

99+

2023-05-17

node.js简单爬虫 node.js爬虫
Python 简单业务爬虫

如何快速下载贴吧图片呢？#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib import re def getHtml(url): page = urllib.urlop...

99+

2023-01-31

爬虫简单业务
python简单爬虫笔记

python模拟游览器爬取相关页面 import urllib.request url="https://blog.51cto.com/itstyle/2146899" #模拟浏览器 headers=("User-Agent","Moz...

99+

2023-01-31

爬虫简单笔记
python异步爬虫之多线程

多线程，多进程（不建议使用）优点：可以为相关阻塞的操作单独开启线程或者进程，阻塞操作可以异步执行弊端：无法无限制开启多线程或多进程。原则：线程池处理的是阻塞且耗时的操作单线爬虫示例...

99+

2024-04-02
Python 爬虫多线程详解及实例代码

python是支持多线程的，主要是通过thread和threading这两个模块来实现的。thread模块是比较底层的模块，threading模块是对thread做了一些包装的，可以更加方便的使用。虽然...

99+

2022-06-04

爬虫多线程详解
java编程实现简单的网络爬虫示例过程

本项目中需要用到两个第三方jar包，分别为 jsoup 和 commons-io。 jsoup的作用是为了解析网页， commons-io 是为了把数据保存到本地。 1.爬取贴吧第...

99+

2024-04-02
python爬虫入门八：多进程/多线程

引用虫师的解释：计算机程序只不过是磁盘中可执行的，二进制（或其它类型）的数据。它们只有在被读取到内存中，被操作系统调用的时候才开始它们的生命期。进程（有时被称为重量级进程）是程序的一次执行。每个进程都有自己的地址空间，内存，数据栈...

99+

2023-01-30

爬虫多线程入门
python实现简单爬虫--爬图片

首先有两个功能需求：第一：获取到要爬的页面html内容；第二：使用正则表达式进行匹配并进行保存到本地。#!/usr/bin/env python #encoding:utf-8 import urllib import re def get...

99+

2023-01-31

爬虫简单图片
多线程爬虫介绍

一个进程里只有一个线程，我们称之为单线程爬虫。单线程爬虫每次只访问一个页面，不能充分利用电脑的网络带宽。一个页面最多也就几百KB，所以爬虫在爬取一个页面的时候，多出来的网速就浪费掉了。而如果我们可以让爬虫同时访问10个页面，就相当于我们...

99+

2023-01-30

爬虫多线程
python实现爬虫统计学校BBS男女比例之多线程爬虫（二）

接着第一篇继续学习。一、数据分类正确数据：id、性别、活动时间三者都有放在这个文件里file1 = 'ruisi\correct%s-%s.txt' % (startNum, endNum) 数据格式...

99+

2022-06-04

爬虫之多线程
python爬虫xpath模块简介示例代码

目录一、前言二、简介三、安装四、使用五、案例一、前言前两篇博客讲解了爬虫解析网页数据的两种常用方法，re正则表达解析和beautifulsoup标签解析，所以今天的博客将围绕另外一...

99+

2023-02-14

python xpath模块 python爬虫 xpath