python threadpool多线程

多线程 python threadpool 2023-01-31 03:01:57 135人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

在写爬虫下载一个网页中的多个链接文件时（Http://blog.sina.com.cn/s/blog_740773f40100ywyg.html ），使用多线程会提高下载速度。使用线程池能够简单的解决这

在写爬虫下载一个网页中的多个链接文件时（Http://blog.sina.com.cn/s/blog_740773f40100ywyg.html ），使用多线程会提高下载速度。

使用线程池能够简单的解决这个问题。首先使用threadpool模块，虽然这个模块很老了，pypi上也建议使用multiprocessing 代替它。

This module is OBSOLETE and is only provided on PyPI to support old projects that still use it. Please DO NOT USE IT FOR NEW PROJECTS! Use modern alternatives like the multiprocessing module in the standard library or even an asynchroneous approach with asyncio.

来源： https://pypi.python.org/pypi/threadpool#downloads

但是，对于小白来说，利用这个模块来实现多线程异常简单，就5行代码。。

from threadpool import *
pool = ThreadPool(poolsize) 
requests = makeRequests(some_callable, list_of_args, callback) 
[pool.putRequest(req) for req in requests] 
pool.wait()


       
首先，没有安装的话，使用 pip install threadpool 命令安装这个模块。

        上面5行中，特别要注意第三行的参数，第1，2个参数是必须的，第3个可有可无。

        some_callable 是子线程的处理函数，list_of_args 为需要传递的参数的列表。官网给出的说明是：
args_list contains the parameters for each invocation of callable. Each item in args_list should be either a 2-item tuple of the list of positional arguments and a dictionary of keyWord arguments or a single, non-tuple argument.



在实际调用时，使用的是：




result = request.callable(*request.args, **request.kwds)


来源： http://bbs.csdn.net/topics/391886273
        *args作为形参时，作为一个元组匹配没有指定参数名的参数。而**kwds作为字典，匹配指定了参数名的参数。（http://my.oschina.net/935572630/blog/393539  ）
     
   举个例子，用三种方法爬取开头网页中所有的pdf。

1、单个参数传递


import cookielib
import urllib2
import Socket
import os
from bs4 import BeautifulSoup
import threadpool
import threading
 
def download(pdfUrl): 
    folder = 'matlab_pdf'
    mutex.acquire(10)
 if not os.path.exists(folder):
        os.makedirs(folder)
    mutex.release()
    name = pdfUrl.split('/')[-1]
 try:
        status = False 
        f = open(os.path.join(folder,name),'wb') 
        f.write(urllib2.urlopen(pdfUrl).read())
        f.close()
        status = True
 except Exception as err:
 print err
        f.close()
 return (name,status)
 
def print_result(request, result): 
 print "the %s is %s" % (result[0], 'downloaded!' if result[1] else 'can not find.') 
 
initUrl = r"http://blog.sina.com.cn/s/blog_740773f40100ywyg.html"
socket.setdefaulttimeout(10)
cj = cookielib.Cookiejar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders = [('User-agent','Mozilla/4.0 (compatible; MSIE 6.0; windows NT 5.1)')]
urllib2.install_opener(opener)
resp = urllib2.urlopen(initUrl).read()
a_list = BeautifulSoup(resp).find_all('a')
urls = [a.get('href') for a in a_list]
pdfUrls = [url for url in urls if url and len(url)>3 and url[-3:]=='pdf']
mutex = threading.Lock()
pool = threadpool.ThreadPool(30) 
requests = threadpool.makeRequests(download,pdfUrls,print_result) 
[pool.putRequest(req) for req in requests] 
pool.wait()


2、传递未指明参数名的参数。


import cookielib
import urllib2
import socket
import os
from bs4 import BeautifulSoup
import threadpool
import threading
def download(name,pdfUrl): 
    folder = 'matlab_pdf_test'
    mutex.acquire(10)
 if not os.path.exists(folder):
        os.makedirs(folder)
    mutex.release()
#    name = pdfUrl.split('/')[-1]
 #print 'this is '+name+pdfUrl
 try:
        status = False 
        f = open(os.path.join(folder,name),'wb') 
        f.write(urllib2.urlopen(pdfUrl).read())
        f.close()
        status = True
 except Exception as err:
 print err
        f.close()
 return (name,status)
 
def print_result(request, result): 
 print "the %s is %s" % (result[0], 'downloaded!' if result[1] else 'can not find.') 
 
initUrl = r"http://blog.sina.com.cn/s/blog_740773f40100ywyg.html"
socket.setdefaulttimeout(10)
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders = [('User-agent','Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)')]
urllib2.install_opener(opener)
resp = urllib2.urlopen(initUrl).read()
a_list = BeautifulSoup(resp).find_all('a')
urls = [a.get('href') for a in a_list]
pdfUrls = [url for url in urls if url and len(url)>3 and url[-3:]=='pdf']
v = list(map(lambda x: [x.split('/')[-1],x], pdfUrls))
u = [None for i in range(len(pdfUrls))]
 
mutex = threading.Lock()
pool = threadpool.ThreadPool(30) 
requests = threadpool.makeRequests(download,zip(v,u),print_result) 
[pool.putRequest(req) for req in requests] 
pool.wait()

3、传递指明参数名的参数



import cookielib
import urllib2
import socket
import os
from bs4 import BeautifulSoup
import threadpool
import threading
def download(name,pdfUrl): 
    folder = 'matlab_pdf_test'
    mutex.acquire(10)
 if not os.path.exists(folder):
        os.makedirs(folder)
    mutex.release()
#    name = pdfUrl.split('/')[-1]
 #print 'this is '+name+pdfUrl
 try:
        status = False 
        f = open(os.path.join(folder,name),'wb') 
        f.write(urllib2.urlopen(pdfUrl).read())
        f.close()
        status = True
 except Exception as err:
 print err
        f.close()
 return (name,status)
 
def print_result(request, result): 
 print "the %s is %s" % (result[0], 'downloaded!' if result[1] else 'can not find.') 
 
initUrl = r"http://blog.sina.com.cn/s/blog_740773f40100ywyg.html"
socket.setdefaulttimeout(10)
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders = [('User-agent','Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)')]
urllib2.install_opener(opener)
resp = urllib2.urlopen(initUrl).read()
a_list = BeautifulSoup(resp).find_all('a')
urls = [a.get('href') for a in a_list]
pdfUrls = [url for url in urls if url and len(url)>3 and url[-3:]=='pdf']
#v = list(map(lambda x: [x.split('/')[-1],x], pdfUrls))
v = list(map(lambda x: {'name':x.split('/')[-1],'pdfUrl':x}, pdfUrls))
u = [None for i in range(len(pdfUrls))]
 
mutex = threading.Lock()
pool = threadpool.ThreadPool(30) 
requests = threadpool.makeRequests(download,zip(u,v),print_result) 
[pool.putRequest(req) for req in requests] 
pool.wait()

注意：


1、传递指明参数名的参数时，list_of_args 里dict的key要跟some_callable 的参数名称保持一致。

2、传递未指明参数名的参数和传递指明参数名的参数时，参数打包成tuple的位置不一样，一个是(list,None)，一个是(None,dict)。参见 http://bbs.csdn.net/topics/391886273



您可能感兴趣的文档:

Python 官方文档：入门教程
Python 简明教程
Python 最佳实践指南 2018
Python 3 标准库实例教程



--结束END--
 本文标题: python threadpool多线程
 本文链接: https://lsjlt.com/news/187557.html(转载时请注明来源链接)
有问题或投稿请发送至:
邮箱/279061341@qq.com    QQ/279061341




猜你喜欢







python threadpool多线程
 
        在写爬虫下载一个网页中的多个链接文件时（http://blog.sina.com.cn/s/blog_740773f40100ywyg.html  ），使用多线程会提高下载速度。
        使用线程池能够简单的解决这...

 




99+
2023-01-31

多线程
python
threadpool








python线程池（threadpool
 
最近碰到个问题，需要telnet登录上千台机器去取主机名；其中有用户名密码交互部分，有需要延迟的部分，大概一次登录一次到处理完要10s，1000台机器串行处理就需要1000×10s，差不多三个小时，这是很难受的事情；
之前用thread的...

 




99+
2023-01-31

线程
python
threadpool








python 线程池threadpool
 
最近在做一个视频设备管理的项目，设备包括（摄像机，DVR,NVR等），包括设备信息补全，设备状态推送，设备流地址推送等，如果同时导入的设备数量较多，如果使用单线程进行设备检测，那么由于设备数量较多，会带来较大的延时，因此考虑多线程处理此问...

 




99+
2023-01-31

线程
python
threadpool








C#多线程之线程池(ThreadPool)
 
                            一、简介
前面介绍了平时用到的大多数的多线程的例子，但在实际开发中使用的线程往往是大量的和更为复杂的，这时，每次都创建线程、启动线程。从性能上来讲，这样做并不理想（因为每使用一个线程...

 




99+
2024-04-02









C#多线程之线程池ThreadPool用法
 
                            目录一、ThreadPool1、QueueUserWorkItem()2、GetMaxThreads()3、GetMinThreads()4、SetMaxThreads()和SetM...

 




99+
2024-04-02









C#多线程之线程池ThreadPool详解
 
                            一、ThreadPool概述
提供一个线程池，该线程池可用于执行任务、发送工作项、处理异步 I/O、代表其他线程等待以及处理计时器。
创建线程需要时间。如果有不同的小任务要完成，就可...

 




99+
2024-04-02









C#异步多线程ThreadPool怎么使用
 这篇文章主要讲解了“C#异步多线程ThreadPool怎么使用”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“C#异步多线程ThreadPool怎么使用”吧！启动线程池线程ThreadPool...

 




99+
2023-06-25









浅谈python 线程池threadpool之实现
 
                首先介绍一下自己使用到的名词：
工作线程（worker）：创建线程池时，按照指定的线程数量，创建工作线程，等待从任务队列中get任务；
任务（requests）：即工作线程处理的任务，任务可能成千上万个，但...

 




99+
2022-06-04

浅谈
线程
python








C#异步多线程入门到精通之ThreadPool篇
 
                            上一篇：C# 异步多线程入门到精通之Thread篇
下一篇：异步多线程之入Task，待更新
启动线程池线程
ThreadPool 提供的 API 相对于 Thread 是比较少的，在...

 




99+
2024-04-02









python线程池（threadpool）模块使用笔记详解
 
                最近在做一个视频设备管理的项目，设备包括（摄像机，DVR,NVR等），包括设备信息补全，设备状态推送，设备流地址推送等，如果同时导入的设备数量较多，如果使用单线程进行设备检测，那么由于设备数量较多，会带来较...

 




99+
2022-06-04

线程
详解
模块








C#多线程学习之Thread、ThreadPool、Task、Parallel四者区别
 
                            目录ThreadThreadPoolTaskParallelTask专讲线程（英语：thread）是操作系统能够进行运算调度的最小单位。它被包含在进程之中，是进程中的实际运作单位。一...

 




99+
2024-04-02









C#线程池ThreadPool用法简介
 
                            目录一、ThreadPool概述线程池使用起来很简单，但它有一些限制使用线程池线程的操作的情况包括二、方法三、设置和获取线程数方法四、将方法排入队列以便执行：QueueUserWor...

 




99+
2024-04-02









C#线程池ThreadPool怎么使用
 这篇文章主要讲解了“C#线程池ThreadPool怎么使用”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“C#线程池ThreadPool怎么使用”吧！一、ThreadPool概述提供一个线程池...

 




99+
2023-07-02









.NET 6线程池ThreadPool实现概述
 
                            目录前言任务的调度基本调度单元IThreadPoolWorkItem 实现类的实例。Task全局队列本地队列偷窃机制Worker Thread 的生命周期管理线程注入实验.NET 5...

 




99+
2024-04-02









C++中线程池ThreadPool源码解析
 
                            目录什么是线程什么是线程池线程池解决什么问题怎么用线程池总结什么是线程
线程是进程中的⼀个执⾏单元，负责当前进程中程序的执⾏，⼀个进程中⾄少有⼀个线程。⼀个进程中是可以有多个线程的，...

 




99+
2024-04-02









python 并发 ThreadPool
 
asyncio基础
asyncio协程
asyncio并发下载
asyncio, aiohttp爬虫    -> 这里写了一些原理和使用asyncio需要注意的东西, 对asyncio 有些基础的可以看看
python asynci...

 




99+
2023-01-31

python
ThreadPool








python多线程————3、多线程间通
 
1、共享变量

#通过共享变量
import time
import threading
url_list = []
def get_detail_html():
    global url_list
    while True:
 ...

 




99+
2023-01-31

多线程
python








python多线程
 
Python 多线程
多线程类似于同时执行多个不同程序，多线程运行有如下优点：
使用线程可以把占据长时间的程序中的任务放到后台去处理。
用户界面可以更加吸引人，这样比如用户点击了一个按钮去触发某些事件的处理，可以弹出一个进度条来显示处理的...

 




99+
2023-01-30

多线程
python








Python 多线程
 



 

文章来源：https://www.runoob.com/python/python-multithreading.html




多线程类似于同时执行多个不同程序，多线程运行有如下优点：

使用线程可以把占据长时间的程序中的...

 




99+
2023-01-31

多线程
Python








python—多线程
 一、多线程实例  线程时应用程序中工作的最小单位，python中提供了threading模块来对多线程操作，一般多核cpu采用多进程方式，单核才采用多线程方式  方法：  将要执行的方法threading.Thread作为参数传给构造方法（...

 




99+
2023-01-31

多线程
python






软考高级职称资格查询








热门wiki










mysql删除数据恢复

mysql删表能回滚吗

mysql找回删除的表

mysql不小心删除了表

mysql不小心把表删了怎么恢复数据

mysql数据表删除后能恢复么

mysql误删表数据恢复

mysql误删表恢复

mysql删除表怎么恢复

mysql删除表











近期文章










python写一段编程，祝福高三考生旗开得胜

PythonOOP 的力量：封装与抽象类的超级英雄联盟

Python 代码的建筑师：封装与抽象类的蓝图和构建工具

PythonOOP 的航海图：封装与抽象类的船帆和指南针

Python 封装与抽象类的实验室：试验和发现的乐趣

Python 代码的可读性之钥：封装与抽象类的解读指南

PythonOOP 的秘密花园：封装与抽象类的花卉盛宴

Python 代码的组织大师：封装与抽象类的秩序之道

Python 封装与抽象类的终极秘籍：通往对象导向编程之路

PythonOOP 的宝藏：封装与抽象类的寻宝之旅











推荐阅读











python分析数据的方法是什么

2024-03-01







如何使用Python实现抽奖小程序

2024-03-01







python copy函数的作用是什么

2024-03-01







python ffmpeg模块怎么安装和使用

2024-02-29







python进程池创建队列的方法是什么

2024-02-29







python无法运行文件的原因有哪些

2024-02-29







python can't open file报错怎么解决

2024-02-29







python keyerror错误怎么解决

2024-02-29







python字符串处理与应用的方法有哪些

2024-02-29







python全局变量如何定义

2024-02-29
















热门问答













1
回答

如何调试操作系统的错误？
操作系统




2023-11-15发布






1
回答

操作系统中的I/O系统是如何实现的？
操作系统




2023-11-15发布






1
回答

如何实现操作系统的内存管理？
操作系统




2023-11-15发布






1
回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统




2023-11-15发布






1
回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET




2023-11-15发布






1
回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET




2023-11-15发布






1
回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET




2023-11-15发布






1
回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js




2023-11-15发布






1
回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE




2023-11-15发布






1
回答

如何使用Vue.js实现懒加载和预加载？
VUE




2023-11-15发布













热门标签





Python操作PostgreSQL
Python连接PostgreSQL
Python连接和操作PostgreSQL
SQL建表语句
SQL建表语句使用
RedisTemplate使用
MySQL提取数据
JSON提取数据
MySQL从JSON提取数据
MySQL免密登录
MySQL免密登录配置
Oracle端口
Oracle修改端口
Oracle更换端口
Oracle更换监听端口
HBASE部署
HBASE集群部署
oracle中的trunc函数
oracle中trunc
winx64安装
格式化yyyy-mm-dd
mysql时间戳格式化yyyy-mm-dd
mysql8.0.15重置密码
mysql8.0.15修改密码
2059
Navicat连接MySQL出现2059
DBeaver导入数据
DBeaver导入excel大量数据
DBeaver导入excel数据
dbeaver导出



        
            
                
                    
                    编程网，编程工程师的家园，是目前国内优秀的开源技术社区之一，形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容，为IT开发者提供了一个发现、使用、并交流开源技术的平台。
                    
                
                
                    
                        
                            前端
                            后端
                            数据库
                            服务器
                            操作系统
                            
                        
                    
                    
                        
                            商务合作：279061341@qq.com
                            网站地图
                            投稿合作：279061341@qq.com
                            标签大全
                            虚位以待
                        
                    
                
                
                    
                        
                            
                            官方手机版
                        
                        
                            
                            微信公众号
                        
                        
                            
                            商务合作
                        
                        
                    
                
                
            
        
        
            
                
                    
                        
                            Powered by
                            编程网
                            |
                            Copyright © 2018-2023, 版权所有.
                            |
网站地图 |
苏ICP备17033115号 
                        
                    
                
                
            
        
    
    
    
        返回顶部