首页 > 资讯 > 后端开发 > Python >如何使用Python进行多线程并发下载图片

451

分享到

如何使用Python进行多线程并发下载图片

2023-07-04 11:07:32 451人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

这篇文章主要介绍“如何使用python进行多线程并发下载图片”，在日常操作中，相信很多人在如何使用Python进行多线程并发下载图片问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”如何使用Python进行多线程

这篇文章主要介绍“如何使用python进行多线程并发下载图片”，在日常操作中，相信很多人在如何使用Python进行多线程并发下载图片问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”如何使用Python进行多线程并发下载图片”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

最终效果

这就是我们最终要构建的效果。

如何使用Python进行多线程并发下载图片

安装依赖项

让我们安装每个人最喜欢的 requests 库。

pip install requests

现在，我们将看到一些用于下载单个 URL 并尝试自动查找图像名称以及如何使用重试的基本代码。

import requestsres = requests.get(img_url, stream=True)count = 1while res.status_code != 200 and count <= 5:    res = requests.get(img_url, stream=True)    print(f'Retry: {count} {img_url}')    count += 1
在这里，我们重试下载图像五次，以防失败。现在，让我们尝试自动找到图像的名称并保存它。

import more required libraryimport iofrom PIL import Image# lets try to find the image nameimage_name = str(img_url[(img_url.rfind('/')) + 1:])if '?' in image_name:    image_name = image_name[:image_name.find('?')]
解释

假设我们要下载的 URL 是：

instagram.fktm7-1.fna.fbcdn .net/vp...

好吧，这是一团糟。让我们分解一下代码对 URL 的作用。我们首先使用 rfind 找到最后一个正斜杠（/），然后选择之后的所有内容。这是结果：

65872070_1200425330158967_6201268309743367902_n.jpg?_nc_ht=instagram.fktm7–1.fna.fbcdn.net&_nc_cat=111

现在我们的第二部分找到一个 ?，然后只取它前面的任何东西。

这是我们最终的图像名称：

65872070_1200425330158967_6201268309743367902_n.jpg

这个结果非常好，适用于大多数用例。

现在我们已经下载了图像名称和图像，我们将保存它。

i = Image.open(io.BytesIO(res.content))i.save(image_name)

如果你在想，「我到底应该怎么使用上面的代码？」那么你的想法是正确的。这是一个漂亮的函数，我们在上面所做的一切都被扁平处理了。在这里，我们还测试了下载的类型是否为图像，以防找不到图像名称。

def image_downloader(img_url: str):    """    Input:    param: img_url  str (Image url)    Tries to download the image url and use name provided in headers. Else it randomly picks a name    """    print(f'Downloading: {img_url}')    res = requests.get(img_url, stream=True)    count = 1    while res.status_code != 200 and count <= 5:        res = requests.get(img_url, stream=True)        print(f'Retry: {count} {img_url}')        count += 1    # checking the type for image    if 'image' not in res.headers.get("content-type", ''):        print('ERROR: URL doesnot appear to be an image')        return False    # Trying to red image name from response headers    try:        image_name = str(img_url[(img_url.rfind('/')) + 1:])        if '?' in image_name:            image_name = image_name[:image_name.find('?')]    except:        image_name = str(random.randint(11111, 99999))+'.jpg'    i = Image.open(io.BytesIO(res.content))    download_location = 'cats'    i.save(download_location + '/'+image_name)    return f'Download complete: {img_url}'
现在，你可能会问：「这个人所说的多处理在哪里？」。

这很简单。我们将简单地定义我们的池并将我们的函数和图像 URL 传递给它。

results = ThreadPool(process).imap_unordered(image_downloader, images_url)for r in results:    print(r)

让我们把它放在一个函数中：

def run_downloader(process:int, images_url:list):    """    Inputs:        process: (int) number of process to run        images_url:(list) list of images url    """    print(f'MESSAGE: Running {process} process')    results = ThreadPool(process).imap_unordered(image_downloader, images_url)    for r in results:        print(r)
再一次，你可能会说，「这一切都很好，但我想立即开始下载我的 1000 张图像列表。我不想复制和粘贴所有这些代码并试图弄清楚如何合并所有内容。」

这是一个完整的脚本。它执行以下操作：

以图像列表文本文件和进程号作为输入
按照您想要的速度下载它们
打印下载文件的总时间
还有一些不错的函数可以帮助我们读取文件名并处理错误和其他东西

完整的脚本

# -*- coding: utf-8 -*-import ioimport randomimport shutilimport sysfrom multiprocessing.pool import ThreadPoolimport pathlibimport requestsfrom PIL import Imageimport timestart = time.time()def get_download_location():    try:        url_input = sys.argv[1]    except IndexError:        print('ERROR: Please provide the txt file\n$python image_downloader.py cats.txt')    name = url_input.split('.')[0]    pathlib.Path(name).mkdir(parents=True, exist_ok=True)    return namedef get_urls():    """    通过读取终端中作为参数提供的 txt 文件返回 url 列表    """    try:        url_input = sys.argv[1]    except IndexError:        print('ERROR: Please provide the txt file\n Example \n\n$python image_downloader.py dogs.txt \n\n')        sys.exit()    with open(url_input, 'r') as f:        images_url = f.read().splitlines()    print('{} Images detected'.fORMat(len(images_url)))    return images_urldef image_downloader(img_url: str):    """    输入选项:    参数: img_url  str (Image url)    尝试下载图像 url 并使用标题中提供的名称。否则它会随机选择一个名字    """    print(f'Downloading: {img_url}')    res = requests.get(img_url, stream=True)    count = 1    while res.status_code != 200 and count <= 5:        res = requests.get(img_url, stream=True)        print(f'Retry: {count} {img_url}')        count += 1    # checking the type for image    if 'image' not in res.headers.get("content-type", ''):        print('ERROR: URL doesnot appear to be an image')        return False    # Trying to red image name from response headers    try:        image_name = str(img_url[(img_url.rfind('/')) + 1:])        if '?' in image_name:            image_name = image_name[:image_name.find('?')]    except:        image_name = str(random.randint(11111, 99999))+'.jpg'    i = Image.open(io.BytesIO(res.content))    download_location = get_download_location()    i.save(download_location + '/'+image_name)    return f'Download complete: {img_url}'def run_downloader(process:int, images_url:list):    """    输入项:        process: (int) number of process to run        images_url:(list) list of images url    """    print(f'MESSAGE: Running {process} process')    results = ThreadPool(process).imap_unordered(image_downloader, images_url)    for r in results:        print(r)try:    num_process = int(sys.argv[2])except:    num_process = 10images_url = get_urls()run_downloader(num_process, images_url)end = time.time()print('Time taken to download {}'.format(len(get_urls())))print(end - start)

将其保存到 Python 文件中，然后运行它。

python3 image_downloader.py cats.txt

这是 GitHub 存储库的链接。

用法

python3 image_downloader.py <filename_with_urls_seperated_by_newline.txt> <num_of_process>

这将读取文本文件中的所有 URL，并将它们下载到名称与文件名相同的文件夹中。

num_of_process 是可选的（默认情况下，它使用 10 个进程）。

例子

python3 image_downloader.py cats.txt

如何使用Python进行多线程并发下载图片

到此，关于“如何使用Python进行多线程并发下载图片”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注编程网网站，小编会继续努力为大家带来更多实用的文章！

您可能感兴趣的文档:

--结束END--

本文标题: 如何使用Python进行多线程并发下载图片

本文链接: https://lsjlt.com/news/344681.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

如何使用Python进行多线程并发下载图片

最终效果

安装依赖项

完整的脚本

用法

如何使用Python进行多线程并发下载图片

Python 多线程并发下载图片保姆级教程

python多线程下载图片

如何使用Python中的多线程进行任务并发执行

利用Python多线程实现图片下载器

vue.js根如何据图片url进行图片下载

Node.js如何使用worker_threads多线程进行并行处理

如何在 Python 中使用多线程和多进程来提高并发性能？

《PHP并发编程实战：教你如何使用容器进行多线程编程》？

Java中多线程下载图片并压缩能提高效率吗

怎么进行Python多线程并发的简单测试

如何进行Python线程的多线程展示

Java中多线程下载图片并压缩能不能提高效率

Android使用AsyncTask下载图片并显示进度条功能

java多线程并发执行如何操作

如何利用python多线程爬取天气网站图片并保存

Python多线程如何下载有声小说

python如何实现多线程并发抓取

Python并发编程：如何使用二维码进行同步？

如何使用Python爬虫实现自动下载图片

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义