Python 官方文档:入门教程 => 点击学习
代码比较粗糙,主要是备忘容易出错的地方。供自己以后查阅。#图片下载import reimport urllib.request #python3中模块名和2.x(urllib)的不一样site='https://world.taoba
代码比较粗糙,主要是备忘容易出错的地方。供自己以后查阅。
#图片下载
import re
import urllib.request #python3中模块名和2.x(urllib)的不一样
site='https://world.taobao.com/item/530762904536.htm?spm=a21bp.7806943.topsale_XX.4.jcjxZC'
page=urllib.request.urlopen(site)
html=page.read()
html=html.decode('utf-8') #读取下来的网页源码需要转换成utf-8格式
reg=r'src="//(gd.*?jpg)'
imgre=re.compile(reg)
imglist=re.findall(imgre,html)
trueurls=[]
for i in imglist:
trueurls.append(i.replace('gd','Http://gd'))
trueurls[2]='/file/imgs/upload/202301/31/2y5b5vypata.jpg'
print (trueurls)
x=200
for j in trueurls:
try:
urllib.request.urlretrieve(j,'%s.jpg' %x)
except Exception : #except Exception as e:
pass # print (e)
# print ('有无效链接')
x=x+1
在except子句可以打印出一些提示信息
下载图片的时候,如果有无效的链接,可以用try except跳过无效链接继续下一个图片的下载
--结束END--
本文标题: python3 网页爬虫图片下载无效链
本文链接: https://lsjlt.com/news/192217.html(转载时请注明来源链接)
有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341
2024-03-01
2024-03-01
2024-03-01
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
回答
回答
回答
回答
回答
回答
回答
回答
回答
回答
0