Python爬虫完整代码拿走不谢

python 爬虫开发语言爬虫入门爬虫基础 2023-09-03 11:09:39 906人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

对于新手做python爬虫来说是有点难处的，前期练习的时候可以直接套用模板，这样省时省力还很方便。使用python爬取某网站的相关数据，并保存到同目录下excel。直接上代码： import re

对于新手做python爬虫来说是有点难处的，前期练习的时候可以直接套用模板，这样省时省力还很方便。

使用python爬取某网站的相关数据，并保存到同目录下excel。

直接上代码：

import reimport urllib.errorimport urllib.requestimport xlwtfrom bs4 import BeautifulSoupdef main():    baseurl ="Http://jshk.com.cn"    datelist = getDate(baseurl)    savepath=".\\jshk.xls"    saveDate(datelist,savepath)    # askURL("http://jshk.com.cn/")findlink = re.compile(r'')findimg = re.compile(r'https://blog.csdn.net/weixin_44617651/article/details/(.*?)"',re.S)findtitle = re.compile(r'(.*))findrating = re.compile(r'(.*))findjudge = re.compile(r'(\d*)人评价')findinq= re.compile(r'(.*)')def getDate(baseurl):    datalist =[]    for i in range(0,10):        url=baseurl+str(i*25)        html=askURL(url)        soup = BeautifulSoup(html,"html.parser")        for item in soup.find_all('div',class_="item"):            data = []            item = str(item)            link = re.findall(findlink,item)[0]            data.append(link)            img=re.findall(findimg,item)[0]            data.append(img)            title=re.findall(findtitle,item)[0]            rating=re.findall(findrating,item)[0]            data.append(rating)            judge=re.findall(findjudge,item)[0]            data.append(judge)            inq=re.findall(findinq,item)            if len(inq)!=0:                inq=inq[0].replace("。","")                data.append(inq)            else:                data.append(" ")            print(data)            datalist.append(data)        print(datalist)    return datalistdef askURL(url):    head = {    "User-Agent":"Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36"}    request=urllib.request.Request(url,headers=head)    html=""    try:        response=urllib.request.urlopen(request)        html=response.read().decode("utf-8")        # print(html)    except urllib.error.URLError as e:        if hasattr(e,"code"):            print(e.code)        if hasattr(e,"reason"):            print(e.reason)    return htmldef saveDate(datalist,savepath):    workbook = xlwt.Workbook(encoding='utf-8')    worksheet = workbook.add_sheet('电影',cell_overwrite_ok=True)    col =("电影详情","图片","影片","评分","评价数","概况")    for i in range(0,5):        worksheet.write(0,i,col[i])    for i in range(0,250):        print("第%d条" %(i+1))        data=datalist[i]        for j in range(0,5):            worksheet.write(i+1,j,data[j])    workbook.save(savepath)if __name__ == '__main__':    main()    print("爬取完毕")

直接复制粘贴就行。

若要更改爬取网站，则需要更改URL以及相应的html格式（代码中的“item”）。

来源地址：https://blog.csdn.net/weixin_44617651/article/details/129703015

您可能感兴趣的文档:

--结束END--

本文标题: Python爬虫完整代码拿走不谢

本文链接: https://lsjlt.com/news/392097.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

Python爬虫完整代码拿走不谢

对于新手做Python爬虫来说是有点难处的，前期练习的时候可以直接套用模板，这样省时省力还很方便。使用Python爬取某网站的相关数据，并保存到同目录下Excel。直接上代码： import re...

99+

2023-09-03

python 爬虫开发语言爬虫入门爬虫基础
看完python这段爬虫代码，java流

哈哈，其实很简单，寥寥几行代码网页爬一部小说，不卖关子，立刻开始。首先安装所需的包，requests，BeautifulSoup4 控制台执行 pip install requests pip install BeautifulSoup...

99+

2023-01-30

爬虫这段看完
python 爬虫代码

一、代码 1、爬虫_urllib_基本使用 # 使用urllib来获取百度首页的源码import urllib.request# (1)定义一个url 就是你要访问的地址url = 'http://...

99+

2023-08-31

python 爬虫开发语言
Python网页爬虫代码

网页爬虫是一种自动化程序，可以自动地访问网页并提取其中的信息。它可以用于各种目的，例如搜索引擎的索引、数据挖掘、价格比较、舆情监测等。网页爬虫通常使用编程语言编写，例如Python、Java等。以下...

99+

2023-09-02

python 爬虫开发语言远程桌面动态ip
python PyQt5 爬虫实现代码

搞一个图形化界面还是挺酷的，是吧安装库什么的应该不用多说了吧。。一般来说会让你把 designer.exe（编辑图形化界面的东西，跟vb差不多）当作外部工具导入到 pychar...

99+

2024-04-02
Python爬虫代码怎么写

这篇“Python爬虫代码怎么写”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“Python爬虫代码怎么写”文章吧。爬虫是什么...

99+

2023-07-05
python政策网字体反爬实例(附完整代码)

目录1 字体反爬案例2 使用环境3 安装python第三方库4 查看woff文件5 woff文件解决字体反爬全过程5.1 调用第三方库5.2 请求woff链接下载woff文件到本地5...

99+

2024-04-02
Python的爬虫框架scrapy用21行代码写一个爬虫

开发说明开发环境:Pycharm 2017.1(目前最新) 开发框架:Scrapy 1.3.3(目前最新) 目标爬取线报网站,并把内容保存到items.json里页面分析根据上图我们可以发...

99+

2022-06-04

爬虫框架代码
Python：使用爬虫抓取网页中的视频并下载（完整源码）

Python：使用爬虫抓取网页中的视频并下载（完整源码）在今天的程序开发世界中，网站是不可或缺的一部分。人们使用网站来获取有用的信息、购买商品和娱乐自己。这些网站的内容通常包含了各种类型的文件，其中...

99+

2023-08-31

python 爬虫音视频
Python爬虫爬取美剧网站的实现代码

一直有爱看美剧的习惯，一方面锻炼一下英语听力，一方面打发一下时间。之前是能在视频网站上面在线看的，可是自从广电总局的限制令之后，进口的美剧英剧等貌似就不在像以前一样同步更新了。但是，作为一个宅diao的我又...

99+

2022-06-04

爬虫美剧代码
python 网络爬虫初级实现代码

首先，我们来看一个Python抓取网页的库：urllib或urllib2。那么urllib与urllib2有什么区别呢？可以把urllib2当作urllib的扩增，比较明显的优势是urllib2.url...

99+

2022-06-04

爬虫代码网络
使用PyCharm批量爬取小说的完整代码

目录使用pycharm批量爬取小说 1.获取小说地址2.分析小说地址结构3.拼接地址4.分析章节内容结构5.保存文本6.完整代码使用pycharm批量爬取小说爬取小说的思...

99+

2024-04-02
怎么用Python代码实现新闻爬虫

本篇内容介绍了“怎么用Python代码实现新闻爬虫”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！新闻源：Reddit我们可以通过Reddit...

99+

2023-06-16
python爬虫xpath模块简介示例代码

目录一、前言二、简介三、安装四、使用五、案例一、前言前两篇博客讲解了爬虫解析网页数据的两种常用方法，re正则表达解析和beautifulsoup标签解析，所以今天的博客将围绕另外一...

99+

2023-02-14

python xpath模块 python爬虫 xpath
半小时实现Java手撸网络爬虫框架(附完整源码)

最近在做一个搜索相关的项目，需要爬取网络上的一些链接存储到索引库中，虽然有很多开源的强大的爬虫框架，但本着学习的态度，自己写了一个简单的网络爬虫，以便了解其中的原理。今天，就为小伙伴...

99+

2024-04-02
使用PyV8在Python爬虫中执行js代码

前言可能很多人会觉得这是一个奇葩的需求，爬虫去好好的爬数据不就行了，解析js干嘛？吃饱了撑的？搜索一下互联网上关于这个问题还真不少，但是大多数童鞋是因为自己的js基础太烂，要么是HTML基础烂，要么aj...

99+

2022-06-04

爬虫代码 Python
Python 爬虫多线程详解及实例代码

python是支持多线程的，主要是通过thread和threading这两个模块来实现的。thread模块是比较底层的模块，threading模块是对thread做了一些包装的，可以更加方便的使用。虽然...

99+

2022-06-04

爬虫多线程详解
Python爬虫技术入门实例代码分析

这篇“Python爬虫技术入门实例代码分析”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“Python爬虫技术入门实例代码分析...

99+

2023-07-05
Python批量爬虫下载PDF文件代码实现

本文的背景是：大学关系很好的老师问我能不能把Excel中1000个超链接网址对应的pdf文档下载下来。虽然可以手动一个一个点击下载，但是这样太费人力和时间了。我想起了之前的爬虫经验，给老师分析了一下可...

99+

2023-09-27

python 爬虫 pdf
利用Python网络爬虫爬取各大音乐评论的代码

目录 python爬虫--爬取网易云音乐评论1.简易看出评论是动态加载的，一定是ajax方式。3.去查看post请求所上传的数据4.首先去查看请求是经过那些js到达服务器的...

99+

2024-04-02