返回顶部
首页 > 资讯 > 后端开发 > Python >Python爬虫完整代码拿走不谢
  • 906
分享到

Python爬虫完整代码拿走不谢

python爬虫开发语言爬虫入门爬虫基础 2023-09-03 11:09:39 906人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

对于新手做python爬虫来说是有点难处的,前期练习的时候可以直接套用模板,这样省时省力还很方便。 使用python爬取某网站的相关数据,并保存到同目录下excel。 直接上代码: import re

对于新手做python爬虫来说是有点难处的,前期练习的时候可以直接套用模板,这样省时省力还很方便。

使用python爬取某网站的相关数据,并保存到同目录下excel

直接上代码:

import reimport urllib.errorimport urllib.requestimport xlwtfrom bs4 import BeautifulSoupdef main():    baseurl ="Http://jshk.com.cn"    datelist = getDate(baseurl)    savepath=".\\jshk.xls"    saveDate(datelist,savepath)    # askURL("http://jshk.com.cn/")findlink = re.compile(r'')findimg = re.compile(r'https://blog.csdn.net/weixin_44617651/article/details/(.*?)"',re.S)findtitle = re.compile(r'(.*))findrating = re.compile(r'(.*))findjudge = re.compile(r'(\d*)人评价')findinq= re.compile(r'(.*)')def getDate(baseurl):    datalist =[]    for i in range(0,10):        url=baseurl+str(i*25)        html=askURL(url)        soup = BeautifulSoup(html,"html.parser")        for item in soup.find_all('div',class_="item"):            data = []            item = str(item)            link = re.findall(findlink,item)[0]            data.append(link)            img=re.findall(findimg,item)[0]            data.append(img)            title=re.findall(findtitle,item)[0]            rating=re.findall(findrating,item)[0]            data.append(rating)            judge=re.findall(findjudge,item)[0]            data.append(judge)            inq=re.findall(findinq,item)            if len(inq)!=0:                inq=inq[0].replace("。","")                data.append(inq)            else:                data.append(" ")            print(data)            datalist.append(data)        print(datalist)    return datalistdef askURL(url):    head = {    "User-Agent":"Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36"}    request=urllib.request.Request(url,headers=head)    html=""    try:        response=urllib.request.urlopen(request)        html=response.read().decode("utf-8")        # print(html)    except urllib.error.URLError as e:        if hasattr(e,"code"):            print(e.code)        if hasattr(e,"reason"):            print(e.reason)    return htmldef saveDate(datalist,savepath):    workbook = xlwt.Workbook(encoding='utf-8')    worksheet = workbook.add_sheet('电影',cell_overwrite_ok=True)    col =("电影详情","图片","影片","评分","评价数","概况")    for i in range(0,5):        worksheet.write(0,i,col[i])    for i in range(0,250):        print("第%d条" %(i+1))        data=datalist[i]        for j in range(0,5):            worksheet.write(i+1,j,data[j])    workbook.save(savepath)if __name__ == '__main__':    main()    print("爬取完毕")

直接复制粘贴就行。

若要更改爬取网站,则需要更改URL以及相应的html格式(代码中的“item”)。

来源地址:https://blog.csdn.net/weixin_44617651/article/details/129703015

--结束END--

本文标题: Python爬虫完整代码拿走不谢

本文链接: https://lsjlt.com/news/392097.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Python爬虫完整代码拿走不谢
    对于新手做Python爬虫来说是有点难处的,前期练习的时候可以直接套用模板,这样省时省力还很方便。 使用Python爬取某网站的相关数据,并保存到同目录下Excel。 直接上代码: import re...
    99+
    2023-09-03
    python 爬虫 开发语言 爬虫入门 爬虫基础
  • 看完python这段爬虫代码,java流
    哈哈,其实很简单,寥寥几行代码网页爬一部小说,不卖关子,立刻开始。 首先安装所需的包,requests,BeautifulSoup4 控制台执行 pip install requests pip install BeautifulSoup...
    99+
    2023-01-30
    爬虫 这段 看完
  • python 爬虫代码
    一、代码 1、爬虫_urllib_基本使用 # 使用urllib来获取百度首页的源码import urllib.request# (1)定义一个url 就是你要访问的地址url = 'http://...
    99+
    2023-08-31
    python 爬虫 开发语言
  • Python网页爬虫代码
    网页爬虫是一种自动化程序,可以自动地访问网页并提取其中的信息。它可以用于各种目的,例如搜索引擎的索引、数据挖掘、价格比较、舆情监测等。网页爬虫通常使用编程语言编写,例如Python、Java等。 以下...
    99+
    2023-09-02
    python 爬虫 开发语言 远程桌面 动态ip
  • python PyQt5 爬虫实现代码
    搞一个图形化界面还是挺酷的,是吧 安装库什么的应该不用多说了吧。。 一般来说会让你把 designer.exe(编辑图形化界面的东西,跟vb差不多) 当作外部工具导入到 pychar...
    99+
    2024-04-02
  • Python爬虫代码怎么写
    这篇“Python爬虫代码怎么写”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Python爬虫代码怎么写”文章吧。爬虫是什么...
    99+
    2023-07-05
  • python政策网字体反爬实例(附完整代码)
    目录1 字体反爬案例2 使用环境3 安装python第三方库4 查看woff文件5 woff文件解决字体反爬全过程5.1 调用第三方库5.2 请求woff链接下载woff文件到本地5...
    99+
    2024-04-02
  • Python的爬虫框架scrapy用21行代码写一个爬虫
    开发说明 开发环境:Pycharm 2017.1(目前最新) 开发框架:Scrapy 1.3.3(目前最新) 目标 爬取线报网站,并把内容保存到items.json里 页面分析 根据上图我们可以发...
    99+
    2022-06-04
    爬虫 框架 代码
  • Python:使用爬虫抓取网页中的视频并下载(完整源码)
    Python:使用爬虫抓取网页中的视频并下载(完整源码) 在今天的程序开发世界中,网站是不可或缺的一部分。人们使用网站来获取有用的信息、购买商品和娱乐自己。这些网站的内容通常包含了各种类型的文件,其中...
    99+
    2023-08-31
    python 爬虫 音视频
  • Python爬虫爬取美剧网站的实现代码
    一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间。之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了。但是,作为一个宅diao的我又...
    99+
    2022-06-04
    爬虫 美剧 代码
  • python 网络爬虫初级实现代码
    首先,我们来看一个Python抓取网页的库:urllib或urllib2。 那么urllib与urllib2有什么区别呢? 可以把urllib2当作urllib的扩增,比较明显的优势是urllib2.url...
    99+
    2022-06-04
    爬虫 代码 网络
  • 使用PyCharm批量爬取小说的完整代码
    目录使用pycharm批量爬取小说 1.获取小说地址2.分析小说地址结构3.拼接地址4.分析章节内容结构5.保存文本6.完整代码使用pycharm批量爬取小说 爬取小说的思...
    99+
    2024-04-02
  • 怎么用Python代码实现新闻爬虫
    本篇内容介绍了“怎么用Python代码实现新闻爬虫”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!新闻源:Reddit我们可以通过Reddit...
    99+
    2023-06-16
  • python爬虫xpath模块简介示例代码
    目录一、前言二、简介三、安装四、使用五、案例一、前言 前两篇博客讲解了爬虫解析网页数据的两种常用方法,re正则表达解析和beautifulsoup标签解析,所以今天的博客将围绕另外一...
    99+
    2023-02-14
    python xpath模块 python爬虫 xpath
  • 半小时实现Java手撸网络爬虫框架(附完整源码)
    最近在做一个搜索相关的项目,需要爬取网络上的一些链接存储到索引库中,虽然有很多开源的强大的爬虫框架,但本着学习的态度,自己写了一个简单的网络爬虫,以便了解其中的原理。今天,就为小伙伴...
    99+
    2024-04-02
  • 使用PyV8在Python爬虫中执行js代码
    前言 可能很多人会觉得这是一个奇葩的需求,爬虫去好好的爬数据不就行了,解析js干嘛?吃饱了撑的? 搜索一下互联网上关于这个问题还真不少,但是大多数童鞋是因为自己的js基础太烂,要么是HTML基础烂,要么aj...
    99+
    2022-06-04
    爬虫 代码 Python
  • Python 爬虫多线程详解及实例代码
    python是支持多线程的,主要是通过thread和threading这两个模块来实现的。thread模块是比较底层的模块,threading模块是对thread做了一些包装的,可以更加方便的使用。 虽然...
    99+
    2022-06-04
    爬虫 多线程 详解
  • Python爬虫技术入门实例代码分析
    这篇“Python爬虫技术入门实例代码分析”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Python爬虫技术入门实例代码分析...
    99+
    2023-07-05
  • Python批量爬虫下载PDF文件代码实现
    本文的背景是:大学关系很好的老师问我能不能把Excel中1000个超链接网址对应的pdf文档下载下来。虽然可以手动一个一个点击下载,但是这样太费人力和时间了。我想起了之前的爬虫经验,给老师分析了一下可...
    99+
    2023-09-27
    python 爬虫 pdf
  • 利用Python网络爬虫爬取各大音乐评论的代码
    目录 python爬虫--爬取网易云音乐评论1.简易看出评论是动态加载的,一定是ajax方式。3.去查看post请求所上传的数据4.首先去查看请求是经过那些js到达服务器的...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作