返回顶部
首页 > 资讯 > 精选 >利用requests+BeautifulSoup爬取网页关键信息
  • 258
分享到

利用requests+BeautifulSoup爬取网页关键信息

2023-06-02 11:06:56 258人浏览 八月长安
摘要

一、requests库基础知识Requests的方法  requests库的response对象二、爬取网站所需信息访问网站,如图1-1所示:图1-1点击子页面,审查网页元素,部分内容如图1-2所示:图1-2实现代码如下

一、requests库基础知识

  1. Requests的方法 

    利用requests+BeautifulSoup爬取网页关键信息 

  2. requests库的response对象

    利用requests+BeautifulSoup爬取网页关键信息

二、爬取网站所需信息

访问网站,如图1-1所示:

利用requests+BeautifulSoup爬取网页关键信息

图1-1

点击子页面,审查网页元素,部分内容如图1-2所示:

利用requests+BeautifulSoup爬取网页关键信息

图1-2

实现代码如下:

#coding:utf-8import requestsfrom bs4 import BeautifulSoupimport xlsxwriter#定义网页内容获取函数GET_html_CONTENTdef GET_HTML_CONTENT(url):    #定义user_agent,模拟浏览器访问网页    user_agent = 'Mozilla/5.0 (windows NT 6.1; WOW64) AppleWEBKit/537.36 (KHTML, like Gecko) \    Chrome/63.0.3239.132 Safari/537.36'    headers = {'User-Agent':user_agent}    r = requests.get(url,headers=headers)    #获取网页内容    html_str = r.text    return html_str    #定义子网页URL获取函数GET_CHILD_URL    def GET_CHILD_URL(content):    data = BeautifulSoup(content, "html.parser")    genre_session = data.find_all('li', attrs={'class': "medium listbox group"})    #定义一个空列表childurl存放类别名称及子网页URL    childurl = []    for session in genre_session:        elements = session.find_all('h4', attrs={'class': "heading"})        for element in elements:            genre = {}            genre['name'] = element.find('a').text            genre['nextpage'] = element.find('a')['href']            childurl.append(genre)    return childurl    #定义子网页内容处理函数GET_CHILD_INFO    def GET_CHILD_INFO(content,kind):    data = BeautifulSoup(content, "html.parser")    book_session = data.find_all('ol', attrs={'class': "alphabet fandom index group "})    items = book_session[0].find_all('ul', attrs={'class': "tags index group"})    #定义一个空列表books存放书的类别、名称及评论数    books = []    for item in items:        book = {}        book['kinds'] = kind        book['name'] = item.find('a').text        book['reviews'] = item.text.strip().split('\n')[-1].strip().strip('()')        books.append(book)    return books    if __name__ == '__main__':    url = 'https://arcHiveofourown.org/media'    content = GET_HTML_CONTENT(url)    childurl = GET_CHILD_URL(content)    row = 1    col = 0    data = [[u'类别',u'名称',u'评论数']]    workbook = xlsxwriter.Workbook("data.xlsx")    worksheet = workbook.add_worksheet()    worksheet.write_row(0,0,data[0])    for k in childurl:        kind = k['name']        nexturl = k['nextpage']        geturl = 'Https://archiveofourown.org' + nexturl        txt = GET_HTML_CONTENT(geturl)        books = GET_CHILD_INFO(txt,kind)        for info in books:            worksheet.write(row, col, info['kinds'])            worksheet.write(row, col + 1, info['name'])            worksheet.write(row, col + 2, info['reviews'])            row += 1    workbook.close()

运行结果如图1-3所示:

利用requests+BeautifulSoup爬取网页关键信息

                                 图1-3

--结束END--

本文标题: 利用requests+BeautifulSoup爬取网页关键信息

本文链接: https://lsjlt.com/news/229907.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 利用requests+BeautifulSoup爬取网页关键信息
    一、requests库基础知识Requests的方法  requests库的response对象二、爬取网站所需信息访问网站,如图1-1所示:图1-1点击子页面,审查网页元素,部分内容如图1-2所示:图1-2实现代码如下...
    99+
    2023-06-02
  • Python爬虫之使用BeautifulSoup和Requests抓取网页数据
    目录一、简介二、网络爬虫的基本概念三、Beautiful Soup 和 Requests 库简介四、选择一个目标网站五、使用 Requests 获取网页内容六、使用 Beautifu...
    99+
    2023-05-14
    Python爬虫 使用BeautifulSoup和Requests Python爬虫抓取网页数据
  • Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据
    这篇文章主要介绍了Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Python爬虫之怎么使用BeautifulSoup和Reque...
    99+
    2023-07-05
  • Python 爬虫:如何用 BeautifulSoup 爬取网页数据
    在网络时代,数据是最宝贵的资源之一。而爬虫技术就是一种获取数据的重要手段。Python 作为一门高效、易学、易用的编程语言,自然成为了爬虫技术的首选语言之一。而 BeautifulSoup 则是 Py...
    99+
    2023-10-23
    python 爬虫 beautifulsoup
  • Python中怎么利用Beautifulsoup爬取网站
    这篇文章将为大家详细讲解有关Python中怎么利用Beautifulsoup爬取网站,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。1.开始前准备1 python3,本篇博客内容采用pytho...
    99+
    2023-06-17
  • Python爬取求职网requests库和BeautifulSoup库使用详解
    目录一、requests库1、requests简介2、安装requests库3、使用requests获取网页数据 我们先导入模块4、总结requests的一些方法二、Beautifu...
    99+
    2024-04-02
  • Python Requests爬虫中如何求取关键词页面
    小编给大家分享一下Python Requests爬虫中如何求取关键词页面,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!需求:爬取搜狗首页的页面数据imp...
    99+
    2023-06-29
  • python爬虫之利用Selenium+Requests爬取拉勾网
    目录一、前言二、分析url三、获取所有城市和页数四、生成params参数五、获取数据六、总结一、前言 利用selenium+requests访问页面爬取拉勾网招聘信息 二、分析url...
    99+
    2024-04-02
  • Python用requests-html爬取网页的实现
    目录1. 开始2. 原理3. 元素定位css 选择器4. CSS 简单规则5. Xpath简单规则6. 人性化操作7. 加载 js8. 总结1. 开始 Python 中可以进行网页解...
    99+
    2024-04-02
  • Python灰帽编程——网页信息爬取
    文章目录 网页信息爬取1. 相关模块1.1 requests 模块1.1.1 模块中的请求方法1.1.2 请求方法中的参数1.1.3 响应对象中属性 1.2 RE 模块1.2.1 匹配...
    99+
    2023-09-24
    python 开发语言 网络安全 系统安全 python脚本 爬虫 requests模块
  • Python如何利用正则表达式爬取网页信息及图片
    一、正则表达式是什么? 概念: 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来...
    99+
    2024-04-02
  • Python怎么利用正则表达式爬取网页信息及图片
    小编给大家分享一下Python怎么利用正则表达式爬取网页信息及图片,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!一、正则表达式是什么概念:正则表达式是对字符串操作...
    99+
    2023-06-14
  • 怎么利用Python网络爬虫来提取信息
    怎么利用Python网络爬虫来提取信息,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。下面小编就为大家带来一篇Python网络爬虫与信息提取(实例讲解)。小编觉得挺不错的,现在就...
    99+
    2023-06-02
  • 利用python从网页上获取所有信息
    使用python获取网页中的所有信息,具体方法如下:page = urllib2.urlopen(url) contents = page.read() #网页链接 print(contents) ...
    99+
    2024-04-02
  • 利用python处理网页信息
        在前几周的grep/sed/awk实战中提到,“和CoreSite - Any2 California接入商建立网络BGP邻居关系。从peeringdb上找到了所有接入商的信息,但是转移信息到本地不是很方便,需要进行多次文本调整,耗...
    99+
    2023-01-31
    网页 信息 python
  • Python中怎么利用网络爬虫获取招聘信息
    Python中怎么利用网络爬虫获取招聘信息,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。定义一个class类继承object,定义init方法继承self,主函...
    99+
    2023-06-16
  • Python如何一键爬取你所关心的书籍信息
    本篇文章给大家分享的是有关Python如何一键爬取你所关心的书籍信息,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。前言 平时看到的豆瓣爬虫基本都是爬豆瓣top100电...
    99+
    2023-06-02
  • Python 基于Selenium实现动态网页信息的爬取
    目录一、Selenium介绍与配置1.Selenium简介2. Selenium+Python环境配置二、网页自动化测试1.启动浏览器并打开百度搜索2.定位元素三、爬取动态网页的名人...
    99+
    2024-04-02
  • Python基于Selenium怎么实现动态网页信息的爬取
    这篇文章主要介绍“Python基于Selenium怎么实现动态网页信息的爬取”,在日常操作中,相信很多人在Python基于Selenium怎么实现动态网页信息的爬取问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答...
    99+
    2023-06-22
  • 怎么利用Python批量爬取网页图片
    你可以使用Python的requests库来发起HTTP请求,并使用BeautifulSoup库来解析HTML文档以获取图片的URL...
    99+
    2023-09-27
    Python
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作