返回顶部
首页 > 资讯 > 后端开发 > Python >python爬虫之异常捕获及标签过滤详解
  • 499
分享到

python爬虫之异常捕获及标签过滤详解

2024-04-02 19:04:59 499人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

增加异常捕获,更容易现问题的解决方向 import ssl import urllib.request from bs4 import BeautifulSoup from ur

增加异常捕获,更容易现问题的解决方向


import ssl
import urllib.request
from bs4 import BeautifulSoup
from urllib.error import HttpError, URLError
 
 
def get_data(url):
    headers = {"user-agent":
                   "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
               }
    ssl._create_default_https_context = ssl._create_unverified_context
 
    """
    urlopen处增加两个异常捕获:
            1、如果页面出现错误或者服务器不存在时,会抛HTTP错误代码
            2、如果url写错了或者是链接打不开时,会抛URLError错误
    """
    try:
        url_obj = urllib.request.Request(url, headers=headers)
        response = urllib.request.urlopen(url_obj)
        html = response.read().decode('utf8')
    except (HTTPError, URLError)as e:
        raise e
 
    """
    BeautifulSoup处增加异常捕获是因为BeautifulSoup对象中有时候标签实际不存在时,会返回None值;
    因为不知道,所以调用了就会导致抛出AttributeError: 'NoneType' object has no xxxxxxx。
    """
    try:
        bs = BeautifulSoup(html, "html.parser")
        results = bs.body 
    except AttributeError as e:
        return None
 
    return results
 
 
if __name__ == '__main__':
    print(get_data("https://movie.douban.com/chart"))

解析html,更好的实现数据展示效果

  • get_text():获取文本信息

# 此处代码同上面打开url代码一致,故此处省略......
 
html = response.read().decode('utf8')
bs = BeautifulSoup(html, "html.parser")
data = bs.find('span', {'class': 'pl'})
print(f'电影评价数:{data}')
print(f'电影评价数:{data.get_text()}')

运行后的结果显示如下:


电影评价数:<span class="pl">(38054人评价)</span>
电影评价数:(38054人评价)
  • find() 方法是过滤HTML标签,查找需要的单个标签

图片

实际find方法封装是调用了正则find_all方法,把find_all中的limt参数传1,获取单个标签

1.name:可直接理解为标签元素

2.attrs:字典格式,放属性和属性值 {"class": "indent"}

3.recursive:递归参数,布尔值,为真时递归查询子标签

4.text:标签的文本内容匹配 , 是标签的文本,标签的文本

  • find_all() 方法是过滤HTML标签,查找需要的标签组

使用方法适合find一样的,无非就是多了个limit参数(筛选数据)

图片

必须注意的小知识点:


#   下面两种写法,实际是一样的功能,都是查询id为text的属性值
bs.find_all(id="text")
bs.find_all(' ', {"id": "text"})

#   如果是class的就不能class="x x x"了,因为class是python中类的关键字
bs.find_all(class_="text")
bs.find_all(' ', {"class": "text"})

到此这篇关于python爬虫之异常捕获及标签过滤详解的文章就介绍到这了,更多相关Python异常捕获及标签过滤内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: python爬虫之异常捕获及标签过滤详解

本文链接: https://lsjlt.com/news/126187.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • python爬虫之异常捕获及标签过滤详解
    增加异常捕获,更容易现问题的解决方向 import ssl import urllib.request from bs4 import BeautifulSoup from ur...
    99+
    2024-04-02
  • python爬虫之异常捕获及标签过滤的示例分析
    这篇文章主要介绍了python爬虫之异常捕获及标签过滤的示例分析,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。增加异常捕获,更容易现问题的解决方向import ss...
    99+
    2023-06-15
  • 详解python的异常捕获
    目录①捕捉一个异常②捕捉多个异常③Exception捕捉所有异常④raise主动触发异常⑤try…except…else…finally逻辑...
    99+
    2024-04-02
  • Python之捕捉异常详解
    目录1.python中的异常2.捕捉异常try-except多个except子句 一个except块捕捉多个异常 空except:捕捉所有异常as语句: else语句:finally...
    99+
    2024-04-02
  • python异常捕获详解流程
    1 捕捉一个异常 捕捉一个异常 以用0作为除数会得到ZeroDivisionError异常为例, print(1/0) 为例程序的持续执行,不因该异常而中止, 遂对该异常进...
    99+
    2024-04-02
  • python中异常捕获方法详解
    在Python中处理异常使用的是try-except代码块,try-except代码块放入让python执行的操作,同时告诉python程序如果发生了异常该怎么办,try-except这个功能其实很多入门书...
    99+
    2022-06-04
    详解 异常 方法
  • java 异常捕获及处理案例详解
    目录一、Java异常简介二、Java异常的分类三、异常的使用及执行流程四、自定义异常一、Java异常简介 什么是异常? 程序运行时,发生的不被期望的事件,它阻止了程序按照程序员的预期...
    99+
    2024-04-02
  • Python之Scrapy爬虫框架安装及使用详解
    题记:早已听闻python爬虫框架的大名。近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享。有表述不当之处,望大神们斧正。 一、初窥Scrapy Scrapy是一个为了爬取网站数据,提取结构...
    99+
    2022-06-04
    爬虫 详解 框架
  • 详解WPF中的APP生命周期以及全局异常捕获
    目录APP生命周期窗体生命周期事件全局异常捕获APP生命周期 wpf项目目录中有一个App.xaml.cs文件,该文件中App是一个partical类,与之对应的另一partical...
    99+
    2023-03-02
    WPF生命周期 WPF 全局异常捕获 WPF 异常捕获
  • Python爬虫之用Xpath获取关键标签实现自动评论盖楼抽奖(二)
    目录一、分析链接二、切分提取tid三、随机提取评论的内容四、盖楼刷抽奖一、分析链接 上一篇文章指路 一般来说,我们参加某个网站的盖楼抽奖活动,并不是仅仅只参加一个,而是多个盖楼活动一...
    99+
    2024-04-02
  • Python BeautifulSoup基本用法详解(通过标签及class定位元素)
    如下: 将html文件下载后,使用BeauifulSoup读取文件,并且使用html.parser tmp_soup.select里面的参数为: div标签中class中带有li...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作