首页 > 资讯 > 后端开发 > Python >python爬虫之异常捕获及标签过滤详解

499

分享到

python爬虫之异常捕获及标签过滤详解

2024-04-02 19:04:59 499人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

增加异常捕获，更容易现问题的解决方向 import ssl import urllib.request from bs4 import BeautifulSoup from ur

增加异常捕获，更容易现问题的解决方向


import ssl
import urllib.request
from bs4 import BeautifulSoup
from urllib.error import HttpError, URLError
 
 
def get_data(url):
    headers = {"user-agent":
                   "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
               }
    ssl._create_default_https_context = ssl._create_unverified_context
 
    """
    urlopen处增加两个异常捕获：
            1、如果页面出现错误或者服务器不存在时，会抛HTTP错误代码
            2、如果url写错了或者是链接打不开时，会抛URLError错误
    """
    try:
        url_obj = urllib.request.Request(url, headers=headers)
        response = urllib.request.urlopen(url_obj)
        html = response.read().decode('utf8')
    except (HTTPError, URLError)as e:
        raise e
 
    """
    BeautifulSoup处增加异常捕获是因为BeautifulSoup对象中有时候标签实际不存在时，会返回None值；
    因为不知道，所以调用了就会导致抛出AttributeError: 'NoneType' object has no xxxxxxx。
    """
    try:
        bs = BeautifulSoup(html, "html.parser")
        results = bs.body 
    except AttributeError as e:
        return None
 
    return results
 
 
if __name__ == '__main__':
    print(get_data("https://movie.douban.com/chart"))

解析html，更好的实现数据展示效果

get_text()：获取文本信息


# 此处代码同上面打开url代码一致，故此处省略......
 
html = response.read().decode('utf8')
bs = BeautifulSoup(html, "html.parser")
data = bs.find('span', {'class': 'pl'})
print(f'电影评价数：{data}')
print(f'电影评价数：{data.get_text()}')

运行后的结果显示如下：


电影评价数：<span class="pl">(38054人评价)</span>
电影评价数：(38054人评价)

find() 方法是过滤HTML标签，查找需要的单个标签

实际find方法封装是调用了正则find_all方法，把find_all中的limt参数传1，获取单个标签

1.name：可直接理解为标签元素

2.attrs：字典格式，放属性和属性值 {"class": "indent"}

3.recursive：递归参数，布尔值，为真时递归查询子标签

4.text：标签的文本内容匹配 , 是标签的文本，标签的文本

find_all() 方法是过滤HTML标签，查找需要的标签组

使用方法适合find一样的，无非就是多了个limit参数（筛选数据)

必须注意的小知识点：


#   下面两种写法，实际是一样的功能，都是查询id为text的属性值
bs.find_all(id="text")
bs.find_all(' ', {"id": "text"})


#   如果是class的就不能class="x x x"了，因为class是python中类的关键字
bs.find_all(class_="text")
bs.find_all(' ', {"class": "text"})

到此这篇关于python爬虫之异常捕获及标签过滤详解的文章就介绍到这了,更多相关Python异常捕获及标签过滤内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

--结束END--

本文标题: python爬虫之异常捕获及标签过滤详解

本文链接: https://lsjlt.com/news/126187.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python分析数据的方法是什么

2024-03-01

如何使用Python实现抽奖小程序

2024-03-01

python copy函数的作用是什么

2024-03-01

python ffmpeg模块怎么安装和使用

2024-02-29

python进程池创建队列的方法是什么

2024-02-29

python无法运行文件的原因有哪些

2024-02-29

python can't open file报错怎么解决

2024-02-29

python keyerror错误怎么解决

2024-02-29

python字符串处理与应用的方法有哪些

2024-02-29

python全局变量如何定义

2024-02-29

热门问答

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

python爬虫之异常捕获及标签过滤详解

python爬虫之异常捕获及标签过滤详解

python爬虫之异常捕获及标签过滤的示例分析

详解python的异常捕获

Python之捕捉异常详解

python异常捕获详解流程

python中异常捕获方法详解

java 异常捕获及处理案例详解

Python之Scrapy爬虫框架安装及使用详解

详解WPF中的APP生命周期以及全局异常捕获

Python爬虫之用Xpath获取关键标签实现自动评论盖楼抽奖(二)

Python BeautifulSoup基本用法详解(通过标签及class定位元素)

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义