首页 > 资讯 > 后端开发 > Python >【Python爬虫】数据解析之bs4解析和xpath解析

744

分享到

【Python爬虫】数据解析之bs4解析和xpath解析

python 爬虫开发语言 2023-09-06 10:09:38 744人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

🔥一个人走得远了，就会忘记自己为了什么而出发，希望你可以不忘初心，不要随波逐流，一直走下去🎶 🦋 欢迎关注🖱点赞👍收

🔥一个人走得远了，就会忘记自己为了什么而出发，希望你可以不忘初心，不要随波逐流，一直走下去🎶
🦋 欢迎关注🖱点赞👍收藏🌟留言🐾
🦄 本文由 程序喵正在路上 原创，CSDN首发！
💖 系列专栏：python爬虫
🌠 首发时间：2022年8月9日
✅ 如果觉得博主的文章还不错的话，希望小伙伴们三连支持一下哦

bs4解析

1. html语法规则

bs4 解析比较简单，但是呢，我们需要了解一些基础的前端知识，然后再使用 bs4 去提取，逻辑就会清晰很多，编写难度也会大大降低

HTML（Hyper Text Markup Language）超文本标记语言，是我们编写网页的最基本同时也是最核心的一种语言，其语法规则就是用不同的标签对网页上的内容进行标记，从而使网页显示出不同的展示效果

<h1>数据解析h1>

上述代码的含义是在页面中显示 “数据解析” 4 个字，但是 “数据解析” 这 4 个字被 “

” 和 “

” 标记了，这个时候，浏览器在展示的时候就会让里面的内容，也就是 ”数据解析“ 这 4 个字变大加粗，俗称标题，所以 HTML 的语法就是用类似这样的标签对页面内容进行标记，不同的标签表示出来的效果也是不一样的

h1：一级标题h2：二级标题p：段落font：字体body：主体

这里只是给小白们简单科普一下，HTML 的标签远不止这些

好的，标签我们明白了，接下来就是属性了

<h1>数据解析h1><h1 align='right'>数据解析h1>

我们还可以在标签中添加 ” align='right' " 这样的东西，这又是什么呢？

首先，这两个标签都是 h1 标签，都是一级标题，但是下面这个会显示在右边，也就是说，通过这种形式对 h1 标签添加了说明，这种语法在 HTML 中被称为标签的属性，并且属性可以有很多个

总结：HTML 语法：

<标签 属性="值" 属性="值">被标记的内容标签>

有了这些知识，我们再去看 bs4 就会得心应手了，因为 bs4 就是通过标签和属性去定位页面上的内容的

2. bs4模块安装

bs4 是一个第三方库，首先我们得进行安装

在 Python 中推荐使用 pip 进行安装，很简单，在 Pycharm 下方找到 Terminal，输入以下命令：

pip install bs4

如果安装过慢，可以考虑更换为国内源：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple bs4

3. 搞搞农产品价格

bs4 在使用的时候需要参照一些 HTML 的基本语法来进行使用，通过案例来学会使用 bs4 更加快捷

我们来尝试抓取北京岳各庄批发市场的农产品价格 ➔ 目标网站

在这里插入图片描述

代码实现：

import csvimport requestsfrom bs4 import BeautifulSoup# 获取页面源代码url = "Http://www.ygzapm.com/WEB/dailyPrice"resp = requests.get(url)# print(resp.text)  # 测试用f = open("农产品信息.csv", mode="w", encoding='utf-8', newline='')csvWriter = csv.writer(f)# 解析数据# 1. 把页面源代码交给 BeautifulSoup 进行处理，生成 bs 对象page = BeautifulSoup(resp.text, "html.parser")  # 指定html解析器# 2. 从bs对象中查找数据，两个函数# find(标签,  属性=值)       找一个# find_all(标签, 属性=值)        找全部# table = page.find("table", class_="table")    # 加下划线区分关键字，与下面的表达式一样table = page.find("table", attrs={"class": "table"})# print(table)  # 测试用trs = table.find_all("tr")[1:]for tr in trs:  # 遍历表格的每一行    tds = tr.find_all("td")    type = tds[0].text  # 拿到被标签标记的内容    name = tds[1].text    max_price = tds[2].text    min_price = tds[3].text    avg_price = tds[4].text    unit = tds[5].text    market = tds[6].text    date = tds[7].text    # print(type, name, max_price, min_price, avg_price, unit, market, date)  # 测试用    csvWriter.writerow([type, name, max_price, min_price, avg_price, unit, market, date])resp.close()f.close()print("over!!!")

效果：

在这里插入图片描述

你也可以对代码进行改进，抓取多页数据，但个人建议不要将全部数据都抓取下来

4. 抓取彼岸图网壁纸

彼岸图网

在这里插入图片描述

你以为我们要抓取的是这些图片吗？

其实不是，我们要抓取的是点击图片进入的页面的高清图片，也就是如下

在这里插入图片描述

具体步骤一共有三步：

获取主页面源代码，然后提取子页面的链接地址
获取子页面源代码，查找图片的下载地址
下载图片

废话不多说，开搞

import requestsfrom bs4 import BeautifulSoupimport time# 1. 获取主页面源代码，然后提取子页面的链接地址url = "https://pic.netbian.com/"resp = requests.get(url)resp.encoding = 'gbk'main_page = BeautifulSoup(resp.text, "html.parser")alist = main_page.find("div", class_="slist").find_all("a")# print(alist) # 测试用for a in alist:    href = url + a.get('href')     # 通过get得到属性的值，拼接得到完整子页面链接    # print(a)  # 测试用    # 2. 获取子页面源代码，查找图片的下载地址    sub_page_resp = requests.get(href)    sub_page_resp.encoding = 'gbk'    sub_page_text = sub_page_resp.text    # 从子页面中获取图片的下载地址    sub_page = BeautifulSoup(sub_page_text, "html.parser")    div = sub_page.find("div", class_="photo-pic")    img = div.find("img")    img_href = url + img.get("src").strip("/")       # 拼接图片的下载地址    # print(img_href)   # 测试用    # 3. 下载图片    img_resp = requests.get(img_href)    img_name = img_href.split("/")[-1]      # 图片名称    img_package = "D:\\pythonProject\\images\\"     # 先自己创建一个文件夹以便存放图片，再运行程序    with open(img_package + img_name, mode='wb') as f:        f.write(img_resp.content)   # 这里拿到的是字节    img_resp.close()    sub_page_resp.close()    print(img_name + " 已下载成功")    time.sleep(1)       # 让服务器休息一下resp.close()print("over!!!")

这里是因为我的编译器设置了背景，图片效果不是特别好，还行

在这里插入图片描述

xpath解析

xpath 是一门在 XML 文档中查找信息的语言，xpath 可用来在 XML 文档中对元素和属性进行遍历，而我们熟知的 HTML 恰巧属于 XML 的一个子集，所以完全可以用 xpath 去查找 html 中的内容

首先，我们先了解几个概念

<book><id>1id> <name>天才基本法name> <price>8.9price> <author> <nick>林朝夕nick> <nick>裴之nick> author>book>

在上述 html 中,

book, id, name, price…都被称为节点.
Id, name, price, author 被称为 book 的子节点
book 被称为 id, name, price, author 的父节点
id, name, price,author 被称为同胞节点

好的，有了这些基础知识后，我们就可以开始了解 xpath 的基本语法了

在 Python 中想要使用 xpath，需要安装 lxml 模块

pip install lxml

用法：

将要解析的 html 内容构造出 etree 对象.
使用 etree 对象的 xpath() 方法配合 xpath 表达式来完成对数据的提取

from lxml import etreexml = """    1    天才基本法    8.9            林朝夕        裴之                            周杰伦1        
                            周杰伦2                              佩奇         乔治     """tree = etree.XML(xml)# result = tree.xpath("/book")     # / 表示层级关系，第一个 / 是根节点# result = tree.xpath("/book/name/text()")        # text() 获取文本# result  = tree.xpath("/book/author/nick/text()")# result  = tree.xpath("/book/author//nick/text()")       # 获取author里面所有nick里面的内容# result  = tree.xpath("/book/author/*/nick/text()")       # * 任意的节点，通配符result  = tree.xpath("/book//nick/text()")       # 获取所有nick里面的内容print(result)

准备一个 HTML 文件：

DOCTYPE html><html lang="en"><head>    <meta charset="UTF-8" />    <title>Titletitle>head><body>    <ul>        <li><a href="http://www.baidu.com">百度a>li>         <li><a href="http://www.Google.com">⾕歌a>li>         <li><a href="http://www.sogou.com">搜狗a>li>    ul>     <ol>         <li><a href="plane">⻜机a>li>         <li><a href="cannon">⼤炮a>li>         <li><a href="train">⽕⻋a>li>     ol>     <div class="jay">周杰伦div>     <div class="food">麻辣烫div> body> html>

xpath 最方便的地方在于它可以直接复制，都不用你写

浏览器右击选择检查，点左上角小箭头点击你要提取的内容，它会自动匹配对应的 HTML 代码，右击 HTML 代码，选择复制，选择 xpath

在这里插入图片描述

from lxml import etreetree = etree.parse("data.html")# result = tree.xpath('/html/body/ul/li[1]/a/text()')        #xpath的顺序是从1开始数的# result = tree.xpath("/html/body/ol/li/a[@href='cannon']/text()")        # 属性筛选# print(result)# ol_li_list = tree.xpath("/html/body/ol/li")# for li in ol_li_list:#     print(li.xpath("./a/text()"))       # 在li中继续查找，相对查找#     print(li.xpath("./a/@href"))     # 获取属性值## print(tree.xpath("/html/body/ul/li/a/@href"))print(tree.xpath("/html/body/div[1]/text()"))

🧸 这次的分享就到这里啦，继续加油哦^^
🐱 我是程序喵，陪你一点点进步
🍭 有出错的地方欢迎在评论区指出来，共同进步，谢谢啦

来源地址：https://blog.csdn.net/weixin_62511863/article/details/126239626

您可能感兴趣的文档:

--结束END--

本文标题: 【Python爬虫】数据解析之bs4解析和xpath解析

本文链接: https://lsjlt.com/news/396868.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

【Python爬虫】数据解析之bs4解析和xpath解析

阅读指南

bs4解析

1. html语法规则

” 和 “

2. bs4模块安装

3. 搞搞农产品价格

4. 抓取彼岸图网壁纸

xpath解析

【Python爬虫】数据解析之bs4解析和xpath解析

python爬虫教程之bs4解析和xpath解析详解

python爬虫之bs4数据解析

Python爬虫实战之xpath解析

Python爬虫必备之XPath解析库

python中bs4解析和xpath解析的示例分析

python爬虫指南之xpath实例解析

爬虫之数据解析

Python爬虫必备之XPath解析库的示例分析

5.网络爬虫——Xpath解析

python数据解析之XPath详解

python爬虫指南之xpath实例解析(附实战)

python怎么爬虫lxml库解析xpath网页

Python爬虫之解析HTML页面详解

Python的xpath数据解析案例分析

python爬虫爬取网页数据并解析数据

python爬虫lxml库解析xpath网页过程示例

python爬虫中xpath实例分析

Python使用lxml解析xpath爬取konachan

Python爬虫与数据分析之爬虫技能：u

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义