首页 > 资讯 > 后端开发 > Python >Python爬虫XPath怎么用

700

分享到

Python爬虫XPath怎么用

2023-06-25 15:06:41 700人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

这篇文章主要为大家展示了“python爬虫XPath怎么用”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“python爬虫XPath怎么用”这篇文章吧。一、问题描述1.什么是XPath？xpath

这篇文章主要为大家展示了“python爬虫XPath怎么用”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“python爬虫XPath怎么用”这篇文章吧。

一、问题描述

1.什么是XPath？

xpath是一门在XML和html文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历，XPath 通过使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和在常规的电脑文件系统中看到的表达式非常相似。

二、解决方案

1.XPath语法

想要学好xpath，首先要搞明白html文档中的节点。

<div>     <ul>          <li class="item-0"><a href="link1.html" rel="external nofollow" >first item</a></li>          <li class="item-1"><a href="link2.html" rel="external nofollow" >second item</a></li>          <li class="item-inactive"><a href="link3.html" rel="external nofollow" >third item</a></li>          <li class="item-1"><a href="link4.html" rel="external nofollow" >fourth item</a></li>          <li class="item-0"><a href="link5.html" rel="external nofollow" >fifth item</a> # 注意，此处缺少一个 </li> 闭合标签      </ul>  </div>

以上是在网上随便找的一段html的文本，可以观察得到，div的标签下是ul标签，而ul标签下是li标签，于是发现html的标签是一级一级如树状的。Xpath正是通过这样的方式去寻找。以生活中举例，要确定一个人的位置，首先确定他在中国，然后确定他在某个省份，哪座城市，那个小区，最后找到他。

表达式	描述
nodename	选取此节点的所有子节点 bookstore 选取bookstore下所有的子节点
/	如果是在最前面，代表从根节点选取。否则选择某节点下的某个节点 /bookstore 选取根元素下所有的bookstore节点
//	从全局节点中选择节点，随便在哪个位置 //book 从全局节点中找到所有的book节点
@	选取某个节点的属性 //book[@price] 选择所有拥有price属性的book节点
.	当前节点
Text()	获取标签中的文本

同级标签可以用li[1] ,li[2] ,li[3]的方式获取

2.lxml库

简单介绍一下lxml库，接下来会用到它

lxml是一个HTML/XML的解析器，主要的功能是如何解析和提取HTML/XML 数据。

lxml和正则一样，也是用C实现的，是一款高性能的PythonHTML/XML解析器，可以利用之前学习的XPath语法，来快速的定位特定元素以及节点信息。

3.实际案例

随便爬取一个网站，找到找到网站的html文本

如下图：

Python爬虫XPath怎么用

要找到title和href，仔细观察可以得到路径分别是//div[@id="resultList"]/div[@class="el"]/p/span/a/@title

//div[@id="resultList"]/div[@class="el"]/p/span/a/@href

运行如下：

Python爬虫XPath怎么用

以上是“Python爬虫XPath怎么用”这篇文章的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注编程网Python频道！

您可能感兴趣的文档:

--结束END--

本文标题: Python爬虫XPath怎么用

本文链接: https://lsjlt.com/news/305856.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Python爬虫XPath怎么用

一、问题描述

1.什么是XPath？

二、解决方案

1.XPath语法

2.lxml库

3.实际案例

Python爬虫XPath怎么用

Python爬虫中Xpath语法怎么用

Python爬虫11-XML与XPath

python爬虫-简单使用xpath下载

python怎么爬虫lxml库解析xpath网页

Python爬虫实战之xpath解析

python爬虫中xpath实例分析

Python爬虫必备之XPath解析库

一文掌握Python爬虫XPath语法

python爬虫指南之xpath实例解析

5.网络爬虫——Xpath解析

python爬虫xpath模块简介示例代码

Python 爬虫网页内容提取工具xpath

python网络爬虫精解之XPath的使用说明

一起学爬虫——使用xpath库爬取猫眼电

python-爬虫-xpath方法-批量爬取王者皮肤图片

python动态网站爬虫实战(requests+xpath+demjson+redis)

Python爬虫Xpath定位数据的两种方法

怎么使用Python爬虫

python中怎么使用XPath爬取小说

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义