返回顶部
首页 > 资讯 > 后端开发 > Python >Python爬虫XPath怎么用
  • 700
分享到

Python爬虫XPath怎么用

2023-06-25 15:06:41 700人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章主要为大家展示了“python爬虫XPath怎么用”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“python爬虫XPath怎么用”这篇文章吧。一、问题描述1.什么是XPath?xpath

这篇文章主要为大家展示了“python爬虫XPath怎么用”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“python爬虫XPath怎么用”这篇文章吧。

一、问题描述

1.什么是XPath?

xpath是一门在XMLhtml文档中查找信息的语言,可用来在XMLHTML文档中对元素和属性进行遍历,XPath 通过使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和在常规的电脑文件系统中看到的表达式非常相似。

二、解决方案

1.XPath语法

想要学好xpath,首先要搞明白html文档中的节点。

<div>     <ul>          <li class="item-0"><a href="link1.html" rel="external nofollow" >first item</a></li>          <li class="item-1"><a href="link2.html" rel="external nofollow" >second item</a></li>          <li class="item-inactive"><a href="link3.html" rel="external nofollow" >third item</a></li>          <li class="item-1"><a href="link4.html" rel="external nofollow" >fourth item</a></li>          <li class="item-0"><a href="link5.html" rel="external nofollow" >fifth item</a> # 注意,此处缺少一个 </li> 闭合标签      </ul>  </div>

以上是在网上随便找的一段html的文本,可以观察得到,div的标签下是ul标签,而ul标签下是li标签,于是发现html的标签是一级一级如树状的。Xpath正是通过这样的方式去寻找。以生活中举例,要确定一个人的位置,首先确定他在中国,然后确定他在某个省份,哪座城市,那个小区,最后找到他。

表达式

描述

nodename

选取此节点的所有子节点 bookstore 选取bookstore下所有的子节点

/

如果是在最前面,代表从根节点选取。否则选择某节点下的某个节点 /bookstore 选取根元素下所有的bookstore节点

//

从全局节点中选择节点,随便在哪个位置 //book 从全局节点中找到所有的book节点

@

选取某个节点的属性 //book[@price] 选择所有拥有price属性的book节点

.

当前节点

Text()

获取标签中的文本

同级标签可以用li[1] ,li[2] ,li[3]的方式获取

2.lxml库

简单介绍一下lxml库,接下来会用到它

lxml是一个HTML/XML的解析器,主要的功能是如何解析和提取HTML/XML 数据。

lxml和正则一样,也是用C实现的,是一款高性能的PythonHTML/XML解析器,可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。

3.实际案例

随便爬取一个网站,找到找到网站的html文本

如下图:

Python爬虫XPath怎么用

要找到titlehref,仔细观察可以得到路径分别是//div[@id="resultList"]/div[@class="el"]/p/span/a/@title

//div[@id="resultList"]/div[@class="el"]/p/span/a/@href

运行如下:

Python爬虫XPath怎么用

以上是“Python爬虫XPath怎么用”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注编程网Python频道!

--结束END--

本文标题: Python爬虫XPath怎么用

本文链接: https://lsjlt.com/news/305856.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Python爬虫XPath怎么用
    这篇文章主要为大家展示了“Python爬虫XPath怎么用”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“Python爬虫XPath怎么用”这篇文章吧。一、问题描述1.什么是XPath?xpath...
    99+
    2023-06-25
  • Python爬虫中Xpath语法怎么用
    这篇“Python爬虫中Xpath语法怎么用”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Python爬虫中Xpath语法怎...
    99+
    2023-06-27
  • Python爬虫11-XML与XPath
    GitHub代码练习地址:用lxml解析HTML,文件读取,etree和XPath的配合使用:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac17_xpath%...
    99+
    2023-01-31
    爬虫 Python XPath
  • python爬虫-简单使用xpath下载
      首先 1.为方便以下进行       谷歌浏览器里要安装xpath脚本  2.下载一个lmxl     命令:pip install lxml 3. 以下三张图是一个,当时爬的 《糗事百科》里的图片   值的注意的是:在爬取接口时,要...
    99+
    2023-01-30
    爬虫 简单 python
  • python怎么爬虫lxml库解析xpath网页
    这篇文章主要介绍“python怎么爬虫lxml库解析xpath网页”,在日常操作中,相信很多人在python怎么爬虫lxml库解析xpath网页问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”python怎么爬...
    99+
    2023-06-30
  • Python爬虫实战之xpath解析
    XPath 是一门在 XML 文档中查找信息的语言,最初是用来搜寻 XML 文档的,但是它同样适用于 HTML 文档的搜索。 所以在Python爬虫中,我们经常使用xpath解析这种高效便捷的方式来提...
    99+
    2023-09-23
    python 爬虫 开发语言
  • python爬虫中xpath实例分析
    这篇文章主要介绍“python爬虫中xpath实例分析”,在日常操作中,相信很多人在python爬虫中xpath实例分析问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”python爬虫中xpath实例分析”的疑...
    99+
    2023-06-29
  • Python爬虫必备之XPath解析库
    目录一、简介二、安装三、节点3.1 选取节点3.2 选取未知节点3.3 节点关系四、XPath实例一、简介 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历...
    99+
    2022-06-02
    XPath解析库的使用 Python Xpath
  • 一文掌握Python爬虫XPath语法
    目录一、问题描述1.什么是XPath?二、解决方案1.XPath语法2.lxml库3.实际案例三、结语本文转自微信公众号:"算法与编程之美" 一、问题描述 1.什么是XPath? x...
    99+
    2024-04-02
  • python爬虫指南之xpath实例解析
    Python爬虫指南之XPath实例解析XPath是一种用于在XML文档中进行导航和查找元素的语言。在爬虫中,XPath可以用于解析...
    99+
    2023-08-15
    python
  • 5.网络爬虫——Xpath解析
    网络爬虫——Xpath解析 Xpath简介Xpath解析节点选择路径表达式谓语未知节点 Xpath实战演示豆果美食实战获取数据源代码 前言: 📝​&#x...
    99+
    2023-09-01
    爬虫 python 开发语言 云原生
  • python爬虫xpath模块简介示例代码
    目录一、前言二、简介三、安装四、使用五、案例一、前言 前两篇博客讲解了爬虫解析网页数据的两种常用方法,re正则表达解析和beautifulsoup标签解析,所以今天的博客将围绕另外一...
    99+
    2023-02-14
    python xpath模块 python爬虫 xpath
  • Python 爬虫网页内容提取工具xpath
    上一节,我们详述了lxml.html的各种操作,接下来我们熟练掌握一下XPath,就可以熟练的提取网页内容了。XPath 是什么?XPath的全称是 XML Path Language,即XML 路径语言,是一种在XML(HTML)文档中查...
    99+
    2023-06-02
  • python网络爬虫精解之XPath的使用说明
    目录一、XPath的介绍二、XPath使用1、选取所有节点2、获取子节点3、获取父节点4、属性匹配5、文本获取6、属性获取7、属性多值匹配8、多属性匹配9、按序选择10、节点轴选择X...
    99+
    2024-04-02
  • 一起学爬虫——使用xpath库爬取猫眼电
    之前分享了一篇使用requests库爬取豆瓣电影250的文章,今天继续分享使用xpath爬取猫眼电影热播口碑榜 XPATH语法 XPATH(XML Path Language)是一门用于从XML文件中查找信息的语言。通用适用于从HTML文...
    99+
    2023-01-30
    爬虫 猫眼 xpath
  • python-爬虫-xpath方法-批量爬取王者皮肤图片
    import requestsfrom lxml import etree 获取NBA成员信息 # 发送的地址url = 'https://nba.hupu.com/stats/players'# U...
    99+
    2023-09-13
    python 爬虫 jupyter
  • python动态网站爬虫实战(requests+xpath+demjson+redis)
    目录前言一、主要思路1、观察网站2、编写爬虫代码二、爬虫实战1、登陆获取cookie三、总结前言 之前简单学习过python爬虫基础知识,并且用过scrapy框架爬取数据,都是直接能...
    99+
    2024-04-02
  • Python爬虫Xpath定位数据的两种方法
    方法一:直接右键,将文章路径复制下来点击Copy full Xpath 使用selenium+lxml中的etree进行配合使用,使用etree解析html网页 import req...
    99+
    2024-04-02
  • 怎么使用Python爬虫
    本篇内容介绍了“怎么使用Python爬虫”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!导入模块import re fro...
    99+
    2023-06-16
  • python中怎么使用XPath爬取小说
    这篇文章将为大家详细讲解有关python中怎么使用XPath爬取小说,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。python的五大特点是什么python的五大特点:1.简单易学,开发程序时,专注的是解决...
    99+
    2023-06-14
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作