首页 > 资讯 > 后端开发 > Python >学习PyQuery库

562

分享到

学习PyQuery库

PyQuery 2023-01-31 00:01:28 562人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

学习PyQuery库好了，又是学习的时光啦，今天学习pyquery 来进行网页解析常规导入模块（PyQuery库中的pyquery类） from pyquery import PyQuery as pq 通常使用url初始化 doc

学习PyQuery库

好了，又是学习的时光啦，今天学习pyquery 来进行网页解析

常规导入模块（PyQuery库中的pyquery类）
from pyquery import PyQuery as pq

通常使用url初始化
doc = pq(url='Http://www.baidu.com')

文件初始化
doc = pq(filename='demo.html')

基本CSS选择器的使用，以起点中文网的为例子
doc = pq(url='https://www.qidian.com/free/all')

下面来获取小说名字信息
1.打开浏览器，进入要分析的网页
2.F12开发人员调试工具
enter description here
3.进行元素检查
4.定位到爬取节点指定位置
5.分析一下我们自己写 CSS选择器方法

id 使用的是# class 使用的是英文句号空格代表层级关系
enter description here

此时我们先使用语句来获取页面中的所有<h4>的元素
doc = pq(url='https://www.qidian.com/free/all')
a = doc('h4').items()
for i in a:
print(i)

迭代出所筛选出来的结果
enter description here

但也会遇到上面的情况，共同是h4元素的，但筛选到我们不想要的数据。

这时我们可以采用往上级找，直到找到有区别的元素。
enter description here

doc = pq(url='https://www.qidian.com/free/all')
a = doc('.book-mid-info h4').items()
for i in a:
    print(i)

得到了期待的数据！！！（要还是有那前两个，说明还定位不够准确，再往上一层走）
enter description here

我们如果要获取简介内容，我们可以下图方式代码获取子节点（记得find方法是子孙节点）
enter description here

但上图也没抓取我们特别想要的信息呀，这时发现我们所指定的解析底下有很多li标签里标签底下又有很多内容，所以此时还得继续往下解析。
enter description here

首先我们用children方法查找子节点，然后使用items方法来得到一个生成器，将数据遍历打印或者添加到列表中，方便数据存储和最终结果打印。

此时我们来获取一下小说的图片链接试试利用attrs方法来返回属性字典进一步获取value值。
enter description here

怎么来抓取解析节点理清层级关系利用好 F12来分析就好啦！！！

总结一下：
id 使用的是# class 使用的是英文句号空格代表层级关系
find()方法是遍历子孙节点
chlidren()方法是获取节点的子节点（看上面实例也支持往下继续选择节点）
parent()方法是获取节点的父节点
parents()方法是获取节点的所有父节点（下面实例从所有祖先节点中挑选出符合条件的节点）

parent = items.parents('.wrap')
print(parent)

siblings()方法是获取兄弟节点（下面实例从所有兄弟节点中挑选出符合条件的节点）

from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.list .item-0.active')
print(li.siblings('.active'))

items()方法是用于遍历每一个节点结果
attr()方法是返回属性字典进一步获取value值
text()方法是获取节点内部文本（Tips：当内容中前后出现\n 空格可配合strip()来删除）

也可以百度学习下伪类选择器来获取节点数据，而且右键就能copy出表达式！！！
enter description here

您可能感兴趣的文档:

--结束END--

本文标题: 学习PyQuery库

本文链接: https://lsjlt.com/news/182277.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

学习PyQuery库

学习PyQuery库

学习PyQuery库

数据库学习

python_库学习_01

数据库学习 Postgresq;

MySQL数据库学习

python之_requests库学习_

Numpy库的学习（二）

Numpy库的学习（四）

Numpy库的学习（三）

python之cmd库学习

学习 Python 之 Pandas库

如何学习数据库

数据库怎么学习

[Python学习笔记] turtle库

Python Pandas库的学习（二）

python re库-----学习(正则

数据库中间件DBLE学习(二) 学习配置schema.xml

python常用机器学习及深度学习库有哪些

数据库postgres index vaccum学习

Python标准库学习之urllib

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义