首页 > 资讯 > 后端开发 > Python >Python 网络抓取和文本挖掘 - 3

577

分享到

Python 网络抓取和文本挖掘 - 3

文本网络 Python 2023-01-31 06:01:36 577人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

XPath 是一种查询语言，用于在html/XML文档中定位和提取一些片段。XPath也是一个W3C标准。XPath只能处理DOM，所以必须先将HTML或XML文档加载解析成DOM。在python中可以用lxml保的etree来执行DO

XPath 是一种查询语言，用于在html/XML文档中定位和提取一些片段。XPath也是一个W3C标准。XPath只能处理DOM，所以必须先将HTML或XML文档加载解析成DOM。在python中可以用lxml保的etree来执行DOM解析和XPath查询。

1. 示例文件

<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN">
<html> <head>
<title>Collected R wisdoms</title>
</head>

<body>
<div id="R Inventor" lang="english" date="June/2003">
  <h1>Robert Gentleman</h1>
  <p><i>'What we have is nice, but we need something very different'</i></p>
  <p><b>Source: </b>Statistical Computing 2003, Reisensburg</p>
</div>

<div lang="english" date="October/2011">
  <h1>Rolf Turner</h1>
  <p><i>'R is wonderful, but it cannot work magic'</i> <br><emph>answering a request for automatic generation of 'data from a known mean and 95% CI'</emph></p>
  <p><b>Source: </b><a href="https://stat.ethz.ch/mailman/listinfo/r-help">R-help</a></p>
</div>

<address><a href="Http://www.r-datacollectionbook.com"><i>The book homepage</i><a/></address>

</body> </html>

2. 文件的DOM结构

3. xpath路径

对于HTML文档，可以用到达该节点的顺序来描述它的位置，如示例文件中<i>元素，它的XPath为"/html/body/div/p/i"，提取该文档<i>节点数据，这个是绝对路径，可以匹配到两条数据；另外可以使用相对路径，如"//i" 这样可以匹配到三条数据，//表示可以从某个路径开始，这条相对路径效率比较低，会导致对文档树进行完全遍历。Python代码如下：

f = open("fortunes.html", "r")
    content = f.read()
    f.close()
    html = et.HTML(content)

    elements = html.xpath('/html/body/div/p/i')
    for ele in elements:
        print ele.text

    print ""
    
    elements = html.xpath('//i')
    for ele in elements:
        print ele.text

4. 用节点关系构建XPath

利用这个特性构建XPath的语法为：node1/relation::node2，同样上述html文档，用这个语句就可以构造一个XPath来提取第2个<div>下的<i>元素。

语句为: //a/acenstor::div//i 表示这条路径中的i是一个div后代，同时这个div又是一个a的祖先，从文档树的结构看，只有第2个div具备这个特性。

XPath 轴用来表示的节点与上下文节点之间的关系，如图所示。

4. XPath谓语

谓语是能针对节点的名字、值或属性进行调用的简单函数，这些函数会对某个条件（或一组条件）是true还是false进行判断。结果为true的那些节点会被选中。

XPath谓语的语法：node[predicate]

数字谓语，利用文档中的数字属性，如计数或位置，创建条件语句，如：'//div/p[position()=1]’ 返回第一个位置的<p>

文本谓语，根据文档中元素的名字、内容、属性或属性值中的文本选取节点，如 '//div[@date="october/2011]"'

5. 提取节点元素

在python中用lxml可以方便的获得元素的标签名、内容t和属性，分别对应的是lxml.etree._Element类的tag、text属性和items()方法。

if __name__ == '__main__':
    f = open("fortunes.html", "r")
    content = f.read()
    f.close()
    html = et.HTML(content)

    elements = html.xpath('//')
    for ele in elements:
        print type(ele)
        print ele.tag
        print ele.items()

此外，关于正则表达式、http、sql和ajax的相关知识就跳过，这些以前都接触过。

您可能感兴趣的文档:

--结束END--

本文标题: Python 网络抓取和文本挖掘 - 3

本文链接: https://lsjlt.com/news/189554.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Python 网络抓取和文本挖掘 - 3

Python 网络抓取和文本挖掘 - 3

Python 网络抓取和文本挖掘-1 H

Python数据抓取、分析、挖掘和分布式计算内容有哪些

如何在PHP中进行文本处理和文本挖掘？

怎么用python爬虫抓取网页文本

python数据挖掘第三篇-垃圾短信文本分类

如何在PHP中进行社交网络分析和数据挖掘？

PHP中如何进行自动文本分类和数据挖掘？

如何在Python中进行网络数据抓取

python如何实现基本的抓取网页

Python：网页的抓取、过滤和保存

新鲜出炉“网络挖掘”全新Python视频教程，数据工作者必看

PHP中如何进行网络爬虫和数据抓取？

python抓取网页中图片并保存到本地

使用Python和Scrapy实现抓取网站数据

如何用Python网络爬虫抓取百度贴吧评论区图片和视频

Python爬虫之使用BeautifulSoup和Requests抓取网页数据

Node.js抓取中文网页乱码问题和解决方法

怎么使用Python抓取和优化所有网站图像

如何使用Python抓取和优化所有网站图像

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义