返回顶部
首页 > 资讯 > 后端开发 > Python >Python 网络抓取和文本挖掘 - 3
  • 577
分享到

Python 网络抓取和文本挖掘 - 3

文本网络Python 2023-01-31 06:01:36 577人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

XPath 是一种查询语言,用于在html/XML文档中定位和提取一些片段。XPath也是一个W3C标准。XPath只能处理DOM,所以必须先将HTML或XML文档加载解析成DOM。在python中可以用lxml保的etree来 执行DO

XPath 是一种查询语言,用于在html/XML文档中定位和提取一些片段。XPath也是一个W3C标准。XPath只能处理DOM,所以必须先将HTML或XML文档加载解析成DOM。在python中可以用lxml保的etree来 执行DOM解析和XPath查询。

1. 示例文件

<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN">
<html> <head>
<title>Collected R wisdoms</title>
</head>

<body>
<div id="R Inventor" lang="english" date="June/2003">
  <h1>Robert Gentleman</h1>
  <p><i>'What we have is nice, but we need something very different'</i></p>
  <p><b>Source: </b>Statistical Computing 2003, Reisensburg</p>
</div>

<div lang="english" date="October/2011">
  <h1>Rolf Turner</h1>
  <p><i>'R is wonderful, but it cannot work magic'</i> <br><emph>answering a request for automatic generation of 'data from a known mean and 95% CI'</emph></p>
  <p><b>Source: </b><a href="https://stat.ethz.ch/mailman/listinfo/r-help">R-help</a></p>
</div>

<address><a href="Http://www.r-datacollectionbook.com"><i>The book homepage</i><a/></address>

</body> </html>

2. 文件的DOM结构


3. xpath路径

对于HTML文档 ,可以用到达该节点的顺序来描述它的位置,如示例文件中<i>元素,它的XPath为"/html/body/div/p/i",提取该文档<i>节点数据,这个是绝对路径,可以匹配到两条数据;另外可以使用相对路径,如"//i" 这样可以匹配到三条数据,//表示可以从某个路径开始,这条相对路径效率比较低,会导致对文档树进行完全遍历。Python代码如下:

f = open("fortunes.html", "r")
    content = f.read()
    f.close()
    html = et.HTML(content)

    elements = html.xpath('/html/body/div/p/i')
    for ele in elements:
        print ele.text

    print ""
    
    elements = html.xpath('//i')
    for ele in elements:
        print ele.text

4. 用节点关系构建XPath

利用这个特性构建XPath的语法为:node1/relation::node2,同样上述html文档,用这个语句就可以构造一个XPath来提取第2个<div>下的<i>元素。

语句为:  //a/acenstor::div//i 表示这条路径中的i是一个div后代,同时这个div又是一个a的祖先,从文档树的结构看,只有第2个div具备这个特性。

XPath 轴用来表示的节点与上下文节点之间的关系,如图所示。


4. XPath谓语

谓语是能针对节点的名字、值或属性进行调用的简单函数,这些函数会对某个条件 (或一组条件)是true还是false进行判断。结果为true的那些节点会被选中。

XPath谓语的语法:node[predicate]



数字谓语,利用文档中的数字属性,如计数或位置,创建条件语句,如:'//div/p[position()=1]’  返回第一个位置的<p>

文本谓语,根据文档中元素的名字、内容、属性或属性值中的文本选取节点,如 '//div[@date="october/2011]"'

5. 提取节点元素

   在python中用lxml可以方便的获得元素的标签名、内容t和属性,分别对应的是lxml.etree._Element类的tag、text属性和items()方法。

if __name__ == '__main__':
    f = open("fortunes.html", "r")
    content = f.read()
    f.close()
    html = et.HTML(content)

    elements = html.xpath('//')
    for ele in elements:
        print type(ele)
        print ele.tag
        print ele.items()

此外,关于正则表达式、http、sqlajax的相关知识就跳过,这些以前都接触过。










--结束END--

本文标题: Python 网络抓取和文本挖掘 - 3

本文链接: https://lsjlt.com/news/189554.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作