返回顶部
首页 > 资讯 > 后端开发 > Python >python的lxml模块
  • 880
分享到

python的lxml模块

模块pythonlxml 2023-01-31 01:01:03 880人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

环境:python2.7安装lxml模块pip install lxml例子:from lxml import etree text = ''' <div>     <ul>          <li clas

环境:python2.7

安装lxml模块

pip install lxml

例子:

from lxml import etree
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
html = etree.HTML(text)  #这是一个地址
result = etree.tostring(html) #读出来源码,并且补全,如输出的《body》标签
print(result)

输出:

<html>
    <body>
        <div> 
           <ul>  
          <li class="item-0"><a href="link1.html">first item</a></li>
          <li class="item-1"><a href="link2.html">second item</a></li>
          <li class="item-inactive"><a href="link3.html">third item</a></li>         
          <li class="item-1"><a href="link4.html">fourth item</a></li>         
          <li class="item-0"><a href="link5.html">fifth item</a></li>
          </ul> 
          </div> 
        </body>
  </html>
#读取文件里的内容
from lxml import etree
html = etree.parse('hello.html')
result = etree.tostring(html, pretty_print=True)
print(result)


获取li标签里的东西

html = etree.parse('hello.html')

print type(html)

result = html.xpath('//li')

print result

print len(result)

print type(result)

print type(result[0])


参考文章:Http://cuiqinGCai.com/2621.html

说明:此篇博客仅仅是为了自己学习lxml模块,故没好好写,下面是我微信二维码


2852890398f48fee0c11bb77eaaf87da.jpg

--结束END--

本文标题: python的lxml模块

本文链接: https://lsjlt.com/news/183943.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • python的lxml模块
    环境:python2.7安装lxml模块pip install lxml例子:from lxml import etree text = ''' <div>     <ul>          <li clas...
    99+
    2023-01-31
    模块 python lxml
  • Python数据提取-lxml模块
    知识点: 了解lxml模块和xpath语法的关系;了解lxml模块的使用场景;了解lxml模块的安装;了解 谷歌浏览器xpath helper插件的安装和使用;掌握xpath语法-基...
    99+
    2024-04-02
  • Python中的lxml模块指的是什么
    Python中的lxml模块指的是什么,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。1、了解lxml模块和xpath语法对html或xml形式的文本提取特定的内容,就需要我们掌...
    99+
    2023-06-22
  • Python使用lxml模块和Requests模块抓取HTML页面的教程
    Web抓取 Web站点使用HTML描述,这意味着每个web页面是一个结构化的文档。有时从中 获取数据同时保持它的结构是有用的。web站点不总是以容易处理的格式, 如 csv 或者 json 提供它们的数据。...
    99+
    2022-06-04
    模块 页面 教程
  • Python爬虫使用lxml模块爬取豆瓣
    上次使用了BeautifulSoup库爬取电影排行榜,爬取相对来说有点麻烦,爬取的速度也较慢。本次使用的lxml库,我个人是最喜欢的,爬取的语法很简单,爬取速度也快。 本次爬取的豆瓣书籍排行榜的首页地址是: https://www.dou...
    99+
    2023-01-31
    爬虫 豆瓣 模块
  • Python模块:time模块
    time模块:python中处理时间的基础模块,有时间戳,元组,自定义,三种时间表现形式。python中时间戳的值是以1970年1月1日0点开始计算的,单位是秒。时间戳:就是两个时间差的数值。时区:传说中在开发服务器/客户端程序时,时区不一...
    99+
    2023-01-31
    模块 Python time
  • python模块:smtplib模块
    1.使用本地的sendmail协议进行邮件发送格式(1):smtpObj=smtplib.SMTP([host [,port [,local_hostname]]])host:SMTP服务器主机的IP地址或者是域名port:服务的端口号(默...
    99+
    2023-01-31
    模块 python smtplib
  • Python中的sys模块、random模块和math模块
    一、sys运行时环境模块 sys模块负责程序与python解释器的交互,提供了一系列的函数和变量,用于操控python的运行时环境。 用法: sys.argv:命令行参数List,第...
    99+
    2024-04-02
  • python Lxml库的安装
    python Lxml库的安装遇到的问题    用python安装lxml库的时候一直显示错误,在安装别的库的时候,直接下载包、解压、python setup.py install 安装就成功了,而这个库安装的时候却一直显示错误,在网上搜了...
    99+
    2023-01-31
    python Lxml
  • python中的sys模块和os模块
    目录1.sys模块2.os模块(和操作系统相关数据)1.sys模块 sys模块的常见函数列表: sys.argv: 实现从程序外部向程序传递参数。sys.exit([arg]): 程...
    99+
    2024-04-02
  • python模块学习(queue模块的Q
    学习版本3.5.2 PriorityQueue类和LifoQueue类继承Queue类然后重写了_init、_qsize、_put、_get这四个类的私有方法 Queue:先进先出队列的同步实现,通过双向列表实现的 # Initi...
    99+
    2023-01-31
    模块 python queue
  • Python中的time模块和calendar模块
    目录1、时间戳2、时间元组3、获取当前时间4、格式化时间5、格式化日期6、获取CPU时间7、日历模块在Python中对时间和日期的处理方式有很多,其中转换日期是最常见的一个功能。Py...
    99+
    2024-04-02
  • python中的deque模块(collections的deque模块)
    目录 1. deque是python的collections中的一个类 2.deque的简单使用以及它的方法 2.1 创建deque的方法  2.2 创建deque时,并指定大小maxlen,即能装几个元素, 以及d...
    99+
    2023-09-25
    python 开发语言 collections deque 队列
  • python模块学习----nmap模块
    安装nmap模块:pip install python_nmanmap模块说明:python-nmap是一个帮助使用nmap端口扫描器的python库。它允许轻松操纵nmap扫描结果,并且将是一个完美的选择,为需要自动完成扫描任务的系统管理...
    99+
    2023-01-31
    模块 python nmap
  • 使用Python模块:struct模块
    Python没有提供直接的将用户定义的数据类型和文件IO关联起来的功能,但是它提供了struct库(是一个内置库)——我们可以以二进制模式来写这些数据(有趣的是,它真的是设计来讲文本数据写为缓存的) 1)bytes、str...
    99+
    2023-01-31
    模块 Python struct
  • python加密模块-hashlib模块
    hashlib模块 用于加密相关的操作,3.X里代替了md5模块和sha模块,主要提供SHA1,SHA224,SHA256,SHA384,SHA512,MD5算法 (sha比md5 更复杂、md5 不能反解) 具体应用:用于网站防篡改。具...
    99+
    2023-01-31
    模块 python hashlib
  • Python的Logging模块
    1.日志的相关概念🍃 日志是指记录系统或应用程序运行状态、事件和错误信息的文件或数据。在计算机系统中,日志通常用于故障排除、性能分析、安全审计等方面。日志可以记录各种信息,如系统启动...
    99+
    2023-09-17
    服务器 linux python
  • Python的CSV模块
    Python 的 CSV模块的使用方法,包括,reader, writer, DictReader, DictWriter.register_dialect一直非常喜欢python的csv模块,简单易用,经常在项目中使用,现在举几个例子说明...
    99+
    2023-01-31
    模块 Python CSV
  • python的subprocess模块
    1 os与commands模块​2 subprocess模块​3 subprocess.Popen类 我们几乎可以在任何操作系统上通过命令行指令与操作系统进行交互,比如Linux平台下的shell。​​那么我们如何通过Python来完成这些...
    99+
    2023-01-31
    模块 python subprocess
  • python的pyserial模块
    pyserial是python提供用于进行串口通信的库 源文档:https://pythonhosted.org/pyserial/ 1、安装pyserial pip install pyserial 2、查看电脑现连串口设备 import...
    99+
    2023-01-31
    模块 python pyserial
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作