首页 > 资讯 > 精选 >数据提取时用xpath还是正则表达式呢

783

分享到

数据提取时用xpath还是正则表达式呢

2023-06-02 23:06:24 783人浏览八月长安

摘要

这篇文章给大家分享的是有关数据提取时用xpath还是正则表达式呢的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。xpath和正则表达式是数据提取时最常用的两种方法，究竟用哪个好呢？测试代码如下所示，实验目标是同一h

这篇文章给大家分享的是有关数据提取时用xpath还是正则表达式呢的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。

xpath和正则表达式是数据提取时最常用的两种方法，究竟用哪个好呢？

测试代码如下所示，实验目标是同一html文档，分别使用WEBscrpaing库中的xpath，lxml库中的xpath以及正则表达式提取100次，统计各方法的用时：

view plaincopy to clipboardprint?

# coding: utf-8
# xpath_speed_test.py
import re
import time
from lxml import etree
from webscraping import common, download, xpath
TEST_TIMES = 100
def test():
url = 'Http://hotels.ctrip.com/international/washington26363'
html = download.Download().get(url)
html = common.to_unicode(html)
# 测试webscraping库的xpath提取速度
start_time = time.time()
for i in range(TEST_TIMES):
for hid, hprice in zip(xpath.search(html, '//div[@class="hlist_item"]/@id'), xpath.search(html, '//div[@class="hlist_item_price"]/span')):
#print hid, hprice
pass
end_time = time.time()
webscraping_xpath_time_used = end_time - start_time
print '"webscraping.xpath" time used: {} seconds.'.fORMat(webscraping_xpath_time_used)
# 测试lxml库xpath提取速度
start_time = time.time()
for i in range(TEST_TIMES):
root = etree.HTML(html)
for hlist_div in root.xpath('//div[@class="hlist_item"]'):
hid = hlist_div.get('id')
hprice = hlist_div.xpath('.//div[@class="hlist_item_price"]/span')[].text
#print hid, hprice
pass
end_time = time.time()
lxml_time_used = end_time - start_time
print '"lxml" time used: {} seconds.'.format(lxml_time_used)
# 测试正则表达式的速度
start_time = time.time()
for i in range(TEST_TIMES):
for hid, hprice in zip(re.compile(r'class="hlist_item" id="(\d+)"').findall(html), re.compile(r'<div class="hlist_item_price"><dfn>¥</dfn><span>([\d\.]+)</span>').findall(html)):
#print hid, hprice
pass
end_time = time.time()
re_time_used = end_time - start_time
print '"re" time used: {} seconds.'.format(re_time_used)
if __name__ == '__main__':
test()

运行结果如下：

数据提取时用xpath还是正则表达式呢

view plaincopy to clipboardprint?

"webscraping.xpath" time used: 100.677000046 seconds.
"lxml" time used: 2.09100008011 seconds.
"re" time used: 0.138999938965 seconds.

结果很震撼：

正则表达式只用了0.14秒；
lxml的xpath用了2.1秒；
webscraping的xpath用了101秒！

由于xpath简单而且灵活，我们在爬虫开发的时候一般都会首选，但是通过这个实验发现它的效率远低于正则表达式，尤其是webscrpaing库中的xpath速度更是慢得恐怖。

因此，在我们的爬虫开发过程中，应该首选正则表达式，如果用正则表达式实在难于实现，再考虑xpath，另外，在使用xpath的时候一定要选用高效的库，比如lxml。特别是在数据量特别大的时候，效率显得尤为重要。

感谢各位的阅读！关于“数据提取时用xpath还是正则表达式呢”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，让大家可以学到更多知识，如果觉得文章不错，可以把它分享出去让更多的人看到吧！

--结束END--

本文标题: 数据提取时用xpath还是正则表达式呢

本文链接: https://lsjlt.com/news/231638.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

数据提取时用xpath还是正则表达式呢

数据提取时用xpath还是正则表达式呢

python中如何使用正则表达式提取数据

如何在 Golang 中使用正则表达式提取数据？

jmeter正则表达式提取器的用法与正则详解

教你用正则表达式提取数字和小数点

python利用正则表达式提取字符串

jmeter正则表达式提取器怎么使用

mysql 正则表达式提取指定字符

Python利用正则表达式从字符串提取数字

在python正则表达式中是怎样正确使用正则表达式

python如何用正则表达式提取字符串

Jmeter中正则表达式提取器使用详解

python怎么用正则表达式提取字符串

python用正则表达式提取/匹配中文汉字

只能输入正整数的正则表达式及常用的正则表达式

如何用正则表达式从 Golang 字符串中提取数字？

MySQL数据库——MySQL REGEXP：正则表达式

Python中怎么使用正则表达式及正则表达式匹配规则是什么

#php 正则表达式，读取括号里的数据，全文读取

java如何用正则表达式匹配与提取字符串

使用golang框架有哪些常见的问题？

golang框架与其他流行框架的比较？

如何使用 C++ STL 扩展 C++ 语言的功能？

PHP 框架安全指南：如何实现安全编码实践？

mysql拆分函数使用要注意哪些事项

C++ 思维导图：全面整理编程核心知识

基于社区支持最强大的PHP框架

如何在 C++ 中有效使用 STL 函数对象？

PHP 框架中的调试和故障排除技术

经验丰富的开发者的PHP框架评估指南