返回顶部
首页 > 资讯 > 后端开发 > Python >python 提取html文本的方法
  • 921
分享到

python 提取html文本的方法

python提取文本python提取html 2022-06-02 22:06:13 921人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

假设我们需要从各种网页中提取全文,并且要剥离所有html标记。通常,默认解决方案是使用BeautifulSoup软件包中的get_text方法,该方法内部使用lxml。这是一个经过充分测试的解决方案,但是在处理成千上

假设我们需要从各种网页中提取全文,并且要剥离所有html标记。通常,默认解决方案是使用BeautifulSoup软件包中的get_text方法,该方法内部使用lxml。这是一个经过充分测试的解决方案,但是在处理成千上万个HTML文档时可能会非常慢。
通过用selectolax替换BeautifulSoup,您几乎可以免费获得5-30倍的加速!
这是一个简单的基准测试,可分析commoncrawl(`处理NLP问题时,有时您需要获得大量的文本集。互联网是文本的最大来源,但是不幸的是,从任意HTML页面提取文本是一项艰巨而痛苦的任务。
假设我们需要从各种网页中提取全文,并且要剥离所有HTML标记。通常,默认解决方案是使用BeautifulSoup软件包中的get_text方法,该方法内部使用lxml。这是一个经过充分测试的解决方案,但是在处理成千上万个HTML文档时可能会非常慢。
通过用selectolax替换BeautifulSoup,您几乎可以免费获得5-30倍的加速!这是一个简单的基准测试,可分析commoncrawl(https://commoncrawl.org/)的10,000个HTML页面:

coding: utf-8

from time import time

import warc
from bs4 import BeautifulSoup
from selectolax.parser import HTMLParser


def get_text_bs(html):
    tree = BeautifulSoup(html, 'lxml')

    body = tree.body
    if body is None:
        return None

    for tag in body.select('script'):
        tag.decompose()
    for tag in body.select('style'):
        tag.decompose()

    text = body.get_text(separator='\n')
    return text


def get_text_selectolax(html):
    tree = HTMLParser(html)

    if tree.body is None:
        return None

    for tag in tree.CSS('script'):
        tag.decompose()
    for tag in tree.css('style'):
        tag.decompose()

    text = tree.body.text(separator='\n')
    return text


def read_doc(record, parser=get_text_selectolax):
    url = record.url
    text = None

    if url:
        payload = record.payload.read()
        header, html = payload.split(b'\r\n\r\n', maxsplit=1)
        html = html.strip()

        if len(html) > 0:
            text = parser(html)

    return url, text


def process_warc(file_name, parser, limit=10000):
    warc_file = warc.open(file_name, 'rb')
    t0 = time()
    n_documents = 0
    for i, record in enumerate(warc_file):
        url, doc = read_doc(record, parser)

        if not doc or not url:
            continue

        n_documents += 1

        if i > limit:
            break

    warc_file.close()
    print('Parser: %s' % parser.__name__)
    print('Parsing took %s seconds and produced %s documents\n' % (time() - t0, n_documents))

>>> ! wget Https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MaiN-2018-05/segments/1516084886237.6/warc/CC-MAIN-20180116070444-20180116090444-00000.warc.gz
>>> file_name = "CC-MAIN-20180116070444-20180116090444-00000.warc.gz"
>>> process_warc(file_name, get_text_selectolax, 10000)
Parser: get_text_selectolax
Parsing took 16.170367002487183 seconds and produced 3317 documents
>>> process_warc(file_name, get_text_bs, 10000)
Parser: get_text_bs
Parsing took 432.6902508735657 seconds and produced 3283 documents

显然,这并不是对某些事物进行基准测试的最佳方法,但是它提供了一个想法,即selectolax有时比lxml快30倍。
selectolax最适合将HTML剥离为纯文本。如果我有10,000多个HTML片段,需要将它们作为纯文本索引elasticsearch中。(Elasticsearch有一个html_strip文本过滤器,但这不是我想要/不需要在此上下文中使用的过滤器)。事实证明,以这种规模将HTML剥离为纯文本实际上是非常低效的。那么,最有效的方法是什么?

  • PyQuery

from pyquery import PyQuery as pq

text = pq(html).text()
  • selectolax

from selectolax.parser import HTMLParser

text = HTMLParser(html).text()

import re

regex = re.compile(r'<.*?>')
text = clean_regex.sub('', html)

结果

我编写了一个脚本来计算时间,该脚本遍历包含HTML片段的10,000个文件。注意!这些片段不是完整的<html>文档(带有<head>和<body>等),只是HTML的一小部分。平均大小为10,314字节(中位数为5138字节)。结果如下:


pyquery
  SUM:    18.61 seconds
  MEAN:   1.8633 ms
  MEDIAN: 1.0554 ms
selectolax
  SUM:    3.08 seconds
  MEAN:   0.3149 ms
  MEDIAN: 0.1621 ms
regex
  SUM:    1.64 seconds
  MEAN:   0.1613 ms
  MEDIAN: 0.0881 ms

我已经运行了很多次,结果非常稳定。重点是:selectolax比PyQuery快7倍。

正则表达式好用?真的吗?

对于最基本的HTML Blob,它可能工作得很好。实际上,如果HTML是<p> Foo&amp; Bar </ p>,我希望纯文本转换应该是Foo&Bar,而不是Foo&amp; bar。
更重要的一点是,PyQuery和selectolax支持非常特定但对我的用例很重要的内容。在继续之前,我需要删除某些标签(及其内容)。例如:


<h4 class="warning">This should get stripped.</h4>
<p>Please keep.</p>
<div style="display: none">This should also get stripped.</div>

正则表达式永远无法做到这一点。

2.0 版本

因此,我的要求可能会发生变化,但基本上,我想删除某些标签。例如:<div class =“ warning”>  、 <div class =“ hidden”> 和 <div style =“ display:none”>。因此,让我们实现一下:

  • PyQuery

from pyquery import PyQuery as pq

_display_none_regex = re.compile(r'display:\s*none')

doc = pq(html)
doc.remove('div.warning, div.hidden')
for div in doc('div[style]').items():
    style_value = div.attr('style')
    if _display_none_regex.search(style_value):
        div.remove()
text = doc.text()
  • selectolax

from selectolax.parser import HTMLParser

_display_none_regex = re.compile(r'display:\s*none')

tree = HTMLParser(html)
for tag in tree.css('div.warning, div.hidden'):
    tag.decompose()
for tag in tree.css('div[style]'):
    style_value = tag.attributes['style']
    if style_value and _display_none_regex.search(style_value):
        tag.decompose()
text = tree.body.text()

这实际上有效。当我现在为10,000个片段运行相同的基准时,新结果如下:


pyquery
  SUM:    21.70 seconds
  MEAN:   2.1701 ms
  MEDIAN: 1.3989 ms
selectolax
  SUM:    3.59 seconds
  MEAN:   0.3589 ms
  MEDIAN: 0.2184 ms
regex
  Skip

同样,selectolax击败PyQuery约6倍。

结论

正则表达式速度快,但功能弱。selectolax的效率令人印象深刻。

以上就是python 提取html文本的方法的详细内容,更多关于Python 提取html文本的资料请关注编程网其它相关文章!

--结束END--

本文标题: python 提取html文本的方法

本文链接: https://lsjlt.com/news/10706.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • python 提取html文本的方法
    假设我们需要从各种网页中提取全文,并且要剥离所有HTML标记。通常,默认解决方案是使用BeautifulSoup软件包中的get_text方法,该方法内部使用lxml。这是一个经过充分测试的解决方案,但是在处理成千上...
    99+
    2022-06-02
    python 提取文本 python 提取html
  • 使用python怎么提取html文本
    这期内容当中小编将会给大家带来有关使用python怎么提取html文本,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。# coding: utf-8from time ...
    99+
    2023-06-15
  • Python如何提取html中文本到txt
    目录Python提取html中文本到txt正则去标签方式nltkhtmlParserPython提取txt正则内容总结Python提取html中文本到txt 正则去标签方式 # -*...
    99+
    2023-01-03
    Python提取html文本 提取html文本到txt Python提取文本到txt
  • python文本数据提取的方法是什么
    Python文本数据提取的方法有多种,以下是一些常用的方法:1. 使用字符串方法:Python提供了很多字符串方法来提取文本数据,如...
    99+
    2023-09-27
    python
  • Python--从PDF中提取文本的方法总结
    目录 前言 一、pdfplumber 二、pdfminer 三、fitz / pymupdf 四、性能对比 前言 这段时间做了好几个关于年报的需求,其中无一例外需要从年报PDF中提取文本再进行下一步的操作。为了提高效率,对...
    99+
    2023-09-03
    python pdf 自动化
  • Python实现文本特征提取的方法详解
    目录1.字典文本特征提取 DictVectorizer()1.1 one-hot编码1.2 字典数据转sparse矩阵2.英文文本特征提取3.中文文本特征提取4. TF-IDF 文本...
    99+
    2024-04-02
  • 一文掌握Python实现文本特征提取的方法
    本篇文章给大家带来了关于Python的相关知识,详细介绍了Python实现提取四种不同文本特征的方法,有字典文本特征提取、英文文本特征提取、中文文本特征提取和TF-IDF 文本特征提取,感兴趣的可以了解一下。【相关推荐:Python3视频教...
    99+
    2024-04-02
  • 利用Python提取PDF文本的简单方法实例
    目录第一步,安装工具库第二步,编写代码第三步,执行最后的话你好,一般情况下,Ctrl+C 是最简单的方法,当无法 Ctrl+C 时,我们借助于 Python,以下是具体步骤: 第一步...
    99+
    2024-04-02
  • Python读取指定的TXT文本文件并从中提取指定数据的方法
      本文介绍基于Python语言,遍历文件夹并从中找到文件名称符合我们需求的多个.txt格式文本文件,并从上述每一个文本文件中,找到我们需要的指定数据,最后得到所有文本文件中我们需要的数据的合集的方法...
    99+
    2023-09-15
    Python TXT 文本文件 数据提取 文件遍历 读取txt文件 文本文件遍历
  • Python读取.txt,.md等文本文件的方法
    这篇文章将为大家详细讲解有关Python读取.txt,.md等文本文件的方法,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。代码如下# example.md1 2 34&nbs...
    99+
    2023-06-15
  • python提取图片文字的方法是什么
    Python提取图片文字的方法主要有两种:OCR技术和深度学习技术。 OCR(Optical Character Recogni...
    99+
    2023-10-25
    python
  • C++提取文件名与提取XML文件的方法详解
    目录1、提取文件名2、提取XML文件总结1、提取文件名 查找容器内子序列的最后一次出现的位置 std::find_end(str.begin(), str.end(), patter...
    99+
    2024-04-02
  • python 如何提取PPT中所有文字的方法
    这篇文章主要介绍“python 如何提取PPT中所有文字的方法”,在日常操作中,相信很多人在python 如何提取PPT中所有文字的方法问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”python 如何提取PP...
    99+
    2023-06-07
  • python读取文本内容的方法有哪些
    在Python中,读取文本内容的方法有以下几种: 使用open()函数打开文件并读取内容: with open('fi...
    99+
    2024-04-02
  • 怎么用for方法提取文本整行内容
    本篇内容介绍了“怎么用for方法提取文本整行内容”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!通常我们需要提取文本整行内容时都是这么写的。代...
    99+
    2023-06-09
  • html怎么读取本地文本文件
    html自身无法直接读取本地文件,但可以通过以下方法解决:使用filereader api:使用filereader api的readastext()方法读取文本文件内容。使用xmlht...
    99+
    2024-04-05
  • python解析本地html方法
    Python爬虫每次运行时都会访问一次主机,为了避免增加主机访问负荷,一般都是在本地解析。Python解析本地html文件方法如下: 将html文件本地保存 在Python中打开html文件,可使用BeautifulSoup方法直接打开 s...
    99+
    2023-09-03
    python html 开发语言
  • 怎么在python中提取文本信息
    怎么在python中提取文本信息?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。Python主要用来做什么Python主要应用于:1、Web开发;2、数据科学研究...
    99+
    2023-06-14
  • Python如何提取Excel文本框内容
    这期内容当中小编将会给大家带来有关Python如何提取Excel文本框内容,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。说实话,这个需求头一次碰到,我相信对于大多数朋友来说,也是头一次碰到。“提取exce...
    99+
    2023-06-15
  • python如何提取文本指定内容
    要提取文本中的指定内容,你可以使用正则表达式或字符串方法来实现。下面是使用正则表达式提取指定内容的示例代码:pythonimport...
    99+
    2023-10-18
    python
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作