返回顶部
首页 > 资讯 > 精选 >java如何去掉html标签
  • 373
分享到

java如何去掉html标签

2023-06-14 09:06:18 373人浏览 八月长安
摘要

这篇文章给大家分享的是有关java如何去掉html标签的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。java去掉html标签的方法:1、通过纯正则方法去掉html标签;2、使用“javax.swing.text.

这篇文章给大家分享的是有关java如何去掉html标签的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。

java去掉html标签的方法:1、通过纯正则方法去掉html标签;2、使用“javax.swing.text.html.HTMLEditorKit”去掉html标签;3、通过使用jsoup框架去掉html标签等等。

一、背景

业务开发中可能需要将html的标签全部去掉,本文将多种方法综合在这里,供大家参考。

二、方法

2.1 纯正则方法

import java.util.regex.Matcher; import java.util.regex.Pattern; public class HTMLSpirit{     public static String delHTMLTag(String htmlStr){         String regEx_script="<script[^>]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式         String regEx_style="<style[^>]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式         String regEx_html="<[^>]+>"; //定义HTML标签的正则表达式                  Pattern p_script=Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);         Matcher m_script=p_script.matcher(htmlStr);         htmlStr=m_script.replaceAll(""); //过滤script标签                  Pattern p_style=Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);         Matcher m_style=p_style.matcher(htmlStr);         htmlStr=m_style.replaceAll(""); //过滤style标签                  Pattern p_html=Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);         Matcher m_html=p_html.matcher(htmlStr);         htmlStr=m_html.replaceAll(""); //过滤html标签         return htmlStr.trim(); //返回文本字符串     } }

2.2 使用  javax.swing.text.html.HTMLEditorKit

import java.io.IOException;import java.io.FileReader;import java.io.Reader;import java.util.List;import java.util.ArrayList;import javax.swing.text.html.parser.ParserDelegator;import javax.swing.text.html.HTMLEditorKit.ParserCallback;import javax.swing.text.html.HTML.Tag;import javax.swing.text.MutableAttributeSet;public class HTMLUtils {  private HTMLUtils() {}  public static List<String> extractText(Reader reader) throws IOException {    final ArrayList<String> list = new ArrayList<String>();    ParserDelegator parserDelegator = new ParserDelegator();    ParserCallback parserCallback = new ParserCallback() {      public void handleText(final char[] data, final int pos) {        list.add(new String(data));      }      public void handleStartTag(Tag tag, MutableAttributeSet attribute, int pos) { }      public void handleEndTag(Tag t, final int pos) {  }      public void handleSimpleTag(Tag t, MutableAttributeSet a, final int pos) { }      public void handleComment(final char[] data, final int pos) { }      public void handleError(final java.lang.String errMsg, final int pos) { }    };    parserDelegator.parse(reader, parserCallback, true);    return list;  }  public final static void main(String[] args) throws Exception{    FileReader reader = new FileReader("java-new.html");    List<String> lines = HTMLUtils.extractText(reader);    for (String line : lines) {      System.out.println(line);    }  }}

【推荐:java视频教程

2.3 使用Jsoup框架

import java.io.IOException;import java.io.FileReader;import java.io.Reader;import java.io.BufferedReader;import org.jsoup.Jsoup;public class HTMLUtils {  private HTMLUtils() {}  public static String extractText(Reader reader) throws IOException {    StringBuilder sb = new StringBuilder();    BufferedReader br = new BufferedReader(reader);    String line;    while ( (line=br.readLine()) != null) {      sb.append(line);    }    String textOnly = Jsoup.parse(sb.toString()).text();    return textOnly;  }  public final static void main(String[] args) throws Exception{    FileReader reader = new FileReader          ("C:/RealHowTo/topics/java-language.html");    System.out.println(HTMLUtils.extractText(reader));  }

2.4 使用Apache Tika

mport java.io.FileInputStream;import java.io.InputStream;import org.apache.tika.metadata.Metadata;import org.apache.tika.parser.AutoDetectParser;import org.apache.tika.parser.ParseContext;import org.apache.tika.parser.Parser;import org.apache.tika.sax.BodyContentHandler;import org.xml.sax.ContentHandler;public class ParseHTMLWithTika {  public static void main(String args[]) throws Exception {    InputStream is = null;    try {         is = new FileInputStream("C:/Temp/java-x.html");        WriteOutContentHandler contenthandler = new WriteOutContentHandler(100000000);         Metadata metadata = new Metadata();         Parser parser = new AutoDetectParser();         parser.parse(is, contenthandler, metadata, new ParseContext());         System.out.println(contenthandler.toString());    }    catch (Exception e) {      e.printStackTrace();    }    finally {        if (is != null) is.close();    }  }}

注意这里经过本人实验有个小坑,WriteOutContentHandler参数是限制的字符数,这个如果不设置默认是1万,超过会报异常。

具体的jar包请自行到中央仓库里搜索依赖配置

https://search.Maven.org/  和 Https://mvnrepository.com/

三、提供一个工具

可以将资源路径的文本类型文件(如JSON/html)读取成字符串

public class ResourceUtil {        public static String resource2String(Class currentClass, String resourcePath) throws IOException {        return IOUtils.toString(new FileReader(new File(currentClass.getResource(resourcePath).getFile())));    }}

感谢各位的阅读!关于“java如何去掉html标签”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!

--结束END--

本文标题: java如何去掉html标签

本文链接: https://lsjlt.com/news/269397.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • java如何去掉html标签
    这篇文章给大家分享的是有关java如何去掉html标签的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。java去掉html标签的方法:1、通过纯正则方法去掉html标签;2、使用“javax.swing.text....
    99+
    2023-06-14
  • jq如何去掉html标签
    本篇内容介绍了“jq如何去掉html标签”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成! ...
    99+
    2024-04-02
  • js如何去掉html标签
    这篇文章主要介绍了js如何去掉html标签,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。js去掉html标签的方法:首先新建一个html文件;然后使用p标签创建多段文字;接着...
    99+
    2023-06-14
  • php如何去掉html标签
    这篇文章主要介绍“php如何去掉html标签”,在日常操作中,相信很多人在php如何去掉html标签问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”php如何去掉html标签”的疑惑有所帮助!接下来,请跟着小编...
    99+
    2023-06-30
  • java怎么去掉html标签
    java去掉html标签的方法: 1、通过纯正则方法去掉html标签; 2、使用“javax.swing.text.html.HTMLEditorKit”去掉html标签; 3、通过使用Jsoup...
    99+
    2023-10-05
    java html
  • php如何去掉html标签 nbsp
    在PHP中,如果我们要从文本中获取纯文本内容,而不想要HTML标记、实体以及其他标记的干扰,那么我们可以使用函数去掉html标签和实体,最终得到纯净的文本内容。HTML标签和实体的存在,对于我们要处理的文本内容来说,是一种干扰。它们会使得我...
    99+
    2023-05-23
  • html如何去掉a标签下划线
    这篇文章将为大家详细讲解有关html如何去掉a标签下划线,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。html是什么html的全称为超文本标记语言,它是一种标记语言,包含了一系列标签.通过这些标签可以将网...
    99+
    2023-06-14
  • html中li标签去掉点
    今天就跟大家聊聊有关html中li标签去掉点,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。html是什么html的全称为超文本标记语言,它是一种标记语言,包含了一系列标签.通过这些标...
    99+
    2023-06-14
  • python怎么去掉html标签
    如果你经常处理网页内容,你可能需要抓取网页并从中提取文本内容。但是,HTML代码中的标签和样式信息可能会使文本处理变得相当困难。在这种情况下,Python编程语言提供了一些有用的函数和库来去掉HTML标签,让你更轻松地处理和使用文本。Pyt...
    99+
    2023-05-14
  • 如何在html中去掉li标签的点
    如何在html中去掉li标签的点?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。找到文件打开。首先我们找到带有ul和li的标识处。打开我们发现在网页中前有点。接下里我们回到处...
    99+
    2023-06-15
  • html如何去掉a标签的下划线
    这篇文章主要讲解了“html如何去掉a标签的下划线”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“html如何去掉a标签的下划线”吧!CSS样式控制在CSS样式表中,你可以通过以下代码控制链接...
    99+
    2023-07-05
  • php如何去掉xml标签
    本文操作环境:windows10系统、php 7、thinkpad t480电脑。php为我们提供了一个非常方便的函数,strip_tags(),利用该函数我们可以轻松实现删除html、xml以及php的标签。下面我们一起来看看具体的示例:...
    99+
    2016-06-07
    php xml 标签
  • javascript中如何去掉标签
    这篇文章主要为大家展示了“javascript中如何去掉标签”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“javascript中如何去掉标签”这篇文章吧。 ...
    99+
    2024-04-02
  • jquery如何去掉a标签
    这篇文章给大家分享的是有关jquery如何去掉a标签的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。 在jquery中,可以利用remove()方法去掉...
    99+
    2024-04-02
  • php怎么去掉html标签样式
    这篇文章主要介绍了php怎么去掉html标签样式,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。php去掉html标签样式的方法:首先创建一个PHP示例文件;然后定义一段HTM...
    99+
    2023-06-14
  • Sql Server 如何去掉内容里面的Html标签
    分享一个方法,去掉内容里的Html标签,测试数据: DECLARE @str NVARCHAR(max)=' <!DOCTYPE html> <html> <...
    99+
    2024-04-02
  • php如何去掉数组元素中的html标签
    今天小编给大家分享一下php如何去掉数组元素中的html标签的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。实现步骤:1、使用...
    99+
    2023-07-04
  • php如何利用正则匹配去掉html标签
    这篇文章主要介绍“php如何利用正则匹配去掉html标签”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“php如何利用正则匹配去掉html标签”文章能帮助大家解决问题。在本文中,我们将学习如何使用PH...
    99+
    2023-07-05
  • javascript中如何去掉a标签
    这篇文章给大家分享的是有关javascript中如何去掉a标签的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。 javascript去掉a标签的方法:首...
    99+
    2024-04-02
  • thinkphp如何去除html标签
    这篇文章主要讲解了“thinkphp如何去除html标签”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“thinkphp如何去除html标签”吧!在thinkphp中,可以利用“strip_t...
    99+
    2023-06-26
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作