java如何去掉html标签

2023-06-14 09:06:18 373人浏览八月长安

摘要

这篇文章给大家分享的是有关java如何去掉html标签的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。java去掉html标签的方法：1、通过纯正则方法去掉html标签；2、使用“javax.swing.text.

这篇文章给大家分享的是有关java如何去掉html标签的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。

java去掉html标签的方法：1、通过纯正则方法去掉html标签；2、使用“javax.swing.text.html.HTMLEditorKit”去掉html标签；3、通过使用jsoup框架去掉html标签等等。

一、背景

业务开发中可能需要将html的标签全部去掉，本文将多种方法综合在这里，供大家参考。

二、方法

2.1 纯正则方法

import java.util.regex.Matcher; import java.util.regex.Pattern; public class HTMLSpirit{     public static String delHTMLTag(String htmlStr){         String regEx_script="<script[^>]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式         String regEx_style="<style[^>]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式         String regEx_html="<[^>]+>"; //定义HTML标签的正则表达式                  Pattern p_script=Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);         Matcher m_script=p_script.matcher(htmlStr);         htmlStr=m_script.replaceAll(""); //过滤script标签                  Pattern p_style=Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);         Matcher m_style=p_style.matcher(htmlStr);         htmlStr=m_style.replaceAll(""); //过滤style标签                  Pattern p_html=Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);         Matcher m_html=p_html.matcher(htmlStr);         htmlStr=m_html.replaceAll(""); //过滤html标签         return htmlStr.trim(); //返回文本字符串     } }

2.2 使用 javax.swing.text.html.HTMLEditorKit

import java.io.IOException;import java.io.FileReader;import java.io.Reader;import java.util.List;import java.util.ArrayList;import javax.swing.text.html.parser.ParserDelegator;import javax.swing.text.html.HTMLEditorKit.ParserCallback;import javax.swing.text.html.HTML.Tag;import javax.swing.text.MutableAttributeSet;public class HTMLUtils {  private HTMLUtils() {}  public static List<String> extractText(Reader reader) throws IOException {    final ArrayList<String> list = new ArrayList<String>();    ParserDelegator parserDelegator = new ParserDelegator();    ParserCallback parserCallback = new ParserCallback() {      public void handleText(final char[] data, final int pos) {        list.add(new String(data));      }      public void handleStartTag(Tag tag, MutableAttributeSet attribute, int pos) { }      public void handleEndTag(Tag t, final int pos) {  }      public void handleSimpleTag(Tag t, MutableAttributeSet a, final int pos) { }      public void handleComment(final char[] data, final int pos) { }      public void handleError(final java.lang.String errMsg, final int pos) { }    };    parserDelegator.parse(reader, parserCallback, true);    return list;  }  public final static void main(String[] args) throws Exception{    FileReader reader = new FileReader("java-new.html");    List<String> lines = HTMLUtils.extractText(reader);    for (String line : lines) {      System.out.println(line);    }  }}

【推荐：java视频教程】

2.3 使用Jsoup框架

import java.io.IOException;import java.io.FileReader;import java.io.Reader;import java.io.BufferedReader;import org.jsoup.Jsoup;public class HTMLUtils {  private HTMLUtils() {}  public static String extractText(Reader reader) throws IOException {    StringBuilder sb = new StringBuilder();    BufferedReader br = new BufferedReader(reader);    String line;    while ( (line=br.readLine()) != null) {      sb.append(line);    }    String textOnly = Jsoup.parse(sb.toString()).text();    return textOnly;  }  public final static void main(String[] args) throws Exception{    FileReader reader = new FileReader          ("C:/RealHowTo/topics/java-language.html");    System.out.println(HTMLUtils.extractText(reader));  }

2.4 使用Apache Tika

mport java.io.FileInputStream;import java.io.InputStream;import org.apache.tika.metadata.Metadata;import org.apache.tika.parser.AutoDetectParser;import org.apache.tika.parser.ParseContext;import org.apache.tika.parser.Parser;import org.apache.tika.sax.BodyContentHandler;import org.xml.sax.ContentHandler;public class ParseHTMLWithTika {  public static void main(String args[]) throws Exception {    InputStream is = null;    try {         is = new FileInputStream("C:/Temp/java-x.html");        WriteOutContentHandler contenthandler = new WriteOutContentHandler(100000000);         Metadata metadata = new Metadata();         Parser parser = new AutoDetectParser();         parser.parse(is, contenthandler, metadata, new ParseContext());         System.out.println(contenthandler.toString());    }    catch (Exception e) {      e.printStackTrace();    }    finally {        if (is != null) is.close();    }  }}

注意这里经过本人实验有个小坑，WriteOutContentHandler参数是限制的字符数，这个如果不设置默认是1万，超过会报异常。

具体的jar包请自行到中央仓库里搜索依赖配置

https://search.Maven.org/ 和 Https://mvnrepository.com/

三、提供一个工具类

可以将资源路径的文本类型文件（如JSON/html）读取成字符串

public class ResourceUtil {        public static String resource2String(Class currentClass, String resourcePath) throws IOException {        return IOUtils.toString(new FileReader(new File(currentClass.getResource(resourcePath).getFile())));    }}

感谢各位的阅读！关于“java如何去掉html标签”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，让大家可以学到更多知识，如果觉得文章不错，可以把它分享出去让更多的人看到吧！

--结束END--

本文标题: java如何去掉html标签

本文链接: https://lsjlt.com/news/269397.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341