返回顶部
首页 > 资讯 > 精选 >利用Java编写HTML文件分析程序(转)
  • 147
分享到

利用Java编写HTML文件分析程序(转)

2023-06-03 04:06:45 147人浏览 泡泡鱼
摘要

利用Java编写html文件分析程序(转)[@more@]摘要:本文从实践的角度重点阐述Java语言中输入流类StreamTokenizer在编写HTML文件分析程序中的应用,并介绍了以字节为单位下载WEB页面的例程。 一、概述 Web服务

利用Java编写html文件分析程序(转)[@more@]摘要:本文从实践的角度重点阐述Java语言中输入流类StreamTokenizer在编写HTML文件分析程序中的应用,并介绍了以字节为单位下载WEB页面的例程。

一、概述

Web服务器的核心是对HTML文件中的各标记(Tag)作出正确的分析,一种编程语言的解释程序也是对源文件中的保留字进行分析再做解释的。实际应用中,我们也常常会遇到需要对某一特定类型文件进行关键字分析的情况,比如,需要将某个HTML文件下载并同时下载与之相关的.gif、.class等文件,此时就要求对HTML文件中的标记进行分离,找出所需的文件名及目录。在Java出现以前,类似工作需要对文件中的每个字符进行分析,从中找出所需部分,不仅编程量大,且易出错。笔者在近期的项目中利用Java的输入流类StreamTokenizer进行HTML文件的分析,效果较好。在此,我们要实现从已知的Web页面下载HTML文件,对其进行分析后,下载该页面中包含的HTML文件(如果在Frame中)、图像文件和Class(Java Applet)文件。

二、StreamTokenizer类

StreamTokenizer即令牌化输入流的作用是将一个输入流中变成令牌流。令牌流中的令牌实体有三类:单词(即多字符令牌)、单字符令牌和空白(包括Java和C/C++中的说明语句)。

StreamTokenizer类的构造器为: StreamTokenizer(InputStream in)

该类有一些公有实例变量:ttype、sval和nval ,分别表示令牌类型、当前字符串值和当前数字值。当我们需要取得令牌(即HTML中的标记)之间的字符时,应访问变量sval。而读向下一个令牌的方法是调用nextToken()。方法nextToken()的返回值是int型,共有四种可能的返回:

StreamTokenizer.TT_NUMBER: 表示读到的令牌是数字,数字的值是double型,可以从实例变量nval中读取。

StreamTokenizer.TT_Word: 表示读到的令牌是非数字的单词(其他字符也在其中),单词可以从实例变量sval中读取。

StreamTokenizer.TT_EOL: 表示读到的令牌是行结束符。

如果已读到流的尽头,则nextToken()返回TT_EOF。

开始调用nextToken()之前,要设置输入流的语法表,以便使分析器辨识不同的字符。WhitespaceChars(int low, int hi)方法定义没有意义的字符的范围。WordChars(int low, int hi)方法定义构造单词的字符范围。

三、程序实现

1、HtmlTokenizer类的实现

对某个令牌流进行分析之前,首先应对该令牌流的语法表进行设置,在本例中,即是让程序分出哪个单词是HTML的标记。下面给出针对我们需要的HTML标记的令牌流类定义,它是StreamTokenizer的子类:


import java.io.*;
import java.lang.String;
class HtmlTokenizer extends
StreamTokenizer {
//定义各标记,这里的标记仅是本例中必须的,
可根据需要自行扩充
static int HTML_TEXT=-1;
static int HTML_UNKNOWN=-2;
static int HTML_EOF=-3;
static int HTML_IMAGE=-4;
static int HTML_FRAME=-5;
static int HTML_BACKGROUND=-6;
static int HTML_APPLET=-7;

boolean outsideTag=true; //判断是否在标记之中

//构造器,定义该令牌流的语法表。
public HtmlTokenizer(BufferedReader r) {
super(r);
this.resetSyntax(); //重置语法表
this.wordChars(0,255); //令牌范围为全部字符
this.ordinaryChar('< '); //HTML标记两边的分割符
this.ordinaryChar('>');
} //end of constructor

public int nextHtml(){
int token; //令牌
try{
switch(token=this.nextToken()){
case StreamTokenizer.TT_EOF:
//如果已读到流的尽头,则返回TT_EOF
return HTML_EOF;
case '< ': //进入标记字段
outsideTag=false;
return nextHtml();
case '>': //出标记字段
outsideTag=true;
return nextHtml();
case StreamTokenizer.TT_WORD:
//若当前令牌为单词,判断是哪个标记
if (allWhite(sval))
return nextHtml(); //过滤其中空格
else if(sval.toUpperCase().indexOf("FRAME")
!=-1 && !outsideTag) //标记FRAME
return HTML_FRAME;
else if(sval.toUpperCase().indexOf("IMG")
!=-1 && !outsideTag) //标记IMG
return HTML_IMAGE;
else if(sval.toUpperCase().indexOf("BACKGROUND")
!=-1 && !outsideTag) //标记BACKGROUND
return HTML_BACKGROUND;
else if(sval.toUpperCase().indexOf("APPLET")
!=-1 && !outsideTag) //标记APPLET
return HTML_APPLET;
default:
System.out.println ("Unknown tag: "+token);
return HTML_UNKNOWN;
} //end of case
}catch(IOException e){
System.out.println("Error:"+e.getMessage());}
return HTML_UNKNOWN;
} //end of nextHtml

protected boolean allWhite(String s){//过滤所有空格
//实现略
}// end of allWhite

} //end of class

以上方法由笔者在近期项目中测试通过,操作系统windows NT4,编程工具使用Inprise Jbuilder3。

--结束END--

本文标题: 利用Java编写HTML文件分析程序(转)

本文链接: https://lsjlt.com/news/232785.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 利用Java编写HTML文件分析程序(转)
    利用Java编写HTML文件分析程序(转)[@more@]摘要:本文从实践的角度重点阐述Java语言中输入流类StreamTokenizer在编写HTML文件分析程序中的应用,并介绍了以字节为单位下载Web页面的例程。 一、概述 Web服务...
    99+
    2023-06-03
  • 图文详解如何将java编写的程序转为exe文件
    目录前言1.导出相应程序jar包2.使用exe4j生成exe文件总结前言 java一次编译到处运行,但是如果遇到没有jre的平台就手足无措了,当前各大计算机平台及计算机os更普遍接受...
    99+
    2023-01-18
    java文件转换成exe java程序怎么变成exe java怎么生成exe文件
  • Java编写Mapreduce程序过程浅析
    目录Maven项目下所需依赖数据类型一、Mapper类二、Reducer类三、执行类程序执行结果一个Maprduce程序主要包括三部分:Mapper类、Reducer类、执行类。 M...
    99+
    2023-05-20
    Java编写MapReduce程序 Java编写MapReduce Java MapReduce
  • Java中csv文件读写分析
    文章目录 一、txt、csv、tsv文件二、csv文件规范三、csv使用场景四、Java中的csv类库1. javacsv2. opencsv写入器读取器解析器注解映射策略MappingStr...
    99+
    2023-09-09
    java opencv
  • java如何运行自己编写的程序文件
    要运行自己编写的Java程序文件,可以按照以下步骤进行:1. 编写Java程序文件:使用任何文本编辑器,创建一个具有".java"扩...
    99+
    2023-09-28
    java
  • java回文数程序怎么编写
    以下是一个用Java编写的回文数程序示例: import java.util.Scanner; public class Pali...
    99+
    2023-10-23
    java
  • 利用Java编写一个出敬业福的小程序
    目录1、前言2、定义工具类3、生成"福"主类4、运行测试5、素材图片1、前言 “福”的由来: 姜太公封一大批神仙时,却把自己的妻子叶氏封为...
    99+
    2024-04-02
  • python利用文件读写编写一个博客
    本文实例为大家分享了python利用文件读写编写一个博客的具体代码,供大家参考,具体内容如下 代码展示 import random import json import time import os de...
    99+
    2022-06-02
    python 博客
  • 用java编写qq聊天程序
    下面是一个简单的使用Java编写的QQ聊天程序的代码示例:```javaimport java.io.*;import java.n...
    99+
    2023-09-13
    java
  • 编程算法攻略:如何利用Java和Windows编写高效的程序?
    Java和Windows是当今最受欢迎的编程语言和操作系统之一,它们为程序员提供了丰富的工具和平台,使得编写高效的程序成为可能。如果您想要编写高效的程序,那么本文将为您提供一些编程算法攻略,帮助您利用Java和Windows编写高效的程序...
    99+
    2023-08-05
    windows 编程算法 关键字
  • 用JavaMail API编写可带附件的邮件发送程序(转)
    利用Sun公司提供的JavaMail API可以很方便的开发邮件发送程序。也许你已经可以利用它来发送一段简单的文本了,但想不想使你的程序像OUTLOOK一样也能发送附件呢?本文在简单介绍了JavaMail之后,详细讲解了一段完整的送信的Ja...
    99+
    2023-06-03
  • BAT与HTML混合编程写法的示例分析
    这篇文章给大家介绍BAT与HTML混合编程写法的示例分析,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。核心代码:<!--::::::::::::::::::::::::::::::::BAT:::::::::::...
    99+
    2023-06-08
  • 利用Java编写一个归并排序算法
    利用Java编写一个归并排序算法?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。一、归并排序归并排序是建立在归并操作上的一种有效的排序算法,该算法是采用分治法(D...
    99+
    2023-05-31
    java 归并排序 ava
  • 如何利用 VSCode 编写漂亮的程序
    标题:如何利用 VSCode 编写漂亮的程序,需要具体代码示例 随着软件开发领域的不断发展,编写漂亮的程序显得越来越重要。VSCode(Visual Studio Code)作为一款轻...
    99+
    2024-04-02
  • 怎么使用PHP编写 E-mail的程序文件
    这篇文章主要介绍了怎么使用PHP编写 E-mail的程序文件,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。PHP 发送电子邮件,PHP 允许您从脚本直接发送电子邮件。 PHP...
    99+
    2023-06-15
  • 使用Golang编写程序来修改文件内容
    如何利用Golang修改文件内容,需要具体代码示例 在日常开发中,有时候我们需要通过编程的方式修改文件内容。通过使用Golang,我们可以轻松地实现对文件内容的修改操作。本文将介绍如何...
    99+
    2024-02-25
    文件 golang 修改 标准库
  • java小应用程序如何编写
    编写Java小应用程序一般需要遵循以下几个步骤:1. 确定应用程序的目标和功能:首先确定应用程序的目标和功能,明确应用程序要解决的问...
    99+
    2023-08-24
    java
  • 如何利用Python将html转为pdf、word文件
    目录前言转 pdf安装 pdfkit 库安装 wkhtmltopdf 文件url 生成 pdf本地 html 文件生成 pdf转 word安装 pypandoc 库安装 pandoc...
    99+
    2022-12-19
    python将html转pdf python将html转word python pdf处理
  • 小程序中如何编写可复用分页组件
    小编给大家分享一下小程序中如何编写可复用分页组件,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!项目中遇到 tab切换列表,每个t...
    99+
    2024-04-02
  • HDFS文件写流程的示例分析
    小编给大家分享一下HDFS文件写流程的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!图理解:详解HDFS写的过程:1.Client客户端发出请求open到...
    99+
    2023-06-03
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作