返回顶部
首页 > 资讯 > 精选 >pdf/word/ppt/... 文件读取插件 - 输入步骤
  • 577
分享到

pdf/word/ppt/... 文件读取插件 - 输入步骤

2023-06-03 02:06:44 577人浏览 薄情痞子
摘要

最近需要做一个 Common File Reader 的 kettle 插件,希望这个插件可以读取例如 pdf, Word, PPT, WPS 等常见格式文件的内容,今天已经实现了第一步,读取 PDF 的功能。该插件是一个输入步骤, 它可以

最近需要做一个 Common File Reader 的 kettle 插件,希望这个插件可以读取例如 pdf, Word, PPT, WPS 等常见格式文件的内容,今天已经实现了第一步,读取 PDF 的功能。

该插件是一个输入步骤, 它可以将读取到的 PDF 文件的每一页作为一行输入记录。下面是一个比较典型的应用例子:

[@more@]

pdf/word/ppt/... 文件读取插件 - 输入步骤

这是一个简单的文件检索流程,可以用于小批量的文件检索,检索的输入,输出和规则都可以自定义,在这个例子里,我们可以这样定义:

输入1 是一个目录,通过一个表达式(如 .*.pdf$)来指定只读取一个目录下的所有扩展名是pdf 的文件。

输入2 是一个 excel 文件,只有一列,每行可以指定一个关键字,如下面的格式指定了2个关键字。

keyword

面积

股权转让

javascripte步骤 里可以指定简单的规则,返回的上下文的长度。

最后的 excel 输出保存了检索的结果,如下

pdf/word/ppt/... 文件读取插件 - 输入步骤

可以看到检索结果包括,关键字,上下文,文件名,结果所在文档页数等。

对于大规模的文件检索,我们可以把 kettle 和 lucene 结合起来,先给文档建立索引,再在 javascript 里直接使用lucene 的api来进行检索,这样效率会有大幅提高。

不管检索如何实现,所用了 kettle 的流程后,再结合系统的作业调度,整个检索流程就可以每天自动运行了。如果再结合上文档的来源的自动获取,如从ftp 获取,或使用爬虫从网站抓取,整个一套的文档的获取,建索引,检索,重新发布的流程就可以建立起来了。

下载地址:Http://www.xgndata.com/download.htm

--结束END--

本文标题: pdf/word/ppt/... 文件读取插件 - 输入步骤

本文链接: https://lsjlt.com/news/232020.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • pdf/word/ppt/... 文件读取插件 - 输入步骤
    最近需要做一个 Common File Reader 的 kettle 插件,希望这个插件可以读取例如 PDF, WORD, PPT, WPS 等常见格式文件的内容,今天已经实现了第一步,读取 PDF 的功能。该插件是一个输入步骤, 它可以...
    99+
    2023-06-03
  • Python - 读取pdf、word、excel、ppt、csv、txt文件提取所有文本
    前言 本文对使用python读取pdf、word、excel、ppt、csv、txt等常用文件,并提取所有文本的方法进行分享和使用总结。 可以读取不同文件的库和方法当然不止下面分享的这些,本文的代码主...
    99+
    2023-08-31
    python pdf word excel ppt csv
  • Python文件读取技巧:读取.py文件步骤
    在 python 中读取 .py 文件可以通过两种方法:使用 open() 函数以只读模式打开文件并使用 read() 方法读取内容。使用 pathlib 模块的 path() 对象和 ...
    99+
    2024-04-04
    python 读取.py文件
  • ppt怎么插入文件
    这篇文章将为大家详细讲解有关ppt怎么插入文件,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。ppt插入文件的方法:首先打开电脑,打开PPT,点击【插入】;然后点击【对象】,并点击【由文件创建】;接着点击【...
    99+
    2023-06-14
  • Python批量实现Word、EXCLE、PPT转PDF文件
     一、绪论背景         在日常办公和文档处理中,有时我们需要将多个Word文档、Excel表格或PPT演示文稿转换为PDF文件。将文档转换为PDF格式的好处是它可以保留文档的布局和格式,并且可以在不同平台上进行方便的查看和共享。 ...
    99+
    2023-09-25
    win32com 办公自动化 批量实现
  • vue怎么预览pdf、word、xls、ppt、txt文件
    本篇内容主要讲解“vue怎么预览pdf、word、xls、ppt、txt文件”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“vue怎么预览pdf、word、xls、ppt、txt文件”吧!说下方法...
    99+
    2023-06-30
  • python3读取pdf文件
    一.安装pdfminer3k模块二.读取pdf文件import sys import importlib importlib.reload(sys) from pdfminer.pdfparser import PDFParser, P...
    99+
    2023-01-31
    文件 pdf
  • word如何导入pdf文件
    这篇文章主要讲解了“word如何导入pdf文件”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“word如何导入pdf文件”吧!word导入pdf文件的方法:首先打开word,然后点击“插入”。...
    99+
    2023-07-01
  • Unity3D读取PDF文件内容
    最近在研究Unity3D中读取PDF的内容,预想了三种方案,一是用Java来实现,二是调用C#的iTextSharp库或者PDFBox库来实现,三是下载PDF Renderer插件(土豪可以买这个插件,支持的系统也比较全面),java不是很...
    99+
    2023-01-31
    文件 内容 Unity3D
  • vue预览pdf、word、xls、ppt、txt文件的实现方法
    目录说下方法1. 在页面内加个 iframe2. word、xls、ppt这些文件3. 最终效果首先说下为什么要分享:网上教的都是特么的啥玩意!!!真特么垃圾,各种方法说不到点子上!...
    99+
    2024-04-02
  • 使用shell读取ini文件方法步骤
    目录动机.ini 类文件格式在 shell 脚本中处理 .ini 文件时要执行的操作假定处理系统查看部分列表仅提取特定部分如何限定 shell 变量名Shell scripting动机 我决定编写一个脚本来进行干净的 m...
    99+
    2022-06-09
    shell读取ini文件 shell读取ini
  • PHP 读取PDF文件内容之PdfParser
    composer require smalot/pdfparser  1.一次性读取文件中的所有内容: ...
    99+
    2023-09-02
    php pdf 开发语言
  • java中读写文件步骤
    在Java中,读写文件的步骤如下:1. 创建一个文件对象,用于表示要读写的文件。可以使用`File`类来创建文件对象,例如:`Fil...
    99+
    2023-09-23
    java
  • js前端实现word excel pdf ppt mp4图片文本等文件预览
    目录前言实现方案docx文件实现前端预览代码实现实现效果pdf实现前端预览代码实现实现效果excel实现前端预览代码实现实现效果pptx的前端预览实现效果总结前言 因为业务需要,很多...
    99+
    2024-04-02
  • java怎么读取文件输出文件流
    Java中可以使用文件输入流(FileInputStream)和文件输出流(FileOutputStream)来读取和输出文件流。读...
    99+
    2023-09-20
    java
  • 一文教会你用Python读取PDF文件
    目录实战场景Python PDF 实战编码补充实战场景 Python 工程师在日常的工作中,经常会碰到解析和处理PDF文件的情况,实战中需求主要分为如下情况: 提取 PDF 中的文字...
    99+
    2024-04-02
  • 读取文件时,如何使用用户输入作为文件名
    编程网今天将给大家带来《读取文件时,如何使用用户输入作为文件名》,感兴趣的朋友请继续看下去吧!以下内容将会涉及到等等知识点,如果你是正在学习Golang或者已经是大佬级别了,都非常欢迎也希望大家都能...
    99+
    2024-04-05
  • js使用xlsx读取excel文件的详细步骤
    目录下载安装插件文件基础获取文件对象读取文件数据读取Excel通过xlsx获取workbookWorkBook介绍读取WorkBook导出Excel生成sheet总结下载安装插件 n...
    99+
    2024-04-02
  • java怎么读取文件并输出文件流
    要读取文件并输出文件流,可以使用Java的FileInputStream和FileOutputStream类。 首先,你需要创建一个...
    99+
    2024-02-29
    java
  • Java文件字符输入流FileReader读取txt文件乱码的解决
    目录Java文件字符输入流FileReader读取txt文件乱码先上代码控制台输出结果如下原因是运行之后的结果为字符流读取UTF-8和写出txt文件乱码问题话不多说,直接上图解决Ja...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作