返回顶部
首页 > 资讯 > 后端开发 > Python >Python - 读取pdf、word、excel、ppt、csv、txt文件提取所有文本
  • 414
分享到

Python - 读取pdf、word、excel、ppt、csv、txt文件提取所有文本

pythonpdfwordexcelpptcsv 2023-08-31 13:08:45 414人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

前言 本文对使用python读取pdf、Word、excel、ppt、csv、txt等常用文件,并提取所有文本的方法进行分享和使用总结。 可以读取不同文件的库和方法当然不止下面分享的这些,本文的代码主

前言

本文对使用python读取pdfWordexcel、ppt、csv、txt等常用文件,并提取所有文本的方法进行分享和使用总结
可以读取不同文件的库和方法当然不止下面分享的这些,本文的代码主要目标都是:方便提取文件中所有文本的实现方式。
这些库的更多使用方法,请到官方文档中查阅。

读取PDF文本:PyPDF2

import PyPDF2def read_pdf_to_text(file_path):    with open(file_path, 'rb') as pdf_file:        pdf_reader = PyPDF2.PdfReader(pdf_file)            contents_list = []        for page in pdf_reader.pages:            content = page.extract_text()            contents_list.append(content)        return '\n'.join(contents_list)read_pdf_to_text('xxx.pdf')

读取Word文本:docx2txt

doc需先手动转换成docx

import docx2txtdef read_docx_to_text(file_path):    text = docx2txt.process(file_path)    return textread_docx_to_text('xxx.docx')

读取excel文本:pandas

当然,pandas能读取的文件不仅仅是excel,还包括csv、JSON等。

import pandas as pddef read_excel_to_text(file_path):    excel_file = pd.ExcelFile(file_path)    sheet_names = excel_file.sheet_names    text_list = []    for sheet_name in sheet_names:        df = excel_file.parse(sheet_name)        text = df.to_string(index=False)        text_list.append(text)    return '\n'.join(text_list)read_excel_to_text('xxx.xlsx')

读取ppt文本:pptx

from pptx import Presentationdef read_pptx_to_text(file_path):    prs = Presentation(file_path)        text_list = []    for slide in prs.slides:        for shape in slide.shapes:            if shape.has_text_frame:                text_frame = shape.text_frame                text = text_frame.text                if text:                    text_list.append(text)    return '\n'.join(text_list)read_pptx_to_text('xxx.pptx')

读取csv、txt其他文本:直接open,read()

def read_txt_to_text(file_path):    with open(file_path, 'r') as f:        text = f.read()    return textread_txt_to_text('xxx.csv')read_txt_to_text('xxx.txt')

读取任何文件格式

有了前面的所有函数,那我们可以写一个支持传任意格式文件的函数。

support = {    'pdf': 'read_pdf_to_text',    'docx': 'read_docx_to_text',    'xlsx': 'read_excel_to_text',    'pptx': 'read_pptx_to_text',    'csv': 'read_txt_to_text',    'txt': 'read_txt_to_text',}def read_any_file_to_text(file_path):    file_suffix = file_path.split('.')[-1]    func = support.get(file_suffix)    if func is None:        return '暂不支持该文件格式'    text = eval(func)(file_path)    return textread_any_file_to_text('xxx.pdf')read_any_file_to_text('xxx.docx')read_any_file_to_text('xxx.xlsx')read_any_file_to_text('xxx.pptx')read_any_file_to_text('xxx.csv')read_any_file_to_text('xxx.txt')

结语

以上就是全部常见的文件格式的读取和提取所有文本的全部内容了。
更多其他的使用方法请查阅官方文档。

来源地址:https://blog.csdn.net/DreamingBetter/article/details/132245440

--结束END--

本文标题: Python - 读取pdf、word、excel、ppt、csv、txt文件提取所有文本

本文链接: https://lsjlt.com/news/385784.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Python - 读取pdf、word、excel、ppt、csv、txt文件提取所有文本
    前言 本文对使用python读取pdf、word、excel、ppt、csv、txt等常用文件,并提取所有文本的方法进行分享和使用总结。 可以读取不同文件的库和方法当然不止下面分享的这些,本文的代码主...
    99+
    2023-08-31
    python pdf word excel ppt csv
  • pdf/word/ppt/... 文件读取插件 - 输入步骤
    最近需要做一个 Common File Reader 的 kettle 插件,希望这个插件可以读取例如 PDF, WORD, PPT, WPS 等常见格式文件的内容,今天已经实现了第一步,读取 PDF 的功能。该插件是一个输入步骤, 它可以...
    99+
    2023-06-03
  • python中读取文本文件txt
    文件创建 f = open(localDirName, 'w')f.write("something\n")f.close() 如果文件不存在就是创建,如果文件存在就是打开操作 文件对象创建 ...
    99+
    2023-10-25
    python 开发语言 Powered by 金山文档
  • python读取中文txt文本
    对于python2.7 字符串在Python2.7内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码成unicode,再从unicode编码成另一种编码。 先用一些编...
    99+
    2023-01-31
    中文 文本 python
  • pandas读取excel,txt,csv,pkl文件等命令的操作
    pandas读取txt文件 读取txt文件需要确定txt文件是否符合基本的格式,也就是是否存在\t,,,等特殊的分隔符 一般txt文件长成这个样子 txt文件举例 下面的文件为空格间...
    99+
    2024-04-02
  • python提取word文件中的所有图片
    前言 办公中,偶尔会碰到一种情况,需要提取word文档中的图片,决定写这样一款工具自动提取图片。 关于脚本的使用: 情景1:如果你拿到的是一个文件夹,所有的word文件都在这个文件夹...
    99+
    2024-04-02
  • 【Python】Python读取CSV文件
    CSV文件是一种常见的数据存储格式,很多人在日常工作中需要使用Python处理CSV文件。Python提供了多种方法来读取CSV文件,包括使用标准库、第三方库和内置函数。本文将介绍多种Python读取...
    99+
    2023-09-12
    python pandas 数据分析
  • python读取和保存为excel、csv、txt文件及对DataFrame文件的基本操作指南
    目录一、对excel文件的处理1.读取excel文件并将其内容转化DataFrame和矩阵形式2.将数据写入xlsx文件3.将数据保存为xlsx文件4.使用excel对数据进行处理的...
    99+
    2024-04-02
  • python读取ppt文本内容
    import win32com from win32com.client import Dispatch, constants ppt = win32com.client.Dispatch('PowerPoint.Application'...
    99+
    2023-01-31
    文本 内容 python
  • Python 如何读取.txt,.md等文本文件
    看代码吧~ # example.md 1 2 3 4 5 6 7 8 9 >>> with open('example.md') as f: lines = f.readli...
    99+
    2022-06-02
    Python 读取.txt文件 读取.md文件
  • 如何利用python批量提取txt文本中所需文本并写入excel
    目录1.提取txt文本2.增加数据框的列3.引入基础csv数据,并扩列汇总总结 1.提取txt文本 我想要的文本是如图所示,宝可梦的外貌描述文本,由于原本的数据源结构并不...
    99+
    2024-04-02
  • C#实现读取txt文件生成Word文档
    目录dll文件安装(3种方法)读取txt生成Word注意事项总结本文将以C#程序代码为例介绍如何来读取txt文件中的内容,生成Word文档。在编辑代码前,可参考如下代码环境进行配置:...
    99+
    2024-04-02
  • python怎么读取TXT文件
    Python提供了多种读取文本文件的方法,以下是其中几种常用的方法:1. 使用`open()`函数:```file = open('...
    99+
    2023-10-11
    python
  • python怎样读取txt文件
    python 读取 txt 文件的方法包括:使用 open() 函数打开文件并读取内容使用 for 循环按行读取文件内容使用 readlines() 方法将文件内容读取到列表中 Pyt...
    99+
    2024-05-11
    python
  • Java实现读取TXT和CSV文件内容
    目录1.引入java2.实现代码最近在编写一个通用可配置的实时ETL工具,即把通过Flink把Kafka的JSON 格式的数据解析后写入关系型数据库,业务要求新来一个JSON格式的业...
    99+
    2023-02-08
    Java读取TXT Java读取CSV Java读取TXT CSV
  • Python读取.txt,.md等文本文件的方法
    这篇文章将为大家详细讲解有关Python读取.txt,.md等文本文件的方法,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。代码如下# example.md1 2 34&nbs...
    99+
    2023-06-15
  • Python 文本文件与csv文件的读取与写入
    目录一、文本文件读取与写入1 读取文件的 read() 方法2 读取文件的 readline() 方法3 读取文件的 readlines() 方法4 写入文件的 write() 方法...
    99+
    2024-04-02
  • python怎么读取csv文件
    在Python中,可以使用csv模块来读取CSV文件。下面是读取CSV文件的基本步骤: 导入csv模块:import csv 打开...
    99+
    2024-02-29
    python
  • Python实现PDF文字识别提取并写入CSV文件
    目录1.前言2.需求描述3.开始动手动脑3.1安装相关第三方包3.2导入需要用到的第三方库3.3读取pdf文件,并识别内容3.4对识别的数据进行处理,写入csv文件总结1. 前言 扫...
    99+
    2024-04-02
  • Python文本文件与csv文件如何读取与写入
    这篇“Python文本文件与csv文件如何读取与写入”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Python文本文件与cs...
    99+
    2023-06-29
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作