Python实现提取PDF简历信息并存入Excel

2024-04-02 19:04:59 364人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

目录介绍1. 将pdf文档中的文字读取到Word中2. 将word中读到的文字输入到excel中介绍今天为大家分享一个真实的案例。今天接到人力资源部同事的需求

介绍

今天为大家分享一个真实的案例。

今天接到人力资源部同事的需求，想把他人投递的PDF简历资料里的关键信息数据，提取到excel表中汇总。

目标资料背景：是由求职者自行编制的简历材料，投递到人力资源部。由于其数据格式的不确定，对数据信息的采集带来了一定困难。

我的解答思路是：先从PDF文档中抓取文字信息保存到word文档中，然后再从word文档中读取文字信息保存到excel中。

1. 将PDF文档中的文字读取到word中

import pdfplumber
from docx import Document

with pdfplumber.open('1_5的简历1632532336.pdf') as rpdf:
    first_page = rpdf.pages[0]
    print(first_page.extract_text())

doc = Document()
rpdfword = first_page.extract_text()

pages = doc.add_paragraph(rpdfword)

doc.save('测试2.docx')

结果如下：

2. 将word中读到的文字输入到excel中

#导入所需库
from docx import Document
import xlwings as xw

#写数据
def excel_write(a,path,sheetname,write_cols,write_rows):
    app=xw.App(visible=False,add_book=False)
    app.display_alerts=False
    app.screen_updating=False
    wb=app.books.open(path)
    sht=wb.sheets[sheetname]
    weizhi = []
    try:
        i = 0
        while i!=len(write_cols):
            j = 0
            while j!=len(write_rows):
                weizhi.append(write_cols[i]+str(write_rows[j]))
                j+=1
            i+=1
        k=0
        while k!=len(a):
            sht.range(weizhi[k]).value=a[k].text
            print(weizhi[k])
            k+=1
    finally:
        wb.save()
        wb.close()
        app.kill()

if __name__ == "__main__":
    #打开word文档
    document = Document(u"测试2.docx")
    
    #获取所有段落
    all_paragraphs = document.paragraphs    
    print(len(all_paragraphs))
        
    
    excel_path =r'报名人员信息统计表（模板）.xls'
    SheetName = r'Sheet1'
    
    wcols = ['c','d','i','h','e','f','j','L']
    #新读取一个简历要换一行
    wrow = [3]
    excel_write(all_paragraphs,excel_path,SheetName,wcols,wrow)

结果如下：

在读取word中文字时，需要注意调配相应关键信息字符信息，必要时可以删除非关键信息。

到此这篇关于python实现提取PDF简历信息并存入Excel的文章就介绍到这了,更多相关Python提取PDF信息内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

--结束END--

本文标题: Python实现提取PDF简历信息并存入Excel

本文链接: https://lsjlt.com/news/144787.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

Python实现提取PDF简历信息并存入Excel

目录介绍1. 将PDF文档中的文字读取到word中2. 将word中读到的文字输入到excel中介绍今天为大家分享一个真实的案例。今天接到人力资源部同事的需求...

99+

2024-04-02
如何用python提取txt文件中的特定信息并写入Excel

如何用python提取txt文件中的特定信息并写入Excel，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。问题描述：我有一个这样的数据集叫test_result_test....

99+

2023-06-21
教你用python提取txt文件中的特定信息并写入Excel

目录问题描述：工具：操作：源代码：Reference：总结问题描述：我有一个这样的数据集叫test_result_test.txt，大概几百上千行，两行数据之间隔一个空行。 N...

99+

2024-04-02
Python利用pdfplumber实现读取PDF写入Excel

目录一、Python操作PDF 13大库对比二、pdfplumber模块1.安装2. 加载PDF3. pdfplumber.PDF类4. pdfplumber.Page类三、实战操作...

99+

2024-04-02
Python实现PDF文字识别提取并写入CSV文件

目录1.前言2.需求描述3.开始动手动脑3.1安装相关第三方包3.2导入需要用到的第三方库3.3读取pdf文件，并识别内容3.4对识别的数据进行处理，写入csv文件总结1. 前言扫...

99+

2024-04-02
python用pdfplumber提取pdf表格数据并保存到excel文件中

目录pdfplumber操作pdf文件一、pdfplumber安装及导入二、pdfplumber基础使用1、基础知识2、获取pdf基础信息3、pdfplumber提取表格数据三、提取...

99+

2024-04-02
使用Python怎么实现自动提取并收集信息

本篇文章给大家分享的是有关使用Python怎么实现自动提取并收集信息，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。代码实现导入需要的库，包括百度的api接口跟cv2图像截图图库...

99+

2023-06-15
基于Python实现快递信息提取

目录前言一、思路二、解决方案三、小小花絮四、总结前言前几天在Python交流群里边，有个叫【^-^】的粉丝分享了一道Python基础的题目，跟快递信息有关的，题目如下：现在想要...

99+

2024-04-02
Python爬虫实现抓取电影网站信息并入库

目录一.环境搭建1.下载安装包2.修改环境变量3.安装依赖模块二.代码开发三.运行测试1.新建电影信息表2.代码运行四.问题排查和修复1.空白字符报错2.请求报错一.环境搭建 1.下...

99+

2024-04-02
教你用Python实现自动提取并收集信息的功能

目录一、简介二、代码实现一、简介本功能目的在于提取收据/发票上的信息，用机器代替人的方式，提高工作效率实现方式是通过cv2模块截取需要的信息，调用百度的api文...

99+

2024-04-02
Python实现简易信息分类存储软件

时间紧任务重，女神提出的要求有模棱两可，只能自己考虑各种情况，除了用python还有谁能这么短的时间搞出来。程序界面，增删改查不能少，后悔药也需要给女神准备上，由于最后需要打包给...

99+

2024-04-02
Springboot获取前端反馈信息并存入数据库的实现代码

导入mybatis依赖  <dependency> <groupId>org.mybatis.spring.b...

99+

2024-04-02
Python如何实现简易信息分类存储软件

Python如何实现简易信息分类存储软件，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。时间紧任务重，女神提出的要求有模棱两可，只能自己考虑各种情况，除了用python还有谁...

99+

2023-06-22
如何使用Python爬虫实现抓取电影网站信息并入库

这篇文章主要介绍如何使用Python爬虫实现抓取电影网站信息并入库，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！一.环境搭建1.下载安装包访问 Python官网下载地址：https://www.python.org/...

99+

2023-06-29
Python脚本提取fasta文件单序列信息实现

目录Python脚本编辑使用的文件输入 sys模块从命令行获得文件名称进行序列信息统计的函数使用def制作一个函数.format使用：进行函数计算结果屏幕展示结果输出文件脚本运行Py...

99+

2024-04-02
bs4爬虫实战三:获取电影信息并存入mysql数据库

目标分析这次爬虫的目标网站是:http://dianying.2345.com,爬虫的搜索目标仅限于今年的电影,在网站打开搜索，在年代中选择2018 获取页面的过程在页面的下方单击"下一页",发现URL变成了http:/...

99+

2023-01-30

爬虫实战数据库
Python爬虫实战之如何采集淘宝商品信息并导入EXCEL表格

本篇内容主要讲解“Python爬虫实战之如何采集淘宝商品信息并导入EXCEL表格”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Python爬虫实战之如何采集淘宝商品信息并导入EXCEL表格”吧!...

99+

2023-06-16
利用Python实现读取Word表格计算汇总并写入Excel

目录前言一、首先导入包二、读评价表所在的目录文件三、读word文件，处理word中的表格数据四、统计计算五、将统计计算结果写入汇总Excel完整代码总结前言快过年了，又到了公司年底...

99+

2024-04-02
【Python爬虫实战】1.爬取A股上市公司年报链接并存入Excel

1.项目分析数据来源：巨潮资讯项目需求：按照股票代码，公司名称，年报全称，年份，下载链接等要素写入excel表使用语言：python 第三方库：requests, re , time等成品展示： 2. 快速上手废话就...

99+

2023-09-04

python 爬虫开发语言金融数据分析
怎么利用Python实现读取Word表格计算汇总并写入Excel

这篇文章将为大家详细讲解有关怎么利用Python实现读取Word表格计算汇总并写入Excel，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。前言快过年了，又到了公司年底评级的时候了。今年的评级...

99+

2023-06-28