返回顶部
首页 > 资讯 > 后端开发 > Python >用于清理数据的五个简单有效 Python 脚本
  • 592
分享到

用于清理数据的五个简单有效 Python 脚本

机器学习Python脚本 2023-05-14 21:05:36 592人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

将 pdf 转换为 CSV在机器学习中,我们应该少一些“数据清理”,多一些“数据准备”。当我们需要从白皮书、电子书或其他PDF文档中抓取数据时,这个脚本为我节省了很多时间。import tabula #获取文件 pdf_filename =

pdf 转换为 CSV

用于清理数据的五个简单有效 Python 脚本

机器学习中,我们应该少一些“数据清理”,多一些“数据准备”。当我们需要从白皮书、电子书或其他PDF文档中抓取数据时,这个脚本为我节省了很多时间。

import tabula
#获取文件
pdf_filename = input ("Enter the full path and filename: ")
# 提取PDF的内容
frame = tabula.read_pdf(pdf_filename,encoding = 'utf-8', pages='all')
#根据内容创建CSV文件
frame.to_csv('pdf_conversion.csv')

这是一种相对简单的快速提取数据的方法,可以在将数据导入机器学习数据库、Tableau或Count等工具

合并 CSV 文件

许多系统会提供导出到CSV选项,但是没有办法在导出数据之前首先合并数据。这可能导致5个以上的文件导出到一个文件夹,这些文件包含相同的数据类型。该python脚本通过获取这些文件)并将它们合并到一个文件中来解决这个问题。

from time import strftime
import pandas as pd
import glob
# 定义包含CSV文件的文件夹的路径
path = input('Please enter the full folder path: ')
#确保后面有一个斜杠
if path[:-1] != "/":
path = path + "/"
#以列表形式获取CSV文件
csv_files = glob.glob(path + '*.csv')
#打开每个CSV文件并合并为一个文件
merged_file = pd.concat( [ pd.read_csv(c) for c in csv_files ] )
#创建新文件
merged_file.to_csv(path + 'merged_{}.csv'.fORMat(strftime("%m-%d-%yT%H:%M:%S")), index=False)
print('Merge complete.')

最终输出将为您提供一个 CSV 文件,其中包含您从源系统导出的 CSV 列表中的所有数据。

从 CSV 文件中删除重复的行

如果您需要从CSV文件中删除重复的数据行,这可以帮助您快速执行清理操作。当机器学习数据集中拥有重复数据时,这会直接影响可视化工具或机器学习项目中的结果。

import pandas as pd
# 获取文件名
filename = input('filename: ')
#定义要检查是否重复的CSV列名
duplicate_header = input('header name: ')
#获取文件的内容
file_contents = pd.read_csv(filename)
# 删除重复的行
deduplicated_data = file_contents.drop_duplicates(subset=[duplicate_header], keep="last", inplace=True)
#创建新文件
deduplicated_data.to_csv('deduplicated_data.csv')

拆分 CSV 列

当从其他系统导出文件时,它有时会包含一列数据,而我们需要将其作为两列。

import pandas as pd
#获取文件名并定义列
filename = input('filename: ')
col_to_split = input('column name: ')
col_name_one = input('first new column: ')
col_name_two = input('second new column: ')
#将CSV数据添加到dataframe中
df = pd.read_csv(filename)
# 拆分列
df[[col_name_one,col_name_two]] = df[col_to_split].str.split(",", expand=True)
#创建新csv文件
df.to_csv('split_data.csv')

合并不同的数据集

假设您有一个帐户列表和与其关联的订单,并希望查看订单历史以及关联的帐户详细信息。一个很好的方法就是通过合并数据到一个CSV文件。

import pandas as pd
#获取文件名并定义用户输入
left_filename = input('LEFT filename: ')
right_filename = input('RIGHT filename: ')
join_type = input('join type (outer, inner, left, right): ')
join_column_name = input('column name(i.e. Account_ID): ')
#读取文件到dataframes
df_left = pd.read_csv(left_filename)
df_right = pd.read_csv(right_filename)
#加入dataframes
joined_data = pd.merge(left = df_left, right = df_right, how = join_type, on = join_column_name)
#创建新的csv文件
joined_data.to_csv('joined_data.csv')

最后

这些脚本可以有效帮助我们进行自动化清理数据,然后可以将清理后的数据加载到机器学习模型中进行处理。Pandas是操作数据的首选库,因为它提供了许多的选项。

以上就是用于清理数据的五个简单有效 Python 脚本的详细内容,更多请关注编程网其它相关文章!

--结束END--

本文标题: 用于清理数据的五个简单有效 Python 脚本

本文链接: https://lsjlt.com/news/205521.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 用于清理数据的五个简单有效 Python 脚本
    将 PDF 转换为 CSV在机器学习中,我们应该少一些“数据清理”,多一些“数据准备”。当我们需要从白皮书、电子书或其他PDF文档中抓取数据时,这个脚本为我节省了很多时间。import tabula #获取文件 pdf_filename =...
    99+
    2023-05-14
    机器学习 Python 脚本
  • 五个简单有效的Python清理数据脚本分享
    目录将 PDF 转换为 CSV合并 CSV 文件从 CSV 文件中删除重复的行拆分 CSV 列合并不同的数据集最后将 PDF 转换为 CSV 在机器学习中,我们应该少一些&ldqu...
    99+
    2024-04-02
  • 十个简单使用的Python自动化脚本分享
    目录1.给照片添加水印2.检测文本文件的相似性3.对文件内容进行加 密4.将照片转换为PDF5.修改照片的长与宽6.对于照片的其他操作7.测试网速8.货币汇率的转换9.生成...
    99+
    2024-04-02
  • python脚本实现数据导出excel格式的简单方法(推荐)
    实习期间,服务器的一位师兄让我帮忙整理一下服务器的log数据,最终我用Python实现了数据的提取并将其用Excel格式导出。下面是我Python实现的源码,可以自动遍历某一文件目录下的所有文本文件,并将总...
    99+
    2022-06-04
    脚本 简单 格式
  • 基于Python实现一个简易的数据管理系统
    目录创建mysql数据表增删改查启动应用 为了方便的实现记录数据、修改数据没有精力去做一个完整的系统去管理数据。因此,在python的控制台直接实现一个简易的数据管理系统,包括数据的...
    99+
    2024-04-02
  • 如何用 Shell 脚本实现高效的大数据处理?
    随着数据量的不断增加,大数据处理已经成为了现代科技领域中的一个重要问题。而在处理大数据时,Shell 脚本可以发挥出其强大的功能,帮助我们实现高效的数据处理。本文将为大家介绍如何使用 Shell 脚本实现高效的大数据处理,包括如何处理大文件...
    99+
    2023-09-22
    大数据 shell 函数
  • 管理Mysql数据库的几个常用简单命令
    本文主要给大家介绍管理Mysql数据库的几个常用简单命令,文章内容都是笔者用心摘选和编辑的,具有一定的针对性,对大家的参考意义还是比较大的,下面跟笔者一起了解下管理Mysql数据库的几个常用简单命令吧。一、...
    99+
    2024-04-02
  • 如何使用MySQL和Java实现一个简单的数据清洗功能
    如何使用MySQL和Java实现一个简单的数据清洗功能概述:在进行数据分析和机器学习之前,数据清洗是一个非常重要的步骤。数据清洗可以帮助我们处理缺失值、异常值和重复值等问题,从而提高我们对数据的准确性和可靠性。本文将介绍如何使用MySQL和...
    99+
    2023-10-22
    MySQL Java 数据清洗
  • 如何使用MySQL和Ruby实现一个简单的数据清洗功能
    如何使用MySQL和Ruby实现一个简单的数据清洗功能在数据分析和处理的过程中,数据清洗是一个非常重要的步骤。数据清洗可以帮助我们处理不完整、不一致或者错误的数据,使数据能够更好地被分析和使用。本文将介绍如何使用MySQL和Ruby语言实现...
    99+
    2023-10-22
    MySQL Ruby 数据清洗
  • 用于基本社区管理任务自动化的Python脚本有哪些
    这篇文章主要讲解了“用于基本社区管理任务自动化的Python脚本有哪些”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“用于基本社区管理任务自动化的Python脚本有哪些”吧!tshirts.p...
    99+
    2023-06-15
  • 基于Python怎样实现一个简易的数据管理系统
    这期内容当中小编将会给大家带来有关基于Python怎样实现一个简易的数据管理系统,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。为了方便的实现记录数据、修改数据没有精力去做一个完整的系统去管理数据。因此,在...
    99+
    2023-06-22
  • 三个Python常用的数据清洗处理方式总结
    目录1. strip函数清除空格2. duplicated函数清除重复数据3. 数据缺失值补全4. 数据保存关于python数据处理过程中三个主要的数据清洗说明,分别是缺失值/空格/...
    99+
    2022-12-20
    Python数据清洗处理 Python数据清洗
  • Java实现json数据处理的常用脚本有哪些
    本篇内容介绍了“Java实现json数据处理的常用脚本有哪些”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!一、工具的使用推荐1、获取到请求u...
    99+
    2023-07-05
  • python基于scrapy爬取京东笔记本电脑数据并进行简单处理和分析
    目录一、环境准备二、问题分析三、spider四、item五、setting六、pipelines七、middlewares八、使用jupyter进行简单的处理和分析一、环境准备 ...
    99+
    2024-04-02
  • 利用SHELL脚本来验证Oracle数据库RMAN备份集的有效性
    利用SHELL脚本来验证Oracle数据库RMAN备份集的有效性作者:赵全文  网名:guestart我们生产环境的Oracle数据库都做了RMAN备份,是采用了一周的RMAN备份保留策略;除了使...
    99+
    2024-04-02
  • Bash 脚本在大数据处理中的作用到底有多大?
    随着大数据时代的到来,处理海量数据已经成为了许多企业和组织所面临的一个重要问题。而 Bash 脚本作为一种强大的命令行工具,也被越来越多的人用于大数据处理中。本文将介绍 Bash 脚本在大数据处理中的作用,并演示一些常用的 Bash 脚本...
    99+
    2023-08-10
    大数据 bash 关键字
  • 简单且有用的Python数据分析和机器学习代码
    为什么选择Python进行数据分析? Python是一门动态的、面向对象的脚本语言,同时也是一门简约,通俗易懂的编程语言。Python入门简单,代码可读性强,一段好的Python代码...
    99+
    2024-04-02
  • 利用python生成一个导出数据库的bat脚本文件的方法
    实例如下: # 环境: python3.x def getExportDbSql(db, index): # 获取导出一个数据库实例的sql语句 sql = 'mysqldump -u%s -p...
    99+
    2022-06-04
    脚本 数据库 文件
  • PHP设定用于一个脚本中所有日期时间函数的默认时区
    ...
    99+
    2024-04-02
  • 使用Python加速数据分析的10个简单技巧分别是什么
    这期内容当中小编将会给大家带来有关使用Python加速数据分析的10个简单技巧分别是什么,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。提示和技巧,尤其是在编程领域,可能是非常有用的。有时,一个小技巧可以节...
    99+
    2023-06-16
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作