返回顶部
首页 > 资讯 > 后端开发 > Python >python学习--DataFrame
  • 667
分享到

python学习--DataFrame

python开发语言pandas 2023-10-02 05:10:49 667人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

目录 一、DataFrame对象的创建 1、根据列表创建: 情况1:由二维列表 情况2:由元组tuple组成的列表 情况3:由字典dict组成的列表 情况4:由数组array组成的列表 情况5:由序列series组成的列表 2、根据字典创

目录

一、DataFrame对象的创建

1、根据列表创建:

情况1:由二维列表

情况2:由元组tuple组成的列表

情况3:由字典dict组成的列表

情况4:由数组array组成的列表

情况5:由序列series组成的列表

2、根据字典创建:

情况1:由元组tuple组成的字典

情况2:由列表list组成的字典

情况3:由字典dict组成的字典

情况4:由数组array组成的字典

情况5:由序列series组成的字典

情况6:由复合式的字典

3、根据二维数组ndarray创建:

二、DataFrame常用属性

三、DataFrame的访问

1、读取dataframe表中的行

2、读取dataframe表中的列

3、读取dataframe表中的元素

4、条件读取

四、DataFrame数据修改

1、修改DataFrame表中的行

2、修改DataFrame表中的列

3、修改DataFrame表中的元素

五、遍历

1、iterrows(): 按行遍历

2、itertuples(): 按行遍历

3、iteritems():按列遍历


一、DataFrame对象的创建

1、根据列表创建:

索引是index,列索引是columns

情况1:由二维列表

默认的 index 和 columns

import pandas as pddata = [['张三', 23, '男'], ['李四', 27, '女'], ['王二', 26, '女']]df = pd.DataFrame(data)print(df)

运行结果:

0 1 2
0 张三 23 男
1 李四 27 女
2 王二 26 女

指定索引ndex 和 columns值:

import pandas as pddata = [['张三', 23, '男'], ['李四', 27, '女'], ['王二', 26, '女']]df = pd.DataFrame(data, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c'])print(df)

运行结果:

姓名 年龄 性别
a 张三 23 男
b 李四 27 女
c 王二 26 女

情况2:由元组tuple组成的列表

import pandas as pddata = [('张三', 23, '男'), ('李四', 27, '女'), ('王二', 26, '女')]df = pd.DataFrame(data, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c'])print(df)

运行结果:

姓名 年龄 性别
a 张三 23 男
b 李四 27 女
c 王二 26 女

情况3:由字典dict组成的列表

import pandas as pddata = [    {'姓名': '张三', '年龄': 23, '性别': '男'},     {'姓名': '李四', '年龄': 27, '性别': '男'},    {'姓名': '王二', '年龄': 26}]# 缺少的值自动添加NaNdf = pd.DataFrame(data)print(df)

运行结果:

姓名 年龄 性别
0 张三 23 男
1 李四 27 男
2 王二 26 NaN

情况4:由数组array组成的列表

import pandas as pdimport numpy as npdata = [    np.array(('张三', 23, '男')),    np.array(('李四', 27, '女')),    np.array(('王二', 26, '女'))]df = pd.DataFrame(data, columns=['姓名', '年龄', '性别'])print(df)

运行结果:

姓名 年龄 性别
0 张三 23 男
1 李四 27 女
2 王二 26 女
import pandas as pdimport numpy as npdata = [    np.array(('张三', '李四', '王二')),    np.array((23, 27, 26)),    np.array(('男', '女', '女'))]df = pd.DataFrame(data, index=['姓名', '年龄', '性别'])print(df)

运行结果:

0 1 2
姓名 张三 李四 王二
年龄 23 27 26
性别 男 女 女

情况5:由序列series组成的列表

import pandas as pddata = [    pd.Series(['张三', '李四', '王二'], index=['a', 'b', 'c']),    pd.Series([23, 27], index=['a', 'b']),    pd.Series(['男', '女', '女'], index=['a', 'b', 'c'])]# 序列里的index作为dataframe表的columns索引# 缺少值自动添加NaNdf = pd.DataFrame(data, index=['姓名', '年龄', '性别'])print(df)

运行结果:

a b c
姓名 张三 李四 王二
年龄 23.0 27.0 NaN
性别 男 女 女

2、根据字典创建:

该字典必须满足:每一个key对应的value长度都相同:

情况1:由元组tuple组成的字典

import pandas as pddata = {    '姓名': ('张三', '李四', '王二'),     '年龄': (23, 27, 26),     '性别': ('男', '女', '女')}df = pd.DataFrame(data)print(df)

运行结果:

姓名 年龄 性别
0 张三 23 男
1 李四 27 女
2 王二 26 女

情况2:由列表list组成的字典

import pandas as pddata = {    '姓名': ['张三', '李四', '王二'],     '年龄': [23, 27, 26],    '性别': ['男', '女', '女']}df = pd.DataFrame(data)print(df)

运行结果:

姓名 年龄 性别
0 张三 23 男
1 李四 27 女
2 王二 26 女

情况3:由字典dict组成的字典

import pandas as pddata = {'姓名': {'1': '张三', '2': '李四', '3': '王二'},        '年龄': {'1': 23, '2': 27, '3': 26},        '性别': {'1': '男', '2': '女', '3': '女'}        }# data.key 作为datafreme表的columns;# data.value中的key 作为dataframe表的indexdf = pd.DataFrame(data)print(df)

运行结果:

姓名 年龄 性别
1 张三 23 男
2 李四 27 女
3 王二 26 女

情况4:由数组array组成的字典

import pandas as pdimport numpy as npdata = {    '姓名': np.array(('张三', '李四', '王二')),     '年龄': np.array((23, 27, 26)),     '性别': np.array(('男', '女', '女'))}df = pd.DataFrame(data)print(df)

运行结果:

姓名 年龄 性别
0 张三 23 男
1 李四 27 女
2 王二 26 女

情况5:由序列series组成的字典

import pandas as pddata = {    '姓名': pd.Series(['张三', '李四', '王二'], index=['a', 'b', 'c']),     '年龄': pd.Series([23, 27], index=['a', 'b'])}  # 序列里的index作为dataframe表的index索引# 字典里的key作为dataframe表的columns索引df = pd.DataFrame(data)print(df)

运行结果:

姓名 年龄
a 张三 23.0
b 李四 27.0
c 王二 NaN

情况6:由复合式的字典

import pandas as pddata = {'单位': '1', '姓名': ['张三', '李四', '王二'], '年龄': [23, 27, 26], '性别': ['男', '女', '女']}# 每行的单位列自动添加df = pd.DataFrame(data)print(df)

运行结果:

单位 姓名 年龄 性别
0 1 张三 23 男
1 1 李四 27 女
2 1 王二 26 女

3、根据二维数组ndarray创建:

import pandas as pdimport numpy as nparray1 = np.array([['张三', 23, '男'], ['李四', 27, '女'], ['王二', 26, '女']])df = pd.DataFrame(array1, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c'])print(df)

运行结果:

姓名 年龄 性别
a 张三 23 男
b 李四 27 女
c 王二 26 女

二、DataFrame常用属性

import pandas as pddata = {'姓名': ['张三', '李四', '王二'], '年龄': [23, 27, 26], '性别': ['男', '女', '女']}df = pd.DataFrame(data)# 返回对象数据形状 即:三行三列print(df.shape, '\n')# 返回序列的值print(df.values, '\n')# 返回行索引print(df.index, '\n')# 返回列索引print(df.columns, '\n')# 返回列标签(只针对dataframe数据结构)print(df.columns.tolist())# 返回元素数据类型print(df.dtypes, '\n')# 返回对象的维度print(df.ndim, '\n')# 返回对象的个数print(df.size, '\n')

三、DataFrame的访问

1、读取dataframe表中的行

import pandas as pdimport numpy as nparr = np.array([['赵一', 23, '男'], ['钱二', 27, '女'], ['孙三', 26, '女'], ['李四', 12, '男']])  df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'])# df[row_index_start: row_index_end]  # # 左闭右开print(df1[0:1])  # 第1行print(df1[0:])  # 第1行及之后的行,df的全部数据print(df1[:2])  # 第3行之前的数据(不包含第3行)print(df1[1:3])  # 第2行到第3行(不含第4行)print(df1[-3:-1])  # 倒数第3行和倒数第2行,没有-0print(df1[-1:])  # 最后一行# # 左闭右闭print(df1['a':'a'])  # 第1行print(df1['a':'d'])  # 第1行及之后的行,df的全部数据print(df1[:'b'])  # 第3行之前的数据(不包含第3行)print(df1['b':'c'])  # 第2行到第3行(不含第4行)print(df1['d':])  # 最后一行# df[column_index][row_index]print(df1[['姓名', '年龄']][0:3])  #  第1列和第2列的第1行到第3行 数据# df.iloc[row_inde_位置, column_index_位置] print(df1.iloc[[1, 3], 0:2])   # 第2行和第4行,从第1列到第2列(左闭右开不包含第3列)的数据print(df1.iloc[1:3, [1, 2]])     # 第2行到第3行(不包含第1,4行),第2列和第3列的数据# df.loc[row_index, column_index]print(df1.loc[['b', 'd'], '姓名': '年龄'])  # 第2行和第4行,从第1列到第2列(左闭右开不包含第3列)的数据print(df1.loc['b': 'c', ['年龄', '性别']])   # 第2行到第3行(不包含第1,4行),第2列和第3列的数据

2、读取dataframe表中的列

import pandas as pdimport numpy as nparr = np.array([['赵一', 23, '男'], ['钱二', 27, '女'], ['孙三', 26, '女'], ['李四', 12, '男']])  df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c', 'd'])# df[[column_index_start, column_index_end]] print(df1['姓名'])  # 第1列print(df1[['姓名', '性别']])  # 第1列和第3列print(df1.loc[:, '姓名'])  # 第1列print(df1.iloc[:, 0])  # 第1列

3、读取dataframe表中的元素

import pandas as pdimport numpy as nparr = np.array([['赵一', 23, '男'], ['钱二', 27, '女'], ['孙三', 26, '女'], ['李四', 12, '男']])  df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c', 'd'])# 读取第1行第2列 数据# df[column_index][row_index]print(df1['年龄'][0])  print(df1['年龄']['a'])  #  df.iloc[row_index_位置, column_index_位置] print(df1.iloc[0, 1]) # df.loc[row_index, column_index]print(df1.loc['a', '年龄'])  # df.iat[row_index, column_index]print(df1.iat[0, 1])# df.at[row_index, column_index]print(df1.at['a', '年龄'])  

4、条件读取

  • df.loc[df['gender']=='m','name'] # 选取gender列是m,name列的数据
  • df.loc[df['gender']=='M',['name','age']] #选取gender列是m,name和age列的数据
import pandas as pdimport numpy as nparr = np.array([['赵一', 23, '男'], ['钱二', 27, '女'], ['孙三', 26, '女'], ['李四', 12, '男']])  df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c', 'd'])# 读取姓名为‘李四’的‘性别’print(df1.loc[df1['姓名'] == '李四', '性别'])  # 读取性别是‘女’的 ‘姓名’和‘年龄’print(df1.loc[df1['性别'] == '女', ['姓名', '年龄']]) # 读取‘姓名’是‘张三’和‘王二’所在行的‘性别’print(df1.loc[(df1['姓名'] == '赵一') | (df1['姓名'] == '钱二'), '性别'])

注:df.iloc 和 df.loc 的区别

  • df.iloc[row_index位置, column_index位置]
  • df.loc[row_index, column_index]
import pandas as pdimport numpy as nparr = np.array([['赵一', 23, '男'], ['钱二', 27, '女'], ['孙三', 26, '女'], ['李四', 12, '男']]) df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'], index=[3, 2, 1, 0])print(df1.iloc[:3])  # 前3行数据print(df1.loc[:3])  # row_index = 3 那一行数据

运行结果:

df1.iloc[:3]:

姓名 年龄 性别
3 赵一 23 男
2 钱二 27 女
1 孙三 26 女

df1.loc[:3]:

姓名 年龄 性别
3 赵一 23 男

四、DataFrame数据修改

1、修改DataFrame表中的行

import pandas as pdimport numpy as nparr = np.array([['赵一', 23, '男'], ['钱二', 27, '女'], ['孙三', 26, '女'], ['李四', 12, '男']])df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c', 'd'])# 将第1行第2列改为 '19' 的四种方法df1['年龄'][0] = 19 df1['年龄']['a'] = 19df1.loc['a', '年龄'] = 19df1.iloc[0, 1] = 19  print(df1)

2、修改DataFrame表中的列

import pandas as pdimport numpy as nparr = np.array([['赵一', 23, '男'], ['钱二', 27, '女'], ['孙三', 26, '女'], ['李四', 12, '男']])df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c', 'd'])# 将第1行 改为 ['aa', 23, '女'] 的四种方法df1[0:1] = ['aa', 23, '女']df1['a':'a'] = ['aa', 23, '女']df1.loc['a'] = ['aa', 23, '女']df1.iloc[0, :] = ['aa', 23, '女']  print(df1)

3、修改DataFrame表中的元素

import pandas as pdimport numpy as nparr = np.array([['赵一', 23, '男'], ['钱二', 27, '女'], ['孙三', 26, '女'], ['李四', 12, '男']]) df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c', 'd'])# 将第1列 改为[11, 12, 13, 14] 的三种方法df1['年龄'] = [11, 12, 13, 14]df1.loc[:, '年龄'] = [11, 12, 13, 14]df1.iloc[:, 1] = [11, 12, 13, 14]   print(df1)

五、遍历

import pandas as pdimport numpy as np​arr = np.array([['赵一', 23, '男'], ['钱二', 27, '女'], ['孙三', 26, '女'], ['李四', 12, '男']]) df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c', 'd'])# 读取‘姓名’列for i in df1.index:    print(df1['姓名'][i])# 读取第1行for j in df1.columns:    print(df1[j][0])# 读取每个元素for i in df1.index:    for j in df1.columns:        print(df1[j][i])

1、iterrows(): 按行遍历

iterrows(): 按行遍历,将DataFrame的每一行迭代为(index, Series)对,可以通过row[name]对元素进行访问。

import pandas as pdimport numpy as nparr = np.array([['赵一', 23, '男'], ['钱二', 27, '女']]) df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'], index=['a', 'b'])for index, row in df1.iterrows():    print('index:', index)  # 输出每行的索引值    print('row:', row)  # 输出每行的值  row:    print('姓名年龄:', row['姓名'], row['年龄'])  # 输出每一行‘姓名’‘年龄’两列的值

运行结果:

index: a
row: 姓名 赵一
        年龄 23
        性别 男
        Name: a, dtype: object
姓名年龄: 赵一 23
index: b
row: 姓名 钱二
        年龄 27
        性别 女
        Name: b, dtype: object
姓名年龄: 钱二 27

2、itertuples(): 按行遍历

itertuples(): 按行遍历,将DataFrame的每一行迭代为元祖,可以通过row[name]对元素进行访问,比iterrows()效率高。

import pandas as pdimport numpy as nparr = np.array([['赵一', 23, '男'], ['钱二', 27, '女']]) df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'], index=['a', 'b'])for row in df1.itertuples():    print(row)  # row:    print(getattr(row, '姓名'), getattr(row, '年龄'))   # 输出每一行‘姓名’‘年龄’两列的值

运行结果:

Pandas(Index='a', 姓名='赵一', 年龄='23', 性别='男') 赵一 23
Pandas(Index='b', 姓名='钱二', 年龄='27', 性别='女') 钱二 27

3、iteritems():按列遍历

iteritems():按列遍历,将DataFrame的每一列迭代为(列名, Series)对,可以通过row[index]对元素进行访问。

import pandas as pdimport numpy as nparr = np.array([['赵一', 23, '男'], ['钱二', 27, '女']]) df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'], index=['a', 'b'])for index, row in df1.iteritems():    print('列名:', index)  # 输出列名    print('每列的值:', row)  # row     print('每列的第1行的值:', row[0])  # 输出各列​

运行结果:

列名: 姓名
每列的值: a 赵一
                b 钱二
                Name: 姓名, dtype: object
每列的第1行的值: 赵一
列名: 年龄
每列的值: a 23
                b 27
                Name: 年龄, dtype: object
每列的第1行的值: 23
列名: 性别
每列的值: a 男
                b 女
                Name: 性别, dtype: object
每列的第1行的值: 男

来源地址:https://blog.csdn.net/m0_60392490/article/details/121184960

--结束END--

本文标题: python学习--DataFrame

本文链接: https://lsjlt.com/news/422507.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • python学习--DataFrame
    目录 一、DataFrame对象的创建 1、根据列表创建: 情况1:由二维列表 情况2:由元组tuple组成的列表 情况3:由字典dict组成的列表 情况4:由数组array组成的列表 情况5:由序列series组成的列表 2、根据字典创...
    99+
    2023-10-02
    python 开发语言 pandas
  • Python中的DataFrame模块学
      本文是基于Windows系统环境,学习和测试DataFrame模块:  Windows 10  PyCharm 2018.3.5 for Windows (exe)  python 3.6.8 Windows x86 executabl...
    99+
    2023-01-31
    模块 Python DataFrame
  • Python学习
    Python是创始人吉多•范罗苏姆(Guido van Rossum)在1989年圣诞节期间,在阿姆斯特丹,为了打发圣诞节的无趣,决心开发一个新的脚本解释程序,而在给自己新创造的计算机语言起名字的时候,由于其是,自于七十年代风靡全球的英国六...
    99+
    2023-01-31
    Python
  • Python 学习
    第一次学习python查阅的资料一,熟悉基本在正式介绍python之前,了解下面两个基本操作对后面的学习是有好处的:1)基本的输入输出 可以在Python中使用+、-、*、/直接进行四则运算。11+3*3查看全部10(2)导入模块 使用im...
    99+
    2023-01-31
    Python
  • 学习python
    亲爱的朋友:     欢迎你!很高兴能在这里见到你,你能来到这里说明你真的很喜欢python,很想把python给学好!我觉的你很幸运,开始我学python的时候比较少资料,学起来也比较头疼,现在随着python越来越流行,资料也越来越多,...
    99+
    2023-01-31
    python
  • Python学习:Python form
    从Python2.6 开始,新增了一种格式化字符串的函数 str.format(),它增强了字符串格式化的功能。基本语法是通过 {} 和 : 来代替以前的 % 。 相对基本格式化输出采用‘%’的方法,format()功能更强大,该...
    99+
    2023-01-31
    Python form
  • python学习笔记--趣学Python
    由反弹球和球拍构成的游戏。球会在屏幕上飞过来,玩家要用球拍把它弹回去 画布和画弹球 引入模块 #Tkinter -- Python的标准GUI库,Tk 接口,是python 内置的安装包 from tkinter import * i...
    99+
    2023-01-31
    学习笔记 python Python
  • Python学习 (1)
    一、基本语法: import 与 from...import 在 python中 用import 或者from...import 来导入相应的模块。 将整个模块(somemodule)导入,格式为:import somemodule 从...
    99+
    2023-01-30
    Python
  • python学习(二)
    #浏览器GET请求,发送的参数有中文时,需要编码再拼接参数发送from urllib import requestimport urlliburl = r"http://www.baidu.com/s"#百度搜索 浏览器userage...
    99+
    2023-01-31
    python
  • Python学习day01
    age = 23 count=0 while count<3: guess_age = int (input("My age:")) if age ==guess_age: print("n...
    99+
    2023-01-30
    Python
  • python学习_1
    1.python2和python3 从宏观上讲,python2源码不标准、混乱、重复,和龟叔的理念背道而驰。 在python3上,实现了源码的统一化和标准化,去除了重复的代码。   2.编译型语言和解释型语言 编译型:一次性将所有的程序编...
    99+
    2023-01-30
    python
  • python-flask学习
    学习了一段时间python之后,因为一些现实要求和个人学习需要,所以开始对flask进行学习。找了一些博客和一本书《Flask Web开发》,书还没怎么仔细看,目前跟着博客学,还是有一些收获。下面将我觉得写的比较好的博客推荐一下。 duk...
    99+
    2023-01-30
    python flask
  • Python学习:ModuleNotFo
    最近在学《Python编程:从入门到实践》,16.2小结中 from pygal.i18n import COUNTRIES 获取两个字母的国别码,我用的pygal的版本是2.4.0(终端 pip show pygal 查看版本) 这...
    99+
    2023-01-31
    Python ModuleNotFo
  • 学习python D1
    shell脚本最擅长移动文件和替换文本,并不适合GUI界面或者游戏开发,Python是一种解释型语言,在程序开发阶段可以为你节省大量时间 Python2的用户输入需要用raw_input()而非input() python这种变量本身类...
    99+
    2023-01-31
    python
  • python学习_18
    字典字典是无序的字典的key只能是不可变对象,不能是list dict创建字典创建空字典,并赋值 d = {}d["name"] = "huhongqiang"d["sex"] = "M"d["height"] = 170d{'nam...
    99+
    2023-01-31
    python
  • python学习(11)
    函数参数 位置参数传入参数顺序 、个数必须一致def add(a,b):return a + b 关键字参数 def add(a,b,c):... return a+b+c...print(add(c=1,b=2,a=3))6...
    99+
    2023-01-31
    python
  • python学习(8)
    退出双层循环:方式1:try--except try: for i in range(5): for j in range(5): if i==3 and j ==3: ...
    99+
    2023-01-31
    python
  • python学习_14
    exec(str) 可以执行多行语句,语句块,没有返回值 command = """... a= [1,2,3]... for i in a:... print(i)... """exec(command)123 a = [1...
    99+
    2023-01-31
    python
  • python学习(day3)
    1、集合的使用:#1、集合的操作: list_1 = [1,4,5,7,3,6,7,9] list_1 = set(list_1)#创建集合 list_2 = set([2,6,0,22,66,8,4]) print(list_1,typ...
    99+
    2023-01-31
    python
  • python学习-dnspython
    dnspython是Python的DNS工具包。它支持几乎所有的记录类型。它可以用于查询,区域传输和动态更新。它支持TSIG认证消息和EDNS0。dnspython提供对DNS的高级和低级访问。高级别类对给定名称,类型和类的数据执行查询,并...
    99+
    2023-01-31
    python dnspython
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作