Python 官方文档:入门教程 => 点击学习
文章目录 前期准备1. 将create Time列设置为索引2. 生成一个和df长度相同的随机数DataFrame3. 将上一题生成的DataFrame与df合并4. 生成的新的一列new值为
本章的10道题仍然是基于前章的文件,主要学习了有设置索引、合并两个DataFrame对象、更改数据类型,不同列之间的运算,统计一列不同值得个数以及不同值分别出现得次数,还有如何灵活的运用布尔值运算。
## 前期准备本章的十道题与前面的试题相连接,数据集用的同一个数据集一些操作也是基于上一个练习的本次导包多导入了一个绘图的包,在这里我们只是简单的应用,后面会有详细的讲解用法```pythonimport pandas as pdimport numpy as npfrom matplotlib import pyplot as plt
数据集没有的可以私信我,也可以直接去我的资源里面找
df = pd.read_excel('data1.xlsx')def fun(x): a,b = x.split('-') a = int(a.strip('k'))*1000 b = int(b.strip('k'))*1000 return int((a+b)/2)df['salary'] = df['salary'].apply(fun)
set_index() 将DataFrame的某一列快速设置成索引(index)默认会删除原来的列同样也可以是使用drop=False
不删除原来的列
df.set_index('createTime')
随机数的范围1-1000
随机生成
df1=pd.DataFrame(pd.Series(np.random.randint(1,1000,df.shape[0])))
其实这个题本质上就是合并两个DataFrame对象
pd.merge(df,df1)
df = pd.concat([df,df1],axis=1)df
df.join(df1)
两个合并之后的情况
df['new'] = df['salary'].astype('int') - df['rom']df
isnull()对所有的元素判断是否是空值
any() 当序列中有一个True
值时返回True
否则返回False
all() 当序列中所有的值为True
值时返回True
否则返回False
df.isnull().values.any()
类型转换
这种方式并不会修改原数据,会返回一个修改后的新对象
df['salary'].astype('float') # 方式1df['salary'].astype(np.float64) # 方式2
其实这个里面用了一个布尔值计算的等价计算
True代表1 False代表0
sum(df['salary']>10000)
统计一列中的不同值得个数
# 方式1df.education.nunique()# 方式2df['education'].nunique()
统计每一种值出现得次数
df['education'].value_counts() # 方式1df.education.value_counts() # 方式2
推荐使用前两种
# 提取salary与new的和大于60000的最后3行# 方式1df[df['salary']+df['new']>60000].tail(3)# 方式2df[df['salary']+df['new']>60000][-3:]# 方式3 df2 = df[['salary','new']]rowsums = df2.apply(np.sum,axis=1)res = df.iloc[np.where(rowsums>60000)[0][-3:],:]res
来源地址:https://blog.csdn.net/qq_52007481/article/details/127579502
--结束END--
本文标题: 数据分析 | Pandas 200道练习题,每日10道题,学完必成大神(5)
本文链接: https://lsjlt.com/news/398802.html(转载时请注明来源链接)
有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341
2024-03-01
2024-03-01
2024-03-01
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
回答
回答
回答
回答
回答
回答
回答
回答
回答
回答
0