返回顶部
首页 > 资讯 > 后端开发 > Python >基于 Python 和 Pandas 的
  • 990
分享到

基于 Python 和 Pandas 的

PythonPandas 2023-01-30 23:01:31 990人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

pandas 是 python 的一个模块(module), 我们将用 Python 完成接下来的数据分析的学习. Pandas 模块是一个高性能,高效率和高水平的数据分析库. 从本质上讲,它非常像操作电子表格的无头版本,如excel.

pandaspython 的一个模块(module), 我们将用 Python 完成接下来的数据分析学习. Pandas 模块是一个高性能,高效率和高水平的数据分析库.

从本质上讲,它非常像操作电子表格的无头版本,如excel. 我们所使用的大部分的数据集都可以被转换成 dataframes(数据框架). 你可能对这个术语比较熟悉了, 它被广泛地用于很多语言. 但是如果你不熟悉, 可以看下我的解释: 一个 dataframe 就很像是一个仅有行和列组成的电子表格. 现在开始, 我们可以使用 Pandas 以光速对数据集进行一系列的操作. 

Pandas 也是可以与很多其他数据分析库兼容的, 比如用于机器学习的 Scikit-Learn, 用于图形绘制的 Matplotlib, NumPy 等. Pandas 的性能非常强大, 非常值得学习. 如果你在使用 excel 或者其他电子表格处理大量的计算任务, 那么通常需要1分钟或者1小时去完成某些工作, Pandas 将改变这一切. 

另一个好消息, 你可以很容易地载入/输出 xls 或者 xlsx 格式的文件. 所以即使你的老板还是习惯以往的格式, 你也可以轻松应对. Pandas 还同时兼容很多文本文件, 如 csv, xml, html 等.

如果你是初次接触 Python 语言, 没有关系, 我相信你一样可以继续下面的课程, 而且这个教程甚至可以作为你 Python 的一个初步入门教程.

如果你还没有安装 Python, 直接去官网https://www.python.org/下载一个最新版本, 并安装.
这里我先假设你已经安装了 Python. 下一步, 打开终端执行

pip3 install pandas
pip3 install numpy

安装 Pyton 相关包的方式有很多, 通过 pip 是最简单的方式.

关于编辑器, 选择自己顺手的就行, 我用的是 visual Code.
下面就来通过一个简单的实操, 认识一下 dataframe.

首先, 做一些简单的引入:

import pandas as pd
import datetime
import pandas_datareader.data as WEB

这里, 我们使用了 "import pandas as pd". 这算是引入 Pandas 的通用用法. 接着, 我们引入 datetime, 我们会用这个包做一些关于时间的操作. 最后, 引入 "import pandas.io.data as web", 我们需要用这个从网上拉取数据.

start = datetime.datetime(2010, 1, 1)
end = datetime.datetime.now()

这里, 我们创建了 start 和 end 两个变量, 它们都是 datatime 的对象. 我们会拉取从2010年1月1日到今天的数据. 下面我们就来创建一个 dataframe:

df = web.DataReader("XOM", "yahoo", start, end)

这行代码实现了从 yahoo api 拉取 XOM 的数据, 并赋值给变量 df. 把存储dataframe 的变量命名为 df, 并不是强制的, 但是是一种通用的方式, 可以让人从命名快速识别出这是一个 dataframe 的变量, 而无需追踪代码.
所以现在我们就获得了一个 dataframe, 那么我们要如何查看它的内容呢? 对, 我们可以用 print() 函数:

print(df)

目前是要求打印所有的数据, 终端显示的时候会省略掉中间部分的数据, 但是即便这样, 数据量依然很大. 所以, 大家一般都习惯只输出前5行数据:

print(df.head())

输出:

                 High        Low       Open      Close      Volume  Adj Close
Date
2009-12-31  68.860001  68.110001  68.839996  68.190002  18852300.0  51.152096
2010-01-04  69.260002  68.190002  68.720001  69.150002  27809100.0  51.872231
2010-01-05  69.449997  68.800003  69.190002  69.419998  30174700.0  52.074772
2010-01-06  70.599998  69.339996  69.449997  70.019997  35044700.0  52.524845
2010-01-07  70.059998  69.419998  69.900002  69.800003  27192100.0  52.359821

这样就输出了前5行数据, 这有助于 debug, 并且可以查看整体的数据结构

以上就是我想带给大家的初步的入门介绍. 但是还有一件事: 数据可视化. 就像我前面提到的, Pandas 与很多其他的模块都有很好的兼容性, Matplotlib 就是其中一个. 大家可以在终端执行

pip3 install matplotlib

其实, 理论上装过 pandas, matplotlib 就应该已经自动安装了, 这里只是要大家再确认一下. 现在, 就可以在脚本的头部加上下面的代码:

import matplotlib.pyplot as plt
from matplotlib import style

style.use('fivethirtyeight')

Pyplot 是 matplotlib 基本的图形化模块. Style 帮助我们快速建立图表. 然后可以用 Style.use 来选择一种图形样式.

接下来, 我们可以这样做:

df['High'].plot()
plt.legend()
plt.show()

完整代码如下:

import pandas as pd
import datetime
from pandas_datareader import data as web
import matplotlib.pyplot as plt
from matplotlib import style

style.use('ggplot')

start = datetime.datetime(2010, 1, 1)    
end = datetime.datetime(2015, 1, 1)

df = web.DataReader("XOM", "yahoo", start, end)

print(df.head())

df[['High']].plot()
plt.legend() #其实可以省略
plt.show()

很棒! 以上就是对 Pandas 一个简单快速的介绍. 在这个整个系列教程中, 我将会带到更多的Pandas 的基础知识, 还有一些对 dataframe 的操作. 还会接触到更多关于可视化图形, 数据的输入输出形式, 初中级的数据分析和操作, 合并与组合数据等.

后面会持续更新, 有任何问题或者错误, 欢迎留言, 希望和大家交流学习.





--结束END--

本文标题: 基于 Python 和 Pandas 的

本文链接: https://lsjlt.com/news/181100.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 基于 Python 和 Pandas 的
    Pandas 是 Python 的一个模块(module), 我们将用 Python 完成接下来的数据分析的学习. Pandas 模块是一个高性能,高效率和高水平的数据分析库. 从本质上讲,它非常像操作电子表格的无头版本,如Excel....
    99+
    2023-01-30
    Python Pandas
  • python基于Pandas读写MySQL数据库
    目录1、read_sql_query 读取 mysql2、to_sql 写入数据库 要实现 pandas 对 mysql 的读写需要三个库 pandas ...
    99+
    2024-04-02
  • Python环境(基于Pycharm和官
    1.下载安装包python官网下载3.7.2Pycharm 社区版下载安装 2.直接使用Pycharm自带virtualEnvFile - Settings - Project - Project Interpreter - (右侧的齿轮)...
    99+
    2023-01-31
    环境 Python Pycharm
  • 基于Python的selenium
    一、安装 1.1安装Python,安装Python时需要勾选增加环境变量 如果之前已经安装过Python,需要将Python相关文件以及环境变量删除 1.2安装成功:在命令行界面下输入Python,最...
    99+
    2023-09-15
    python selenium pycharm
  • Python Pandas中loc和iloc函数的基本用法示例
    目录1 loc和iloc的含义2 用法2.1 loc函数的用法2.2 iloc函数的用法补充:Pandas中loc和iloc函数实例总结1 loc和iloc的含义 loc表示loca...
    99+
    2024-04-02
  • python基础pandas的drop()怎么使用
    本篇内容主要讲解“python基础pandas的drop()怎么使用”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“python基础pandas的drop()怎么使用”吧!python基础pand...
    99+
    2023-07-06
  • Python Pandas基础操作详解
    目录数据结构&Series:DataFrame的构建:索引操作:DataFrame基本操作:广播运算:索引增删改查:字符串元素处理:数据规整:总结数据结构&Serie...
    99+
    2024-04-02
  • 基于python 3 的selenium
    本文主要是运用selenium模块模拟登陆新浪微博 python webdriver环境搭建教程:http://blog.csdn.net/nanjunxiao/article/details/7957326 # -*- c...
    99+
    2023-01-31
    python selenium
  • python中numpy和pandas介
    numpy和pandas是python中用于处理数据的两个库。numpy介绍:numpy用于处理array,且array中数据类型必须一致。下面以代码备注的方式介绍。 #START import numpy as np v=np.arra...
    99+
    2023-01-31
    python numpy pandas
  • Python基础之pandas数据合并
    一、concat concat函数是在pandas底下的方法,可以将数据根据不同的轴作简单的融合 pd.concat(objs, axis=0, join='outer', join_axes=None...
    99+
    2022-06-02
    Python pandas数据合并 Python pandas
  • python基础pandas的drop()用法示例详解
    目录python基础pandas的drop()用法补充:python pandas 之drop()函数drop函数的使用python基础pandas的drop()用法 做数据处理得时...
    99+
    2023-05-15
    python pandas drop()用法 python pandas drop()
  • 基于Python中的turtle绘画星星和星空
    目录前言:一、画一个N边形二、画五角星三、一闪一闪亮晶晶前言: Python 中的画图工具——turtle(海龟绘图),turtle 是 Python 中自带...
    99+
    2024-04-02
  • 基于Python 函数和方法的区别说明
    简单总结: 1、与类和实例无绑定关系的function都属于函数(function); 2、与类和实例有绑定关系的function都属于方法(method)。 首先摒弃错误认知:并不...
    99+
    2024-04-02
  • Python生成器和基于生成器的协程
    小编给大家分享一下Python生成器和基于生成器的协程,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!一、什么是生成器Generator生成器就是可以生成值的函数2.当一个函数里有了 yield关键字就成了生成器3.生成器可...
    99+
    2023-06-15
  • python基于selenium+cv2
    首先贴上我的安装包 一、selenium安装  I.打开pycharm,点击Settings,找到Project Interpreter,点击右边的下拉菜单下的show All...选项  II.点击show All...选项后,点击框...
    99+
    2023-01-30
    python selenium
  • 基于Django1.11和Python3
    一、创建一个VotingSystem项目以及polls应用$ django-admin.py startproject VotingSystem $ cd VotingSystem $ python3 manage.py startapp ...
    99+
    2023-01-31
  • 基于Python Shell获取hostname和fqdn释疑
    一直以来被Linux的hostname和fqdn(Fully Qualified Domain Name)困惑了好久,今天专门抽时间把它们的使用细节弄清了。 一、设置hostname/fqdn 在Lin...
    99+
    2022-06-04
    Shell Python fqdn
  • Python 基于Python结合pyk
    基于Python结合pykafka实现kafka生产及消费速率&主题分区偏移实时监控   By: 授客 QQ:1033553122   1.测试环境 python 3.4   zookeeper-3.4.13.tar.gz 下载地...
    99+
    2023-01-30
    Python pyk
  • python基础篇之pandas常用基本函数汇总
    目录前言1、汇总函数2、特征统计函数3、唯一值函数4、替换函数总结前言 这篇主要整理pandas常用的基本函数,主要分为五部分: 汇总函数特征统计函数唯一值函数替换函数排序函数 1、...
    99+
    2024-04-02
  • 基础的Pandas数据筛选方法和技巧
    Pandas数据筛选的基本方法和技巧,需要具体代码示例 引言:随着数据分析和处理的不断发展,Pandas已经成为了数据科学家和分析师们的利器。Pandas是一个基于NumPy的开源数据分析库,提供了灵活高效的数据结构,适用于数据...
    99+
    2024-01-24
    Pandas 数据筛选 基本方法
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作