首页 > 编程 > Python > 正文

python pandas库的安装和创建

2020-02-16 00:34:20
字体:
来源:转载
供稿:网友

pandas 对于数据分析的人员来说都是必须熟悉的第三方库,pandas 在科学计算上有很大的优势,特别是对于数据分析人员来说,相当的重要。python中有了Numpy ,但是Numpy 还是比较数学化,还需要有一种库能够更加具体的代表数据模型,我们都非常的清楚在数据处理中EXCEL 扮演着非常重要的作用,表格的模式是数据模型最好的一种展现形式。

pandas 是对表格数据模型在python上的模拟,它有简单的像SQL 对数据的处理,能够方便的在python上实现。

pandas 的安装

pandas 在python上的安装同样的使用pip进行:

pip install pandas

pandas 创建对象

pandas 有两种数据结构:SeriesDataFrame

Series

Series 像python中的数据list 一样,每个数据都有自己的索引。从list创建 Series

>>> import pandas as pd>>> s1 = pd.Series([100,23,'bugingcode'])>>> s10   1001   232 bugingcodedtype: object>>>

Series 中添加相应的索引:

>>> import numpy as np>>> ts = pd.Series(np.random.randn(365), index=np.arange(1,366))>>> ts

在index中设置索引值是一个从1到366的值。

Series 的数据结构最像的是python中的字典,从字典中创建Series

sd = {'xiaoming':14,'tom':15,'john':13}s4 = pd.Series(sd)

这时候可以看到Series 已经是自带索引index。

pandas 本身跟 python的另外一个第三方库Matplotlib 有很多的连接,Matplotlib 一个最经常用到的是用来展示数据的,如果还对Matplotlib 不了解的话,后面的章节会进行介绍,现在先拿过来直接用下,如果还没有安装的话,一样的用pip命令安装 pip install Matplotlib , 展示如下数据:

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltts = pd.Series(np.random.randn(365), index=np.arange(1,366))ts.plot()plt.show()

一个不规则的图形,在数据分析中,时间是一个重要的特性,因为很多数据都是跟时间是有关系的,销售额跟时间有关系,天气跟时间有关系。。。,在pandas 中也提供了关于时间的一些函数,使用date_range 生成一系列时间。

>>> pd.date_range('01/01/2017',periods=365)DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',    '2017-01-05', '2017-01-06', '2017-01-07', '2017-01-08',    '2017-01-09', '2017-01-10',    ...    '2017-12-22', '2017-12-23', '2017-12-24', '2017-12-25',    '2017-12-26', '2017-12-27', '2017-12-28', '2017-12-29',    '2017-12-30', '2017-12-31'],    dtype='datetime64[ns]', length=365, freq='D')>>>            
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表