Python pandas常用函数详解

2020-02-22 23:09:24

字体：大中小

来源：转载

供稿：网友

本文研究的主要是pandas常用函数，具体介绍如下。

1 import语句

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport datetimeimport re

2 文件读取

df = pd.read_csv(path='file.csv')
参数：header=None 用默认列名，0，1，2，3...
names=['A', 'B', 'C'...] 自定义列名
index_col='A'|['A', 'B'...] 给索引列指定名称，如果是多重索引，可以传list
skiprows=[0,1,2] 需要跳过的行号，从文件头0开始，skip_footer从文件尾开始
nrows=N 需要读取的行数，前N行
chunksize=M 返回迭代类型TextFileReader，每M条迭代一次，数据占用较大内存时使用
sep=':'数据分隔默认是','，根据文件选择合适的分隔符，如果不指定参数，会自动解析
skip_blank_lines=False 默认为True，跳过空行，如果选择不跳过，会填充NaN
converters={'col1', func} 对选定列使用函数func转换，通常表示编号的列会使用（避免转换成int）
dfjs = pd.read_json('file.json') 可以传入json格式字符串
dfex = pd.read_excel('file.xls', sheetname=[0,1..]) 读取多个sheet页，返回多个df的字典

3 数据预处理

df.duplicated() 返回各行是否是上一行的重复行
df.drop_duplicates() 删除重复行，如果需要按照列过滤，参数选填['col1', 'col2',...]
df.fillna(0) 用实数0填充na
df.dropna() axis=0|1 0-index 1-column
how='all'|'any' all-全部是NA才删 any-只要有NA就全删
del df['col1'] 直接删除某一列
df.drop(['col1',...], aixs=1) 删除指定列，也可以删除行
df.column = col_lst 重新制定列名
df.rename(index={'row1':'A'}, 重命名索引名和列名
columns={'col1':'A1'})
df.replace(dict) 替换df值，前后值可以用字典表，{1:‘A', '2':'B'}

def get_digits(str):
m = re.match(r'(/d+(/./d+)?)', str.decode('utf-8'))
if m is not None:
return float(m.groups()[0])
else:
return 0
df.apply(get_digits) DataFrame.apply，只获取小数部分，可以选定某一列或行
df['col1'].map(func) Series.map，只对列进行函数转换

pd.merge(df1, df2, on='col1',
how='inner'，sort=True) 合并两个DataFrame，按照共有的某列做内连接（交集），outter为外连接（并集），结果排序

pd.merge(df1, df2, left_on='col1',
right_on='col2') df1 df2没有公共列名，所以合并需指定两边的参考列

pd.concat([sr1, sr2, sr3,...], axis=0) 多个Series堆叠成多行，结果仍然是一个Series
pd.concat([sr1, sr2, sr3,...], axis=1) 多个Series组合成多行多列，结果是一个DataFrame，索引取并集，没有交集的位置填入缺省值NaN

df1.combine_first(df2) 用df2的数据补充df1的缺省值NaN，如果df2有更多行，也一并补上

上一篇：Python编程argparse入门浅析

下一篇：使用apidoc管理RESTful风格Flask项目接口文档方法

学习交流

笔记本开机提示error loading os错误的问

笔记本开机提示error loading os错误的问题怎么解决...

热门图片

猜你喜欢的新闻

猜你喜欢的关注