Pandas读取并修改excel的示例代码

2020-02-16 01:10:36

字体：大中小

来源：转载

供稿：网友

一、前言

最近总是和excel打交道，由于数据量较大，人工来修改某些数据可能会有点浪费时间，这时候就使用到了Python数据处理的神器—–Pandas库，话不多说，直接上Pandas。

二、安装

这次使用的python版本是python2.7，安装python可以去python的官网进行下载，这里不多说了。

安装完成后使用Python自带的包管理工具pip可以很快的安装pandas。

pip install pandas

如果使用的是Anaconda安装的Python，会自带pandas。

三、read_excel()介绍

首先可以先创建一个excel文件当作实验数据，名称为example.xlsx，内容如下：

name	age	gender
John	30	male
Mary	22	female
Smith	32	male

这里是很简单的几行数据，我们来用pandas实际操作一下这个excel表。

# coding:utf-8import pandas as pddata = pd.read_excel('example.xlsx', sheet_name='Sheet1')print data

结果如下：

这里使用了read_excel()方法来读取excel，来看一个read_excel()这个方法的API，这里只截选一部分经常使用的参数：

pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None)

这里主要参数为io，sheet_name，header，usecols和names

io：excel文件，如果命名为中文，在python2.7中，需要使用decode()来解码成unicode字符串，例如： pd.read_excel('示例'.decode('utf-8)) sheet_name：返回指定的sheet，如果将sheet_name指定为None，则返回全表，如果需要返回多个表，可以将sheet_name指定为一个列表，例如['sheet1', 'sheet2'] header：指定数据表的表头，默认值为0，即将第一行作为表头。 usecols：读取指定的列，例如想要读取第一列和第二列数据：

pd.read_excel("example.xlsx", sheet_name=None, usecols=[0, 1])

四、使用

这里先来一个在机器学习中经常使用的：将所有gender为male的值改为0，female改为1。

# coding:utf-8import pandas as pdfrom pandas import DataFrame# 读取文件data = pd.read_excel("example.xlsx", sheet_name="Sheet1")# 找到gender这一列，再在这一列中进行比较data['gender'][data['gender'] == 'male'] = 0data['gender'][data['gender'] == 'female'] = 1print data

结果如下：