Python用list或dict字段模式读取文件的方法

2020-02-23 04:15:23

字体：大中小

来源：转载

供稿：网友

前言

Python用于处理文本数据绝对是个利器，极为简单的读取、分割、过滤、转换支持，使得开发者不需要考虑繁杂的流文件处理过程（相对于JAVA来说的，嘻嘻）。博主自己工作中，一些复杂的文本数据处理计算，包括在HADOOP上编写Streaming程序，均是用Python完成。

而在文本处理的过程中，将文件加载内存中是第一步，这就涉及到怎样将文件中的某一列映射到具体的变量的过程，最最愚笨的方法，就是按照字段的下标进行引用，比如这样子：

# fields是读取了一行，并且按照分隔符分割之后的列表user_id = fields[0]user_name = fields[1]user_type = fields[2]

如果按照这种方式读取，一旦文件有顺序、增减列的变动，代码的维护是个噩梦，这种代码一定要杜绝。

本文推荐两种优雅的方式来读取数据，都是先配置字段模式，然后按照模式读取，而模式则有字典模式和列表模式两种形式；

读取文件，按照分隔符分割成字段数据列表

首先读取文件，按照分隔符分割每一行的数据，返回字段列表，以便后续处理。

代码如下：

def read_file_data(filepath): '''根据路径按行读取文件, 参数filepath：文件的绝对路径 @param filepath: 读取文件的路径 @return: 按/t分割后的每行的数据列表 ''' fin = open(filepath, 'r') for line in fin:  try:   line = line[:-1]   if not line: continue  except:   continue    try:   fields = line.split("/t")  except:   continue  # 抛出当前行的分割列表  yield fields fin.close()

使用yield关键字，每次抛出单个行的分割数据，这样在调度程序中可以用for fields in read_file_data(fpath)的方式读取每一行。

映射到模型之方法1：使用配置好的字典模式，装配读取的数据列表

这种方法配置一个{“字段名”: 字段位置}的字典作为数据模式，然后按照该模式装配读取的列表数据，最后实现用字典的方式访问数据。

所使用的函数：

@staticmethoddef map_fields_dict_schema(fields, dict_schema): """根据字段的模式，返回模式和数据值的对应值；例如 fields为['a','b','c'],schema为{'name':0, 'age':1}，那么就返回{'name':'a','age':'b'} @param fields: 包含有数据的数组，一般是通过对一个Line String通过按照/t分割得到 @param dict_schema: 一个词典，key是字段名称，value是字段的位置； @return: 词典，key是字段名称，value是字段值 """ pdict = {} for fstr, findex in dict_schema.iteritems():  pdict[fstr] = str(fields[int(findex)]) return pdict

有了该方法和之前的方法，可以用以下的方式读取数据：

# coding:utf8"""@author: www.crazyant.net测试使用字典模式加载数据列表优点：对于多列文件，只通过配置需要读取的字段，就能读取对应列的数据缺点：如果字段较多，每个字段的位置配置，较为麻烦"""import file_utilimport pprint # 配置好的要读取的字典模式，可以只配置自己关心的列的位置dict_schema = {"userid":0, "username":1, "usertype":2}for fields in file_util.FileUtil.read_file_data("userfile.txt"): # 将字段列表，按照字典模式进行映射 dict_fields = file_util.FileUtil.map_fields_dict_schema(fields, dict_schema) pprint.pprint(dict_fields)

上一篇：深入理解Python中变量赋值的问题

下一篇：Python正则表达式实现截取成对括号的方法