笔者小白在收集印刷体汉字的深度学习训练集的时候,一开始就遇到的了一个十分棘手的问题,就是如何获取神经网络的训练集数据。通过上网搜素,笔者没有找到可用的现成的可下载的汉字的训练集,于是笔者采用了代码自建汉字的训练集数据。
这里采用的是python编写程序,需要import 的python库请提前安装。
那么,首先如何用python输出汉字字库的文字?
笔者查到在计算机中汉字编码范围是0x4E00到0x9FA5,利用unichr()可以将十六进制的编码转成人类可读的字。
这里扩展一下在python库中什么是unichr(),以及什么是chr()和ord()。
chr( )函数用一个范围在range(256)内的(就是0~255)整数作参数,返回一个对应的字符。
unichr( )跟它一样,只不过返回的是Unicode字符,这个从Python 2.0才加入的unichr( )的参数范围依赖于你的Python是如何被编译的。
如果是配置为USC2的Unicode,那么它的允许范围就是range(65536)或0x0000-0xFFFF;如果配置为UCS4,那么这个值应该是range(1114112)或0x000000-0x110000。
如果提供的参数不在允许的范围内,则会报一个ValueError的异常。
ord( )函数是chr( )函数(对于8位的ASCII字符串)或unichr( )函数(对于Unicode对象)的配对函数,它以一个字符(长度为1的字符串)作为参数,返回对应的ASCII数值,或者Unicode数值,如果所给的Unicode字符超出了你的Python定义范围,则会引发一个TypeError的异常。
接下来就是把unicode编码的字写入文件呢,如果直接用open()的话,会提示UnicodeEncodeError: ‘ascii' codec can't encode character u'/u4e00' in position 0: ordinal not in range(128)
这里就是涉及到python读写文件时候的两种方式了,一种是open(),还一种是codecs.open( )。
对于open()这个python的内置函数来说, 打开文件的方式一般为:
f=open(file_name,access_mode = 'r',buffering = -1)。
file_name就是文件的路径加文件名字,不加路径则文件会存放在python程序的路径下,
access_mode就是操作文件的模式,主要有r,w,rb,wb等,细节网上一大堆,buffering = -1是用于指示访问文件所采用的缓存方式。0表示不缓存;1表示只缓存一行,n代表缓存n行。如果不提供或为负数,则代表使用系统默认的缓存机制。
>>> fr = open('test1.txt','wb')>>> line1 = "我是谁">>> fr.write(line1)
打开以后就是写和读的操作。但是用open方法打开会有一些问题。open打开文件只能写入str类型,不管字符串是什么编码方式。所以对于写入文件的数据的编码不统一的时候,需要用到codecs.open()。
这种方法可以指定一个编码打开文件,使用这个方法打开的文件读取返回的将是unicode。
新闻热点
疑难解答