对Python生成汉字字库文字,以及转换为文字图片的实例详解

2020-02-16 00:57:33

字体：大中小

来源：转载

供稿：网友

笔者小白在收集印刷体汉字的深度学习训练集的时候，一开始就遇到的了一个十分棘手的问题，就是如何获取神经网络的训练集数据。通过上网搜素，笔者没有找到可用的现成的可下载的汉字的训练集，于是笔者采用了代码自建汉字的训练集数据。

这里采用的是python编写程序，需要import 的python库请提前安装。

那么，首先如何用python输出汉字字库的文字？

笔者查到在计算机中汉字编码范围是0x4E00到0x9FA5，利用unichr（）可以将十六进制的编码转成人类可读的字。

这里扩展一下在python库中什么是unichr（），以及什么是chr（）和ord（）。

chr( )函数用一个范围在range（256）内的（就是0～255）整数作参数，返回一个对应的字符。

unichr( )跟它一样，只不过返回的是Unicode字符，这个从Python 2.0才加入的unichr( )的参数范围依赖于你的Python是如何被编译的。

如果是配置为USC2的Unicode，那么它的允许范围就是range（65536）或0x0000-0xFFFF；如果配置为UCS4，那么这个值应该是range（1114112）或0x000000-0x110000。

如果提供的参数不在允许的范围内，则会报一个ValueError的异常。

ord( )函数是chr( )函数（对于8位的ASCII字符串）或unichr( )函数（对于Unicode对象）的配对函数，它以一个字符（长度为1的字符串）作为参数，返回对应的ASCII数值，或者Unicode数值，如果所给的Unicode字符超出了你的Python定义范围，则会引发一个TypeError的异常。

接下来就是把unicode编码的字写入文件呢，如果直接用open()的话，会提示UnicodeEncodeError: ‘ascii' codec can't encode character u'/u4e00' in position 0: ordinal not in range(128)

这里就是涉及到python读写文件时候的两种方式了，一种是open（），还一种是codecs.open( )。

对于open（）这个python的内置函数来说，打开文件的方式一般为：

f=open(file_name,access_mode = 'r',buffering = -1)。

file_name就是文件的路径加文件名字，不加路径则文件会存放在python程序的路径下，

access_mode就是操作文件的模式，主要有r,w,rb，wb等，细节网上一大堆,buffering = -1是用于指示访问文件所采用的缓存方式。0表示不缓存；1表示只缓存一行，n代表缓存n行。如果不提供或为负数，则代表使用系统默认的缓存机制。

>>> fr = open('test1.txt','wb')>>> line1 = "我是谁">>> fr.write(line1)

打开以后就是写和读的操作。但是用open方法打开会有一些问题。open打开文件只能写入str类型,不管字符串是什么编码方式。所以对于写入文件的数据的编码不统一的时候，需要用到codecs.open（）。

这种方法可以指定一个编码打开文件，使用这个方法打开的文件读取返回的将是unicode。

上一篇：Python删除n行后的其他行方法

下一篇：对python3中, print横向输出的方法详解

学习交流

如何重启打印机打印服务

如何重启打印机打印服务...

热门图片

猜你喜欢的新闻

猜你喜欢的关注

新闻热点

明兮语文停止运营发展资金链断裂

2020-02-16 09:52:44

2006年李俊编写了“熊猫烧香”电脑病毒，现在过得怎么样？

2020-02-15 15:53:44

谷歌合并Alphabet旗下子公司Jigsaw，未来会如何发展？

2020-02-11 22:02:38

NASA说今天地球引力最小能让扫帚立起来？原因很简单

2020-02-11 21:45:12

TCL集团宣布今日起正式更名为“TCL科技”

2020-02-07 10:36:18

黑莓曲终落，情怀价几何？

2020-02-06 12:16:44

疑难解答

图片精选

网友关注