写在前面
其实我之前写过一个简单的识别手写数字的程序,但是因为逻辑比较简单,而且要求比较严苛,是在50x50大小像素的白底图上手写黑色数字,并且给的训练材料也不够多,导致准确率只能五五开。所以这一次准备写一个加强升级版的,借此来提升我对Python处理文件与图片的能力。
这次准备加强难度:
被识别图片可以是任意大小; 不一定是白底图,只要数字颜色是黑色,周围环境是浅色就行; 加强识别手写数字的逻辑,提升准确率。因为我还没开始正式写,并且最近专业课程学习也比较紧迫,所以可能更新的比较慢。不过放心,代码质量肯定是不会下降的,我会尽我所能写的逻辑明确、通俗易懂点。
所以这次面向的人群是拥有一定Python基础,对数学算发有一点了解(识别图像的算法嘛)的人。
但毕竟我不是专业的,也没有看那么多论文,所以我这里运用的算法仅仅是我一个粗浅的想法,只是为了练手而已。如果和实际应用脱节,还望莫怪。
当然,如果诸位有什么比较好的想法,可以在下方评论或者私信我,我们可以探讨一下,相互进步。
整体思路
大纲
对图片的预处理
在最开始的时候,我们假设只拥有一个训练库,里面是从0到9的手写数字图案若干组。
所以我们首先应该将这些图案读入程序中,然后运用某种方式保存好,用来后面识别图片。
这里的图案我们假设是大小不一的,里面手写的数字也是有大有小。所以我们可以将包住手写数字图案的最小矩形给裁剪出来,然后将裁剪出来的图案统一给拉伸成相同大小的图案。
以上操作得出一个矩阵,这个矩阵的值是图案的灰度值。对于训练用的图片和被检测的图片我们都是这样处理。
图像识别的算法处理
我这里想用两个方法来让数字识别准确点:
识别所写数字的“洞数”; 将图片转为1xn的向量,然后根据根据训练图片分出的类对被识别图片图片进行分类。洞数就是某个数字是否有闭合的曲线,比如说7没有洞,6有一个洞,8有两个洞。所以我们根据洞数可以分成以下三类
0洞:1, 2, 3, 4, 5, 7
1洞:6, 9, 0
2洞:8
但是因为各种手写差异,比如说6, 9, 8之类的没有闭合,4上面闭合,所以会导致下面这种可能情况
0洞:1, 2, 3, 4, 5, 6, 7, 9
1洞:6, 8, 9, 0
2洞:8
虽然说这样分类0洞占大多数,但是聊胜于无。
对于将图片转为向量的意思就是将图片原本的二维矩阵展开称为一维向量。这个用numpy的函数可以可以很简单的实现。
对于这个分类,下面我就简单的讲一下原理。
假设我们在二维平面上有两个点A=(1,1)和B=(5,5),我现在再放一个点C=(2,2),那么请问,C点离哪一个更近?
新闻热点
疑难解答