脱机汉字识别的研究（最终版）㊣精品文档值得下载

全局维两层维两层维表十五手写汉字矩形弹性网格析取方向分解不变矩特征全局维两层维两层维全局维两层维两层维表十五印刷体汉字矩形弹性网格析取方向分解不变矩特征由上面的表十四和表十五，维数相同的特征相互比较并且与前面同维数黑像素分布特征比较后可以得到以下结论对于不变矩特征，是否将汉字方向分解对性能影响不大，方差比都很低，性能差。

绝大多数情况下前个不变矩优于后个不变矩，上面表中十四种情况只有两种情况例外六个仿射不变矩中第个优于其它五个，十四种情况里只有种情况例外。

手写体汉字不变矩特征的方差比高于印刷体汉字的不变矩特征。

这说明同个汉字不同印刷体之间不是简单的仿射变换关系，可以说找不到种显式的变换可以把种字体变换成另种字体。

但是手写汉字的变形在局部范围内可以看作是位移旋转伸缩的仿射变换，因此手写体汉字不变矩特征优于印刷体汉字。

对手写汉字，不变矩和仿射不变矩性能差不多，但对印刷体汉字，仿射不变矩明显劣于不变矩。

这说明了对于不是仿射变换的汉字变形，复杂的仿射不变矩并不比简单的不变矩好。

不论是采用梯度方向角作方向分解还是采用析取方向分解，也不论做何种弹性网格划分，不变矩和仿射不变矩特征都明显劣于黑像素分布特征。

虽然不变矩特征用于英文和数字的识别效果不错，但汉字比英文数字复杂得多，如何提高汉字不变矩特征的性能，这是值得进步探索的问题。

分类器设计上面讨论了汉字的特征，本部分将讨论分类器。

分类器本质是对多维特征空间的划分，每部分就是个类别。

分类器的建立需要个学习过程，也叫训练，通过这个过程确定不同类别的分界面的位置。

训练需要有样本集合，训练的目标是能正确对训练集样本分类，同时有定泛化能力，对不在训练集中的样本也尽可能正确分类。

分类器有很多不同的结构，下面详细论述。

模板分类器在训练时计算训练集的每类别样本矢量的平均值，作为模板，同时计算每类别的方差矢量。

设总共有个类别每个类别有个样本每个样本是维矢量第类别的第个训练样本为，第分量为，其中，第类别的模板矢量为，分量为第类别样本矢量的第分量的样本方差是。

模板矢量，分量形式为，样本方差分类时，计算待分类的矢量与每类别的模板的距离，这个距离是方差加权归化距离设待分类维矢量为，分量为则待分类矢量与第类模板的距离为，距离最小的值对应的类别就是所求矢量的类别。

模板分类器是最简单的分类器，用于样本线形可分的情况下。

下面对不同矩形弹性网格提取的不同维数的黑像素分布特征做实验，使用改进的矩形弹性网格划分方法，以得到最高识别率的方案。

汉字分解采用边缘梯度方向角分解，有四种边缘梯度方向角分解方法，由于它们性能差不多，我就使用边缘梯度方向角分解算法。

汉字样本使用上面用过的三套手写汉字和四套印刷体汉字，印刷体汉字中的仿宋体用于测试集，宋体楷体黑体和三套手写汉字共六套汉字作训练集。

测试时除了使用测试集数据外，还测试其对训练集分类能力，使用训练集手写的第套汉字和宋体汉字。

实验结果见表十六。

测试集仿宋体训练集第套手写训练集宋体全局维全局维全局维全局维两层维两层维两层维两层维两层维三层维表十六模板分类器对不同的改进矩形弹性网格黑像素分布特征分类的识别率从表十六可以得出以下结论特征的矢量维数越高，识别率越高除维矢量局部弹性网格识别率略低于全局弹性网格外，其余的同维数矢量局部弹性网格识别率均略高于全局弹性网格，同维数三层网格的识别率也略高于两层的网格，但差别不明显，因此提高模板分类的识别率关键在增加特征的矢量维数对训练集的识别率远远大于对测试集的识别率，这是因为分类器在训练的时候对训练集进行了适应，对测试集的识别率最高为。

模板分类器识别率最高的特征是改进的三层矩形弹性网格每层均为网格边缘梯度方向角分解并采用轮廓边缘方法对网格划分和方向分解的黑像素分布特征。

手写个常用汉字，提取这种特征，用上面训练好的模板分类器分类，得到识别率为。

由于训练集不够多，训练集手写样本只有三套，因此对不同风格手写汉字适应能力不强，如果训练集更大，则对这种特征的识别率会增加。

下面实验对不变矩特征使用模板分类器分类，识别率见表十七。

与上面使用黑像素分布特征的识别率比较，可以看出，不变矩特征对测试集仿宋体的识别率还不到，远远低于黑像素分布特征的左右边缘梯度方向角分解两层网格，见表，而对训练集的识别率都能达到。

这进步说明，分类器在训练的时候对训练集进行了适应，能对训练集达到很高的识别率。

对测试集的识别率说明，性能好的特征，方差比高，使用模板分类器的识别率就高。

类间类内方差比是有效的特征优劣的量度方法。

测试集仿宋体训练集第套手写训练集宋体析取分解两层网格维特征析取分解两层网格维特征梯度角分解两层网格维特征梯度角分解全局网格前四个不变矩维析取分解全局网格前四个不变矩维表十七模板分类器对不同矩形弹性网格不变矩特征分类的识别率神经网络网络分类器及改进模板分类器对样本线形可分的问题有很好的分类效果，而用神经网络作为分类器，则不论样本是否线形可分，均能达到优秀的分类效果。

两层网络能以任意精度逼近任意函数，只需隐含层神经元足够多。

网络分类器的输入为矢量，输出为其归属的类别。

用作分类器的两层网络可以设计成如下结构隐含层激励函数是函数，其输出在至之间输出层激励函数是线形函数。

输出层神经元数等于总类别数，对每个矢量的分类只有个神经元输出，其余输出，输出的神经元的下标就是分类结果。

这样使每个输出神经元只指示个类别，避免个神经元指示多个类别导致的不同类别互相影响。

隐含层神经元数决定神经网络的精度，隐含层神经元越多，训练后对训练集的适应越强，但隐含层神经元过多会导致网络的泛化能力差，即对非训练集的样本的分类能力差。

网络的训练使用误差反传算法。

对上述结构的两层网络，设输入矢量为，隐含层输出矢量为，网络实际输出矢量为，应输出矢量为，只有输入矢量所在类别对应的分量为，其余分量为是隐含层连接权矩阵，其每个行矢量就是输入矢量与每个隐含层神经元的连接权，在输入矢量末尾增加恒为的分量，对应的行矢量的最后个分量为阈值是输出层连接权矩阵，其每个行矢量就是隐含层输出矢量与每个输出层神经元的连接权，同样在隐含层输出矢量末尾增加恒为的分量，对应的行矢量的最后个分量为阈值隐含层激励函数，其导数，上面函数是矢量形式的函数，即因变量是自变量每个分量的函数值组合成的矢量。

为训练速率，为循环上限，为误差限。

训练算法如下作如下循环对每。

这个值就是可能的观察值，因此观察值数目。

为确定状态数，下面进行实验。

实验的汉字样本仍为上面用过的三套手写汉字和四套印刷体汉字，训练集与测试集也相同。

汉字特征是边缘梯度方向角分解的改进的两层矩形弹性网格黑像素分布特征维矢量。

待识别的汉字是级字库前个汉字，即总类别数为。

表二十二是不同状态数下的识别率。

图三十九是使用表中的数据绘制的识别率随隐马尔可夫过程状态数变化图。

状态数对测试集仿宋体识别率对训练集第套手写识别率对训练集宋体识别率表二十二隐马尔可夫过程分类不同状态数下的识别率状态数识别率测试集识别率训练集手写汉字识别率训练集宋体识别率图三十九表二十二的识别率随状态数变化图从表二十二和图三十九可以看出，状态数在小于的时候，识别率随状态数的增加而增加，状态数超过后，识别率变化不大。

因此，可以取状态数，状态数太多只会增加训练和识别汉字的时间，对识别率影响不大而状态数太少则识别率太小。

另外，从表和图还可以得出，对训练集的识别率，手写汉字显著大于印刷体汉字，尽管用于训练的手写和印刷体汉字是样多的。

而对测试集汉字的识别率则很低，还不到。

将待识别的汉字扩大到级字库前个汉字，即总类别数为，以便和前面所述的不同分类器比较。

汉字特征同是边缘梯度方向角分解的改进的两层矩形弹性网格黑像素分布特征维矢量，实验得到对测试集的识别率只有，对训练集第套手写汉字和宋体字的识别率分别是和。

此分类法对测试集的识别率太小，对训练集的识别率也不高。

总结通过上面的实验及分析讨论，我们可以得到整套汉字识别的方案。

在汉字已经切割好的情况下，对每个单字进行识别的较好的方法如下首先，用中值滤波去除汉字图像的噪音然后对汉字图像进行矩形弹性网格划分，划分之前先对汉字进行轮廓提取，在轮廓汉字上进行弹性网格划分，使用改进的层矩形弹性网格，每层都是的网格接着对原汉字进行方向分解，分解成横竖撇捺四个方向的子图像，分解的方法采用边缘梯度方向角分解法边缘梯度方向角分解法边缘梯度方向角分解法或者它们的改进，由于它们差别不大，使用任意种均可将划分好的网格使用于方向分解后的四个方向的子图像上，统计每个子图像中每个网格内黑像素占这个子图像的比例，所有的比例构成维的矢量，这个矢量作为汉字的特征用事先建立好的模板分类器对其分类，方法是比较其与每个类别的模板的方差加权归化欧氏距离，距离小的模板所在的类别就是结果模板分类器的建立方法先对训练样本提取前述维矢量的特征，再对每类别的样本特征求平均值和样本方差，平均值就是每类别的模板矢量，样本方差就是求加权归化欧氏距离的权值。

另外，方向分解采用滤波效果也不错，但滤波的缺点就是计算量太大。

如果带识别的汉字是训练集中的汉字，也就是说在识别人写的汉字前可以获得其字体作训练集，则可以使用多个小规模网络作分类器，这时汉字特征可以用维数少的矢量，如维矢量改进的两层矩形弹性网格划