体识别率两层网格维两层网格维全局网格维表二十不同的改进矩形弹性网格黑像素分布特征用网络分类识别率比较从表二十可以看出,识别率随网格特征的维数增加而增加,并且对测试集和对训练集的识别率非常接近,然而,与模板分类器分类结果比较,网络分类的识别率远差于模板分类器。可见,在求每类别的模板时,简单的求平均比用训练算法更好。隐马尔可夫过程分类器把特征的每个分量的出现看作是个隐马尔可夫过程个状态转移的马尔可夫链以及在链上每个状态的观察值。设为状态数目为可能出现的观察值数目是马尔可夫链的状态转移矩阵,为矩阵,分量表示第状态转移到第状态的概率是观察值矩阵,为矩阵,分量表示第状态下观察值出现的概率。由隐马尔可夫过程得到观察值序列的步骤如下开始处于状态根据转移概率转移到下状态,设为根据状态的观察值概率得到个观察值重复和,直到获得特定长度的观察值序列。对于给定的隐马尔可夫过程参数和观察值序列,可以计算出此观察值序列出现的概率。因此,若把汉字特征看作观察值序列,通过训练对每个汉字建立个隐马尔可夫过程,那么对待识别的汉字,计算在每个汉字对应的隐马尔可夫过程下,这个待识别汉字的观察值序列出现的概率,概率大的隐马尔可夫过程对应的汉字就是识别结果。对每个汉字建立隐马尔可夫过程,就是对隐马尔可夫过程的训练,可以使用算法,此算法需要输入矩阵的初始值,考虑到各个状态地位相等,对转移矩阵,每个状态转移回到自身的概率取到均匀分布的随机值,转移到其他状态的概率均等对观察值矩阵,每个状态下各个观察值出现的概率相等。输入为同个汉字的训练样本集,训练的目标是使训练样本集的观察值序列有尽可能高的出现概率。注意,训练每个汉字对应的隐马尔可夫过程只需要输入此汉字的训练样本集,不需要输入其它汉字的训练样本,这是和神经网络不同的地方。将隐马尔可夫过程用于改进的矩形弹性网格黑像素分布特征的识别。考虑到矢量的每个分量是个比例,不会超过,将其乘以后去除小数部分,则保留的整数部分的值将会出现个,分别是„。这个值就是可能的观察值,因此观察值数目。为确定状态数,下面进行实验。实验的汉字样本仍为上面用过的三套手写汉字和四套印刷体汉字,训练集与测试集也相同。汉字特征是边缘梯度方向角分解的改进的两层矩形弹性网格黑像素分布特征维矢量。待识别的汉字是级字库前个汉字,即总类别数为。表二十二是不同状态数下的识别率。图三十九是使用表中的数据绘制的识别率地去除汉字图像的噪音,包括笔画边缘的毛刺,复杂度又极低,因此中值滤波器可以作为汉字图像噪声去除的好算法。下面的实些多余的噪声点也去除了。图三是没有滤波就直接细化的结果,图四是滤波后再细化的结果。可以看到不滤波就直接细化的汉字骨架上有不少多余的短笔画,这是由于原汉字的毛刺造成的,这些多余的毛刺或者笔画中的空洞在细图像的像素总数。每个单字的图像像素若固定,例如,则固定,此算法复杂度为常数。图是手写汉字的图像,每个字大小是像素。图二是用上述中值滤波器对其滤波的结果。可以看到,滤波后汉字的边缘光滑多了,的个数,如果大于或等于,则输出图像的这个像素为黑像素,否则为白像素。这是因为对二值图像的九个像素排序后,排在中间的像素为黑像素当且仅当九个像素中黑像素的总数大于或等于。此算法的复杂度为,为与它相邻的八个像素的灰度排序,取排在中间的像素的灰度值作输出图像的这个像素的灰度。将其用于对汉字二值图像滤波,可以得到很简单的不需要排序的算法遍历图像的每个像素,计算它和与它相邻的八个像素中黑像素不去除,会影响特征的提取,进而影响对其识别。对噪声的去除是很重要的预处理过程。中值滤波器具有能有效去除数字图像的噪声而又不会使图像中物体边界模糊的特点。它的般算法为遍历图像的每个像素,将它和方差比是般的特征优劣量度方法,不仅适用于汉字特征的比较,只要两种特征的维数相同。噪声去除手写的汉字会因墨与纸的关系而出现毛刺,也就是笔画边缘凹凸不平,而且笔画内部也会有空洞,这些与汉字无关的噪声如果优劣。对于维数不同的特征,仍然需要通过整个识别过程得到的正确识别率来比较,这时两种特征下的分类器因为特征的维数不同结构会显著不同了,这样得到的结果严格来说是特征加上此特征下的分类器共同作用下的结果。方优劣。对于维联机汉字识别,因为其直接得到汉字的笔划顺序方向以及提笔落笔等信息,较脱机汉字识别更容易获得汉字结构,也就是说脱机汉字识别难度更大。脱机汉字识别的般过程是,将扫描入计算机的汉字图像经去噪行字切割归化等预处理后,对每个单字图像提取其特征,然后根据特征使用分类器对其识别,得到的类别就是识别结果,可进步对其进行基于上下文语法的后处理,降低误识率。本文尝试探讨汉字图像去噪方法各种特征提取方法以及不同分类器的优劣,并尝试找出整套可行的汉字识别方案。本文没有涉及汉字行字切割和基于语法的后处理。本文处理的是二值化后的单字的图像,代表白像素,代表黑像素。新的特征优劣量度标准在探讨汉字特征之前,先对特征优劣量度标准作分析。如何评价两种特征提取方案的优劣般的方法是设计个分类器,用从训练样本提取出来的种特征训练分类器,然后用从测试样本提取出来的这种特征测试,可以获得正确识别率。正确识别率高的特征优秀。这个方法依赖整个识别过程,分类器的结构对其影响很大,有可能出现用不同分类器得到的好的方案不致。特征的优劣应该是不依赖于分类器的。因此,我提出了个新的特征优劣量度标准,这是不依赖于分类器的特征优劣量度标准。为获得独立于分类器的特征优劣量度方法,考虑何谓优秀的特征。同类别的样本提取出的特征的值尽可能接近,不同类别的样本提取出的特征的值尽可能有大的差异,这样的特征就能很好地表示出类别间的差异类别内的共性,这就是好的特征。反之,若同类别的样本提取出来的特征的值有很大差异,而不同类别的样本提取出的特征的值差异却不大,那这样的特征就不能很好地区分类别了。用样本方差能量度这种差异的大小各个样本的特征的值接近,表现为样本方差小各个样本的特征的值差异大,表现为样本方差大。特征般为矢量,标量看成是维矢量。个维矢量,„的样本方差为其中为样本均值用每类别中的所有样本特征的平均值作此类别的特征,类就有个矢量,用这个矢量计算的样本方差就是类间方差,此值越大表明不同类别之间的特征的值差异越大。在每类别中计算这类别所有样本的特征的方差,就是类内方差,类就有个方差,求它们的平均值,就是类内方差均值,此值越小表明同类别内样本的特征的值越接近。定义类间类内方差比简称方差比为类间方差除以类内方差均值,此值越大,表明这种特征越好。就以这个方差比作为特征优劣量度标准。设总共有个类别,每个类别有个样本,是第类的第个样本,是第类的样本均值是所有类样本均值的平均值方差比的数学表达式如下注意,在求样本方差的时候需计算两个矢量的距离的平方,而这个距离的平方是与矢量的维数有关的,是每维距离的平方的和,维数越多,求和项越多,也就是说维数越多,
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
第 1 页 / 共 58 页
第 2 页 / 共 58 页
第 3 页 / 共 58 页
第 4 页 / 共 58 页
第 5 页 / 共 58 页
第 6 页 / 共 58 页
第 7 页 / 共 58 页
第 8 页 / 共 58 页
第 9 页 / 共 58 页
第 10 页 / 共 58 页
第 11 页 / 共 58 页
第 12 页 / 共 58 页
第 13 页 / 共 58 页
第 14 页 / 共 58 页
第 15 页 / 共 58 页
预览结束,还剩
43 页未读
阅读全文需用电脑访问
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。
1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。
2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。
3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。
4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。
5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。