毕业论文：脱机汉字识别的研究㊣精品文档值得下载

《毕业论文：脱机汉字识别的研究》修改意见稿

1、以下这些语句存在若干问题，包括语法错误、标点使用不当、语句不通畅及信息不完整——“.....见表，而对训练集的识别率都能达到。这进步说明，分类器在训练的时候对训练集进行了适应，能对训练集达到很高的识别率。对测试集的识别率说明，性能好的特征，方差比高，使用模板分类器的识别率就高。类间类内方差比是有效的特征优劣的量度方法。测试集仿宋体训练集第套手写训练集宋体析取分解两层网格维特征析取分解两层网格维特征梯度角分解两层网格维特征梯度角分解全局网格前四个不变矩维析取分解全局网格前四个不变矩维表十七模板分类器对不同矩形弹性网格不变矩特征分类的识别率神经网络网络分类器及改进模板分类器对样本线形可分的问题有很好的分类效果，而用神经网络作为分类器，则不论样本是否线形可分，均能达到优秀的分类效果。两层网络能以任意精度逼近任意函数，只需隐含层神经元足够多。网络分类器的输入为矢量，输出为其归属的类别。用作分类器的两层网络可以设计成如下结构隐含层激励函数是函数......”。

2、以下这些语句存在多处问题，具体涉及到语法误用、标点符号运用不当、句子表达不流畅以及信息表述不全面——“.....上面函数是矢量形式的函数，即因变量是自变量每个分量的函数值组合成的矢量。为训练速率，为循环上限，为误差限。训练算法如下作如下循环对每个测试集样本末尾增加恒为的分量，计算更新连接权矩阵计算训练集样本实际输出与应输出的总误差的计算见的公式。当总误差小于误差限或者循环次数多于循环上限时，退出循环，训练结束。末尾增加恒为的分量实验的汉字样本仍为上面用过的三套手写汉字和四套印刷体汉字，训练集与测试集也相同。我先使用边缘梯度方向角分解的两层矩形弹性网格黑像素分布特征维矢量实验。输入矢量为维，隐含层神经元也为，输出层神经元为汉字总数。在训练的过程中，我发现总误差随训练循环次数增加下降得非常缓慢，基本维持在个很高的水平上。我加大训练速率到不能再增加再增加则总误差将随循环次数增加急剧增加，收敛速度仍旧没有什么改变。我减少类别数即待识别汉字总数，到乃至，收敛速度仍旧没有什么改变......”。

3、以下这些语句在语言表达上出现了多方面的问题，包括语法错误、标点符号使用不规范、句子结构不够流畅，以及内容阐述不够详尽和全面——“.....细化细化的目的是为减少笔画粗细对汉字特征的影响。不同人写的同个字提取出的特征应该尽可能相同，但不同人写的字粗细不同，同个字内部笔画的粗细也会有不同，这些不同会影响提取出的特征。细化的思路是反复遍历图像，删除处在边界上的满足条件的黑像素，直到得到保持原物体拓扑结构的单像素宽的线。细化的关键在于寻找可以删除的黑像素处在边界上且删除后不会改变物体拓扑结构的黑像素可以删除。我通过分析，找到了如下的条件图五相邻像素的字母代号如上图，为待处理的像素，其余八个像素是与相邻的像素，它们的代号见图中的字母。如果为，则其不是黑像素，不用处理。如果为，有个是，则是边界点，考虑其能否被删除。又因为地位相同，这里只讨论为的情况。如果与相邻的八个像素至多有个黑像素，则是线段的端点，不能删除如果也为，同时左边那列至少有个像素为，右面那列至少有个像素为，此时若删除，将破坏黑像素的连通性，因此不能删如果为，左边右边两列中有列全为......”。

4、以下这些语句该文档存在较明显的语言表达瑕疵，包括语法错误、标点符号使用不规范，句子结构不够顺畅，以及信息传达不充分，需要综合性的修订与完善——“.....将其标记，遍历完后在原图像中将标记应被删除的改为直到没有黑像素被删除为止，退出循环。每个循环都对图像做四次遍历，这是因为如果四个方向的边界都在同次遍历中细化会导致在物体拐角处出现多余毛刺边，所以我分四次遍历，每次删除个方向的边界。这个算法的复杂度为。汉字分解采用边缘梯度方向角分解，有四种边缘梯度方向角分解方法，由于它们性能差不多，我就使用边缘梯度方向角分解算法。汉字样本使用上面用过的三套手写汉字和四套印刷体汉字，印刷体汉字中的仿宋体用于测试集，宋体楷体黑体和三套手写汉字共六套汉字作训练集。测试时除了使用测试集数据外，还测试其对训练集分类能力，使用训练集手写的第套汉字和宋体汉字。实验结果见表十六......”。

5、以下这些语句存在多种问题，包括语法错误、不规范的标点符号使用、句子结构不够清晰流畅，以及信息传达不够完整详尽——“.....输出层神经元数等于总类别数，对每个矢量的分类只有个神经元输出，其余输出，输出的神经元的下标就是分类结果。这样使每个输出神经元只指示个类别，避免个神经元指示多个类别导致的不同类别互相影响。隐含层神经元数决定神经网络的精度，隐含层神经元越多，训练后对训练集的适应越强，但隐含层神经元过多会导致网络的泛化能力差，即对非训练集的样本的分类能力差。网络的训练使用误差反传算法。对上述结构的两层网络，设输入矢量为，隐含层输出矢量为，网络实际输出矢量为，应输出矢量为，只有输入矢量所在类别对应的分量为，其余分量为是隐含层连接权矩阵，其每个行矢量就是输入矢量与每个隐含层神经元的连接权，在输入矢量末尾增加恒为的分量，对应的行矢量的最后个分量为阈值是输出层连接权矩阵，其每个行矢量就是隐含层输出矢量与每个输出层神经元的连接权，同样在隐含层输出矢量末尾增加恒为的分量，对应的行矢量的最后个分量为阈值隐含层激励函数......”。

6、以下这些语句存在多方面的问题亟需改进，具体而言：标点符号运用不当，句子结构条理性不足导致流畅度欠佳，存在语法误用情况，且在内容表述上缺乏完整性。——“.....图二是用上述中值滤波器对其滤波的结果。可以看到，滤波后汉字的边缘光滑多了，些多余的噪声点也去除了。图三是没有滤波就直接细化的结果，图四是滤波后再细化的结果。可以看到不滤波就直接细化的汉字骨架上有不少多余的短笔画，这是由于原汉字的毛刺造成的，这些多余的毛刺或者笔画中的空洞在细化后就会形成多余的短笔画，而滤波后再细化的汉字骨架就少了这样的毛刺笔画。中值滤波确能很好地去除汉字图像的噪音，包括笔画边缘的毛刺，复杂度又极低，因此中值滤波器可以作为汉字图像噪声去除的好算法。下面的实验使用的汉字图像都是经过中值滤波处理后的图像。图手写汉字图像图二中值滤波后的图像图三未滤波直接细化的结果图四中值滤波后细化的结果归化预处理归化预处理的目的是减少不同人写的字的差异，使不同风格的同个汉字能提取出相近的特征。不同的特征提取方法需要的归化预处理是不同的，下面先将不同的归化预处理方法给出......”。

7、以下这些语句存在标点错误、句法不清、语法失误和内容缺失等问题，需改进——“.....只要两种特征的维数相同。噪声去除手写的汉字会因墨与纸的关系而出现毛刺，也就是笔画边缘凹凸不平，而且笔画内部也会有空洞，这些与汉字无关的噪声如果不去除，会影响特征的提取，进而影响对其识别。对噪声的去除是很重要的预处理过程。中值滤波器具有能有效去除数字图像的噪声而又不会使图像中物体边界模糊的特点。它的般算法为遍历图像的每个像素，将它和与它相邻的八个像素的灰度排序，取排在中间的像素的灰度值作输出图像的这个像素的灰度。将其用于对汉字二值图像滤波，可以得到很简单的不需要排序的算法遍历图像的每个像素，计算它和与它相邻的八个像素中黑像素的个数，如果大于或等于，则输出图像的这个像素为黑像素，否则为白像素。这是因为对二值图像的九个像素排序后，排在中间的像素为黑像素当且仅当九个像素中黑像素的总数大于或等于。此算法的复杂度为，为图像的像素总数。每个单字的图像像素若固定，例如，则固定，此算法复杂度为常数。图是手写汉字的图像......”。

8、以下文段存在较多缺陷，具体而言：语法误用情况较多，标点符号使用不规范，影响文本断句理解；句子结构与表达缺乏流畅性，阅读体验受影响——“.....识别率越高除维矢量局部弹性网格识别率略低于全局弹性网格外，其余的同维数矢量局部弹性网格识别率均略高于全局弹性网格，同维数三层网格的识别率也略高于两层的网格，但差别不明显，因此提高模板分类的识别率关键在增加特征的矢量维数对训练集的识别率远远大于对测试集的识别率，这是因为分类器在训练的时候对训练集进行了适应，对测试集的识别率最高为。模板分类器识别率最高的特征是改进的三层矩形弹性网格每层均为网格边缘梯度方向角分解并采用轮廓边缘方法对网格划分和方向分解的黑像素分布特征。手写个常用汉字，提取这种特征，用上面训练好的模板分类器分类，得到识别率为。由于训练集不够多，训练集手写样本只有三套，因此对不同风格手写汉字适应能力不强，如果训练集更大，则对这种特征的识别率会增加。下面实验对不变矩特征使用模板分类器分类，识别率见表十七。与上面使用黑像素分布特征的识别率比较，可以看出，不变矩特征对测试集仿宋体的识别率还不到......”。

9、以下这些语句存在多方面瑕疵，具体表现在：语法结构错误频现，标点符号运用失当，句子表达欠流畅，以及信息阐述不够周全，影响了整体的可读性和准确性——“.....那么或者是端点或者删除会破坏黑像素连通性，不能删除如果为，和为，或为，则删除会破坏黑像素连通性，不能删除如果和为，那么或者是被包围的像素，或者删除后会破坏黑像素的连通性，不能删除如果和为，那么或者是被包围的像素，或者删除后会破坏黑像素的连通性，不能删除否则可删除。这是为的情况，对于为的情况，只需将其旋转就可得到删除条件。细化算法如下做如下循环从图像开始遍历每个像素，若为，为，根据上面所述条件判断其是否应被删除，若应该删除，将其标记，遍历完后在原图像中将标记应被删除的改为从图像开始遍历每个像素，若为，为，根据类似上面所述条件判断其是否应被删除，若应该删除，将其标记，遍历完后在原图像中将标记应被删除的改为从图像开始遍历每个像素，若为，为，根据类似上面所述条件判断其是否应被删除，若应该删除，将其标记，遍历完后在原图像中将标记应被删除的改为从图像开始遍历每个像素，若为，为，根据类似上面所述条件判断其是否应被删除......”。