毕业论文：数字识别的支持向量机方法

格式：word

并把寻找最优线性超平面的算法归结为求解个凸规划问题。进而基于核展开定理，通过非线性映射，把样本空间映射到个高维乃至于无穷维的特征空间空间，使在特征空间中可以应用线性学习机的方法解决样本空间中的高度非线性分类和回归等问题。简单地说就是升维和线性化。升维，即是把样本向高维空间做映射，般只会增加计算的复杂性，甚至会引起维数灾，因而人们很少问津。但是作为分类回归等问题来说，很可能在低维样本空间无法线性处理的样本集，在高维特征空间却可以通过个线性超平面实现线性划分或回归。的线性化是在变换后的高维空间中应用解线性问题的方法来进行计算。在高维特征空间中得到的是问题的线性解，但与之相对应的却是原来样本空间中问题的非线性解。般的升维都会带来计算的复杂化。方法巧妙地解决了这两个难题由于应用了核函数的展开定理，所以根本不需要知道非线性映射的显式表达式由于是在高维特征空间中建立线性学习机，所以与线性模型相比不但几乎不增加计算的复杂性，而且在种程度上避免了维数灾。这切要归功于核的展开和计算理论。因此人们又称方法为基于核的种方法。核方法研究是比更为广泛和深刻的研究领域。支持向量机与多层前向网络区别采用径向基核函数时，支持向量机实现的是种径向基核函数分类器，径向基核函数的中心位置以及中心数目网络的权值都是又训练过程中自动确定，而传统网络对这些参数的确定则依赖于经验知识。当采用函数作为核函数时，支持向量机实现的是种多层感知齐神经网络。应用方法，隐结点的权值都是在设计训练的过程中自动确定的而多层感知器的隐结点数目是需要依赖经验知识事先确定的此外，在多层感知器中，模型复杂性的控制是通过使特征数目尽量小，也就是使隐层神经元数目尽可能小工作信号误差信号来实现的，而支持向量即与此不同，它是通过控制与维树无关的模型复杂性来实现学习机器的设计。与径向函数网络和多层感知器相比，支持向量机避免了在前者的设计中经常使用的启发式结构，它不依赖于设计者的经验知识而且支持向量机的理论基础决定了它最终求得的是全局最优值而不是局部极小值，也保证了它对于未知样本的良好泛化能力而不会出现过学习现象。第三章统计学理论与支持向量机统计学习理论的核心内容统计学习理论被认为是目前针对小样本统计估计和预测学习的最佳理论，它在理论上较系统地研究了经验风险最小化原则成立的条件有限样本下经验风险与希望风险的关系以及如何利用这些理论找到新的学习原则和方法等问题。主要内容包括四个方面经验风险最小化准则下统计学习的致性的条件在这些条件下关于统计学习方法推广性的界大的结论。在这些界得基础上建立的小样本归纳推理准则实现新的准则的实际方法算法维为了研究学习过程致收敛的速度和推广性，统计学习理论定义了系列有关函数集学习性能的指标，其中最重要的是维。模式识别方法中维的定义是对个指标函数集，如果存在个样本能够被函数集中的函数按所有可能的种形式分开，则称函数能够把个样本打散函数集得维就是它能打散的最大样本数目。若对任意数目的样本都有函数能将它们打散，则函数集得维是无穷大。维反映了函数集得学习能力，维越大则学习机器越复杂学习能力月强。遗憾的是，目前尚没有通用的关于任意函数集维计算的理论，只对些特殊的函数集知道其维，比如维实数空间线性函数集的维是，而,的维则为无穷大。对于些比较复杂的学习机器，其维除了与函数集有关以外，还受学习算法的影响，其确定更加困难。推广能力的界统计学学习理论系统地研究了对于各种类型的函数集，经验风险和实际风险之间的关系，即推广性的界。关于两类分类问题，结论是对指示函数集中的所有函数包括使经验风险最小的函数，经验风险和实际风险之间以至少的概率满足如下关系其中是函数集得维，是样本数。这结论从理论上说明了学习机器的实际风险是由两部分组成是经验风险，另部分称作置信范围，它和学习机器的维及训练样本数有关。可以简单地表示为机器学习过程不但要使经验风险最小，还要使维尽量小以缩小置信范围，才能取得较小的实际风险，即对未来样本有较好的推广性。结构构风险最小化从上面的结论看到，原则在样本有限是不合理的，因为我们需要同时最小化经验风险和置信范围。统计学习理论提出了种新的,周翔数字图像中手写阿拉伯数字的识别技术概览等著,阮秋崎等译，数字图像处理，电子工业出版社张学工关于统计学习理论与支持向量机自动化学报李亚琴在手写数字识别中的应用研究附录的数字识别训练样本数字识别训练刷新载入数字训练样本,载入训练样本训练数据矩阵包括行列数据，每行表示个数字输入，最后列为相应数字识别目标用矩阵表示，每列数字为，则表示判别为相应类，其他列为。比如第列为，其余为，则表示判别输入样本为，依次类推。待识别数字为个构造输出矩阵设置参数试验验证，有个反复的过程选用高斯核，括号中为带宽参数样本量不是很大，小点的带宽降低对噪声的敏感性设置正则选用训练算法选用算法实现多维输出分类判别生成分类矩阵，对角线上数字表示正确识别个数，其他为分识别个数,训练结束,训练结束识别数字识别载入待识别数字,载入待识别数字指定待识别数字,读取数字图像图像灰度化对输入图像加上均值为方差为的高斯噪声为方便在界面上显示，将图像放大显示待识别数字图像暂停点击回车继续识别数字改的矩阵为的输入向量输出识别结果,输入数字识别为,给出识别出数字暂停点击回车继续显示识别结果数字图像,显示识别数字网络训练和识别,例网络训练,训练样本的期望输出个输出神经元隐层神经元个数学习步长对输入图像加上均值为方差为的高斯噪声为方便在界面上显示，将图像放大也可以,例训练好的网络识别加了噪声的测试样本改的矩阵为的矩阵网络对测试样本的实际输出,识别判别数字识别的支持向量机方法目录摘要第章绪论研究背景数字识别概述数字识别的问题和困难第二章数字识别技术数字识别的方法神经网络的学习算法算法支持向量机与多层前向网络区别第三章统计学理论与支持向量机统计学习理论的核心内容维推广能力的界结构构风险最小化线性支持向量机非线性支持向量机支持向量机的评价第四章数字识别的支持向量机的方法学习算法步骤应用算法识别数字字符和结果分析,数字识别的实现识别结果分析支持向量机与多层前向网络算法结果的比较第五章结论致谢参考文献附录摘要数字作为世界经济发展的信息的载体，利用计算机数字识别和文档处理技术成为人们迫切要解决的问题。本文先介绍数字识别和数字识别的几种技术，主要包括多层神经网络算法和支持向量机等,并对这两种方法的比较，找出他们的区别。接下来介绍支持向量机的工作原理以及在其图像识别中的应用，指出了该方法与识别法的优势所在，并在以数字字符的识别为例进行实现，通过把字符图像转化为数据矩阵，并下给出识别结果，实验结果表明了该方法识别准确性较高，而且样本训练的收敛速度比较快。关键词数字识别支持向量机数据矩阵,第章绪论研究背景数字识别概述阿拉伯数字是人类文明的标志之，也是人们进行交流与沟通的主要媒介。数字作为世界经济发展的信息载体，展示了世界各族人民的思维和认知方式。在我们的日常生活中，每天都要进行大量的文档处理工作，税单银行支票汇款单信用卡账单的处理，以及邮局信函的分检等等，如何利用计算机字符识别和文档处理技术，使人们从这些繁重的手工劳动中解放出来已成为个迫切需要解决的问题。计算机文字识别，是计算机和人之间进行信息沟通的座桥梁。计算机文字识别直是图像识别领域中十分活跃的研究课题。它被认为是典型的图像识别应用研究课题。随着信息时代的到来，如何实习数字识别的自动识别与处理将直接关系到我国信息事业的发展。数字识别是种类别的识别问题，在理论和技术上都具有较大的研究价值。其中，数字识别特别是手写数字识别因其需要较高的识别精度和较快的识别速度被视为识别领域中最难的领域，成为国内外研究的热点。数字识别的问题和困难数字的类别只有十种，笔划也比较简单，其识别问题似乎不是很困难，但事实上，些测试结果表明，数字的正确识别率并不如印刷体汉字识别正确率高，甚至也不如连机手写提汉字识别率高。这其中的主要原因如下第，手写数字字形相差不大，比如和，和很相似，使得准确区分些数字相当困难第二，在实际应用中，对数字识别单字识别正确率的要求要比文字要苛刻得多。这是因为，数字没有上下文关系，每个单字的识别都事关重要，而且数字识别经常涉及的财会金融领域其严格性使其准确率要求更高。此外，大批量数据处理对系统速度又有相当的要求，许多理论上很完美但速度过低的方法行不通的。因此研究高性能的数字识别算法是个有相当的挑战性的任务。第二章数字识别技术数字识别的方法数字识别是图像内容识别的个应用领域，且有被识别的数较少，只有十个数字，阿拉伯数字笔画少的特点。所以手写阿拉伯数字的识别采用的方法相对于人脸识别汉字识别等应用领域来说可以采用更为灵活的方法，例如基于神经网络的学习算法方法等。但无论使用那种方法，都需要通过基本的图像处理技术来对图像进行预处理，才能获得这些方法的输入信息。下面我们来介绍这两种方法。神经网络的学习算法神经网络是模拟人脑内部结构，在模拟推理自动学习等方面接近人脑的自组织和并行处理的数学模型，包括输入层隐含层输出层。其优点之是，不依赖于对象，通过学习将输入输出以权值的方式编码，把它们联系起来。神经网络在数据挖掘中的优势是噪声数据的强承受能力，对数据分类的高准确性，以及可用各种算法进行规则提取。因此，常常借助神经网络来进行数据挖掘。学习过程可以描述如下工作信号正向传播。输入信号从输入层经隐单元，传向输出层，在输出端产生输出信号，这是工作信号的正向传播。在信号的向前传递过程中网络的权值是固定不变的，每层神经元的状态只影响下层神经元的状态。如果在输出层不能得到期望的输出，则转入误差信号方向传播。误差信号方向传播。网络的实际输出与期望输出之间的差值即为误差信号，误差信号由输出端开始逐层向前传播，这是误差信号的反向传播。在误差信号方向传播的过程中，网络的权值由误差反馈进行调节。通过权值的不断修正使网络的实际输出更接近期望输出。图为多层感知器的部分，其

温馨提示：手指轻点页面，可唤醒全屏阅读模式，左右滑动可以翻页。