,,,,,,,,,,,,,,,,,,,,,,,,,,,,,最近邻。算法假设所有的实例对应于维空间中的点。个实例的最近邻是根据标准欧氏距离定义,设的特征向量为其中,表示实例的第个属性值。两个实例和间的距离定义为其中,在最近邻学习中,离散目标分类函数为其中是有限集合,即各不同分类集。最近邻数值的选取根据每类样本中的数目和分散程度进行的,对不同的应用可以选取不同的值。如果未知样本的周围的样本点的个数较少,那么该个点所覆盖的区域将会很大,反之则小。因此最近邻算法易受噪声数据的影响,尤其是样本空间中的孤立点的影响。其根源在于基本的最近邻算法中,待预测样本的个最近邻样本的地位是平等的。在自然社会中,通常个对象受其近邻的影响是不同的,通常是距离越近的对象对其影响越大。近邻法研究方法该算法没有学习的过程,在分类时通过类别已知的样本对新样本的类别进行预测,因此属于基于实例的推理方法。如果取等于,待分样本的类别就是最近邻居的类别,称为算法。只要训练样本足够多,算法就能达到很好的分类效果。当训练样本数趋近于∞时,算法的分类误差最差是最优贝叶斯误差的两倍另外,当趋近于∞时,算法的分类误差收敛于最优贝叶斯误差。下面对近邻算法描述输入训练数据集,其中是第个样本的条件属性,是类别,新样本,距离函数。输出的类别。计算和之间的距离对距离排序,得到选择前个样本统计中每个类别出现的次数,确定的类别。近邻法需要解决的问题寻找适当的训练数据集训练数据集应该是对历史数据的个很好的覆盖,这样才能保证最近邻有利于预测,选择训练数据集的原则是使各类样本的数量大体致,另外,选取的历史数据要有代表性。常用的方法是按照类别把历史数据分组,然后再每组中选取些有代表性的样本组成训练集。这样既降低了训练集的大小,由保持了较高的准确度。确定距离函数距离函数决定了哪些样本是待分类本的个最近邻居,它的选取取决于实际的数据和决策问题。如果样本是空间中点,最常用的是欧几里德距离。其它常用的距离函是由绝对距离平方差和标准差。决定的取值邻居的个数对分类的结果有定的影响,般先确定个初始值,再进行调整,直到找到合适的值为止。综合个邻居的类别多数法是最简单的种综合方法,从邻居中选择个出现频率最高的类别作为最后的结果,如果频率最高的类别不止个,就选择最近邻居的类别。权重法是较复杂的种方法,对个最近邻居设置权重,距离越大,权重就越小。在统计类别时,计算每个类别的权重和,最大的那个就是新样本的类别。近邻法的分类器的设计与编程实现开发环境的选择本设计属于数据库程序,因此开发环境需要考虑数据库系统和开发语言两方面。数据库系统的选择数据处理主流技术分析在数据处理领域关系型数据库技术处于统治地位,它以关系数学简单的关系模型为基础,以为处理工具,得到了广泛的应用,其技术特征决定更擅长结构化数据处理应用,近年来各厂商在关系型数据库基础上拓展功能,开始具有内容管理多媒体等数据处理能力。典型的产品包括等。而针对海量结构化数据处理,则还有如等多维数据库系统。有关本设计的重要特点数据挖掘方面在数据挖掘应用中,引进四个新的数据挖掘运算法,改进的工具和精灵,它们会使数据挖掘,对于任何规模的企业来说,都变得简单起来。开发环境方面使用,开发人员通过使用相似的语言,例如微软的和微软的,将能够创立数据库对象。开发人员还将能够建立两个新的对象用户定义的类和集合。数据管理方面是值得信赖的平台,系统固有的数据加密默认安全设置以及强制口令策略功能能够以最高的性能最高的可用性和最高的安全性运行任何苛刻的应用系统。开发语言的选择使编程工作变得更加容易,开发投资的回报率趋于最
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
第 1 页 / 共 39 页
第 2 页 / 共 39 页
第 3 页 / 共 39 页
第 4 页 / 共 39 页
第 5 页 / 共 39 页
第 6 页 / 共 39 页
第 7 页 / 共 39 页
第 8 页 / 共 39 页
第 9 页 / 共 39 页
第 10 页 / 共 39 页
第 11 页 / 共 39 页
第 12 页 / 共 39 页
第 13 页 / 共 39 页
第 14 页 / 共 39 页
第 15 页 / 共 39 页
预览结束,还剩
24 页未读
阅读全文需用电脑访问
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。
1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。
2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。
3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。
4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。
5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。