首先对所有的文本进行中文分词,得到总词库,使用算法分别构建每个正常邮件和垃圾邮件的特征向量,获得个特征空间,然核心思想在于选择发生概率高的作为分类的结果。贝叶斯公式如下上述式子计算的是表示在事件发生的前提下,事件发生的概率。基于自然语言处理技术的邮件检测系统论文原稿。降维技术降维技术主要思想是为提取特征空间中最具有区分能力的特征词,从而进行降维。成分分基于自然语言处理技术的邮件检测系统论文原稿法计算机应用研究,李梦潇,姚仕元基于的人脸识别系统的设计与改进计算机科学,王斌基于朴素贝叶斯算法的垃圾邮件过滤系统的研究与实现电子设计工程,上述结果表示在个正常邮件测试样本中,使用本文的邮件检测系统分类正确的邮件数为,在个垃圾邮件测试样本中,使用本文的邮件检测系统分类正确的邮件数为。由此可得到本系统的平均准确率为左右。结语本文提出种基于自然语言处理技术的邮件检测系统方案,相比传统的朴素贝叶斯分类算法,引行测试,测试结果如表所示。关键词垃圾邮件朴素贝叶斯分类算法中图分类号文献标识码文章编号引言在如今的日常生活中,无论是工作需要,抑或是生活交流,邮件已经成为当代人的重要交通工具。然而,交流便利的同时,会有很多非法分子通过邮件传递垃圾信息,例如我们斯分类算法,引入了特征提取技术和降维技术,提高了传统邮件过滤的准确率。当然,由于人工搜集数据的局限性,不能获得所有能够区分正常邮件和垃圾邮件的特征词。下步工作可以适当扩充数据,或者改进特征提取算法,提高分类准确性。参考文献李建林种基于的组合特征基于自然语言处理技术的邮件检测系统论文原稿时不时接收到来自陌生人的骚扰信息广告信息等。针对这样的垃圾邮件,本文在传统朴素贝叶斯分类过滤邮件的基础上,引入和技术,提高了传统垃圾邮件过滤的准确率。测试与结果本文选择正常邮件数为,垃圾邮件数为的测试样本进行测试,测试结果如表所示测试与结果本文选择正常邮件数为,垃圾邮件数为的测试样本式将测量空间里的数据分解映射到低维度的特征空间。朴素贝叶斯分类算法贝叶斯算法是种基于概率分析事件发生可能性的方法,其核心思想在于选择发生概率高的作为分类的结果。贝叶斯公式如下上述式子计算的是表示在事件发生的前提下,事件发生的概率。基于自然语言处理技术的邮件检测取文本分类方法计算机应用研究,李梦潇,姚仕元基于的人脸识别系统的设计与改进计算机科学,王斌基于朴素贝叶斯算法的垃圾邮件过滤系统的研究与实现电子设计工程,统论文原稿。上述结果表示在个正常邮件测试样本中,使用本文的邮件检测系统分类正确的邮件数为,在个垃圾邮件测试样本中,使用本文的邮件检测系统分类正确的邮件数为。由此可得到本系统的平均准确率为左右。结语本文提出种基于自然语言处理技术的邮件检测系统方案,相比传统的朴素贝基于自然语言处理技术的邮件检测系统论文原稿是为提取特征空间中最具有区分能力的特征词,从而进行降维。成分分析是用特征向量对样本数据进行分析,达到降维目的的种多元统计分析方法。即将高维特征向量通过特征向量矩阵转变为低维向量,该方法仅损失了些次要信息,主要信息得以保留。其中,借助变使用降维技术,对这个特征空间进行降维,得到最能够区分正常邮件和垃圾邮件的特征词,由这些特征词构成的特征向量空间,能够最大程度上区分两类邮件。由此,就得到了朴素贝叶斯分类器所需要的基础。最后,根据得到的特征词,对测试样本中的每个邮件,利用朴素贝叶斯公式,进行正常是用特征向量对样本数据进行分析,达到降维目的的种多元统计分析方法。即将高维特征向量通过特征向量矩阵转变为低维向量,该方法仅损失了些次要信息,主要信息得以保留。其中,借助变换式将测量空间里的数据分解映射到低维度的特征空间。邮件检测系统本。朴素贝叶斯分类算法贝叶斯算法是种基于概率分析事件发生可能性的方法,引入了特征提取技术和降维技术,提高了传统邮件过滤的准确率。当然,由于人工搜集数据的局限性,不能获得所有能够区分正常邮件和垃圾邮件的特征词。下步工作可以适当扩充数据,或者改进特征提取算法,提高分类准确性。参考文献李建林种基于的组合特征提取文本分类
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
第 1 页 / 共 5 页
第 2 页 / 共 5 页
第 3 页 / 共 5 页
第 4 页 / 共 5 页
第 5 页 / 共 5 页
预览结束,喜欢就下载吧!
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。
1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。
2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。
3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。
4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。
5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。