帮帮文库

doc 基于内容特征分析垃圾邮件过滤关键技术的研究(最终版) ㊣ 精品文档 值得下载

🔯 格式:DOC | ❒ 页数:53 页 | ⭐收藏:0人 | ✔ 可以修改 | @ 版权投诉 | ❤️ 我的浏览 | 上传时间:2022-06-25 17:08

《基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)》修改意见稿

1、以下这些语句存在若干问题,包括语法错误、标点使用不当、语句不通畅及信息不完整——“.....易干扰过滤三是根据邮件内容信息难以判定邮件的性质四是忽略邮件的结构信息。目前,国内外研究学者对的研究主要集中解决其前两个问题。文献提出种基于不完全朴素贝叶斯分类模型的垃圾邮件分类模型,该方法采用个依赖分类模型的平均概率作为分类的预测概率,实验证明该方法提高了垃圾邮件识别的准确率。文献利用贝叶斯的最小风险决策,考虑到各种分类引起的损失,以减少合法邮件的误判。此外,文献的研究学者提出多个改进方案,为提高邮件过滤效果做出积极贡献。上述研究均忽略了朴素贝叶斯存在的第三四条缺点。因此,为进步提高垃圾邮件的召回率,降低合法邮件误判率,本文深入分析邮件自身的特性合法邮件与垃圾邮件之间的差异,引入非特征信息以改进朴素贝叶斯算法。结合特征与非特征信息的算法朴素贝叶斯分类仅依赖于邮件内容特征进行分析......”

2、以下这些语句存在多处问题,具体涉及到语法误用、标点符号运用不当、句子表达不流畅以及信息表述不全面——“.....惠孛等提出种双级贝叶斯分类模型,该模型既考虑到参数之间的影响又保留朴素贝叶斯分类模型的优点石永革等改进贝叶斯分类算法的应用模式,提出种基于网格的垃圾邮件过滤系统解决方案翟军昌等根据每个特征项对邮件分类的贡献大小定义两个贡献系数,改进特征项的先验概率计算。上述研究中,基于朴素贝叶斯的邮件过滤依赖于邮件内容特征。方面,基于内容的判断具有不确定性,如对于隐蔽的广告邮件来说,由于用户对邮件的性质判断不同,使得邮件是否判定为垃圾邮件因人而异。另方面,朴素贝斯方法忽略邮件信头特征对识别垃圾邮件的贡献。然而,本文针对朴素贝叶斯的这两方面缺陷进行改进,提出结合特征与非特征信息的算法,提高了垃圾邮件判别的准确率和召回率......”

3、以下这些语句在语言表达上出现了多方面的问题,包括语法错误、标点符号使用不规范、句子结构不够流畅,以及内容阐述不够详尽和全面——“.....改进的算法与传统算法相比,垃圾邮件的召回率和准确率均有定程度的提高。特征维数为时,仅采用个非特征项表示邮件。此时,改进算法的垃圾邮件召回率为,准确率为。这结果表明非特征信息对判别垃圾邮件有定贡献。由于实验中仅用个非特征项描述邮件,邮件信息缺失,这增加了合法邮件误判为垃圾邮件的数量,准确率偏低。随着特征维数的递增,未识别的垃圾邮件越来越少,合法邮件误判率逐步降低。当选取的特征维数为时,垃圾邮件的召回率是,准确率是,分类器性能最优。选取的特征维数大于时,出现召回率升高而准确率逐步降低的现象。这是因为,在本实验的训练集合中,垃圾邮件的长度大于合法邮件,这使得优势率值低的特征在计算先验概率时倾向于垃圾邮件,从而合法邮件分类为垃圾邮件的数目增多。相关研究基于内容的垃圾邮件过滤技术是国内外研究的重点......”

4、以下这些语句该文档存在较明显的语言表达瑕疵,包括语法错误、标点符号使用不规范,句子结构不够顺畅,以及信息传达不充分,需要综合性的修订与完善——“.....其中,朴素贝叶斯算法因过滤效果好,在邮件过滤中应用广泛。朴素贝叶斯分类器首先计算各特征项属于个类别的先验概率,然后根据所有特征项先验概率的乘积来计算邮件属于个类别的后验概率,最后判别邮件属于哪个类别。这计算过程假定在给定目标类别时各特征项之间相互独立。目前,它在邮件过滤领域取得定研究成果,但仍存在诸多问题需要解决。针对朴素贝叶斯条件独立假设缺乏语义联系影响分类准确性的问题,文献提出种基于不完全朴素贝叶斯分类模型的垃圾邮件分类模型。该模型使用个依赖分类模型的平均概率作为分类的预测概率,提高了垃圾邮件识别的准确性。针对合法邮件被误判为垃圾邮件给用户带来损失的问题,文献综合考虑朴素贝叶山东师范大学硕士学位论文斯和最小风险贝叶斯算法,提出基于垃圾单词的单表文件垃圾邮件过滤算法。该方法有助于满足用户的个性化过滤需求。此外,为提高垃圾邮件过滤系统分类准确率和效率......”

5、以下这些语句存在多种问题,包括语法错误、不规范的标点符号使用、句子结构不够清晰流畅,以及信息传达不够完整详尽——“.....本节从电子邮件结构出发,在信体中提取特征信息,分析邮件信头提取非特征信息,并提出结合特征与非特征信息的算法。信息提取特征信息特征信息是指类别代表性强的特征项的集合,主要从邮件的正文内容中提取,其提取过程可描述如下首先,对邮件集合中的每封邮件进行预处理得到邮件文本内容信息并切分为有独立意义的词其次,利用特征选择方法从预处理后的所有词中提取最有类别代表性的词生成特征集,即特征信息。非特征信息当邮件信头各字段出现伪造主题关键词变形等现象时,邮件信头部分在合法邮件和垃圾邮件中表现出不同特征,其可以作为垃圾邮件识别的依据。本文将这些不同表现的集合定义为非特征信息,主要从以下个方面进行分析,提取的非特征信息,具体如表所示。各域不为空用户地址规范电子邮箱的用户名长度在合适的范围中的原始发送地址与中的原始发送地址致中的目的地址与中的实际收信人的地址致邮件路由不中断......”

6、以下这些语句存在多方面的问题亟需改进,具体而言:标点符号运用不当,句子结构条理性不足导致流畅度欠佳,存在语法误用情况,且在内容表述上缺乏完整性。——“.....该项目开发的邮件系统包含邮件服务器和邮件系统两个部分,其均能提供邮件过滤功能。本文基于内容特征分析的垃圾邮件过滤关键技术研究为服务器端邮件过滤技术研究的核心内容之。并且,以本文理论研究为支撑设计并实现的邮件过滤模块能有效实现服务器端垃圾邮件过滤。邮件系统用于向用户展示邮件,偏重于根据用户需求进行个性化过滤,而邮件服务器实现接收发送转发邮件,并进行垃圾邮件过滤,其系统设计如图图所示。邮件的接收邮件的编辑与发送新文件夹创建登录成邮件的智能管理邮件的智能移动功通信录的管理黑白名单关键词登录主界面设置新用户注册图邮件系统框架图服务器服务器服分类规则用户相关信息修改务过滤模块器管理模块反馈模块图邮件服务器系统框架图山东师范大学硕士学位论文图中可以看到,邮件系统包括用户注册邮件编辑通讯录管理设置等模块。其实现用户对邮件的编辑删除等操作......”

7、以下这些语句存在标点错误、句法不清、语法失误和内容缺失等问题,需改进——“.....结合特征与非特征信息表示邮件时,分类器输出的目标值采用公式计算。,,,,召回率山东师范大学硕士学位论文式中为类中的邮件数,为类中邮件的总数,分别采用公式公式计算。对非特征项集,每个非特征项在封邮件中出现次,且为布尔权重。因此,非特征项的先验概率可采用多变量贝努里模型来计算。实验与结果分析特征项作为区分邮件性质的主要依据,在识别垃圾过程中发挥重要作用。其类别区分能力及选取的特征项维数均为影响垃圾邮件识别的重要因素。因此,实验采用优势率计算各特征项的类别区分能力,根据优势率值从高到低的顺序排列特征项,并依次以的维数选取特征项用于邮件表示中。非特征项作为区分邮件性质的依据建立在对大量数据集统计分析的基础上。由于本文实验训练样本有限,且邮件格式不规范,些非特征项的区分能力较差......”

8、以下文段存在较多缺陷,具体而言:语法误用情况较多,标点符号使用不规范,影响文本断句理解;句子结构与表达缺乏流畅性,阅读体验受影响——“.....则被视为路由信息中断主题中不含干扰信息等。表非特征项山东师范大学硕士学位论文非特征信息不为空正常异常实验中各字段域域域域缺省为域缺省为域域用户地址规范中地址与中实际地址致不为空用户地址规范域中地址与中实际地址致全英文不为空主题中除中文外其它字符数不为空与域致不为空与域致不为空不为空路由不中断邮件表示对邮件集,特征项集,非特征项集对应于表中记录的非特征项,封邮件可表示为个维向量,由公式给出。,,,式中,为所有非特征项的个数,为非特征项在邮件中的权重,为特征项的个数,为特征项在邮件中的权重。非特征项的权重计算采用布尔表示法,特征项采用数值法。为防止同个特征项的词频受文档长度的影响,该特征项的词频采用公式计算。式中,为特征项在邮件中的词频,为邮件中的特征项的总数......”

9、以下这些语句存在多方面瑕疵,具体表现在:语法结构错误频现,标点符号运用失当,句子表达欠流畅,以及信息阐述不够周全,影响了整体的可读性和准确性——“.....本文采用优势率计算各非特征项的类别区分能力,每次实验选取优势率值高的前个非特征项用于邮件表示中。为验证改进算法的有效性,本文设计两个实验,具体如表所示表实验设计邮件表示过滤算法实验实验二特征项集合个非特征项特征项集合算法结合特征与非特征信息的算法实验合法邮件集是从年月收集的合法邮件中随机抽取的封邮件垃圾邮件集是年月号到年月号由个不同用户的邮箱收集整理的封垃圾邮件。实验每次随机选取合法邮件和垃圾邮件各封作为训练集,剩余部分作为测试集。实验进行次取平均值,则垃圾邮件的召回率准确率对比折线图如图图所示。实验实验二特征项维数图实验与实验二的垃圾邮件召回率对比准确率山东师范大学硕士学位论文实验实验二特征项维数图实验与实验二垃圾邮件准确率对比图和图描述了结合特征与非特征信息的过滤算法下文称改进的算法和传统算法在相同数据集上,选取不同特征项维数时垃圾邮件召回率和准确率的变化情况......”

下一篇
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
1 页 / 共 53
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
2 页 / 共 53
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
3 页 / 共 53
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
4 页 / 共 53
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
5 页 / 共 53
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
6 页 / 共 53
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
7 页 / 共 53
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
8 页 / 共 53
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
9 页 / 共 53
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
10 页 / 共 53
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
11 页 / 共 53
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
12 页 / 共 53
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
13 页 / 共 53
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
14 页 / 共 53
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
基于内容特征分析垃圾邮件过滤关键技术的研究(最终版)
15 页 / 共 53
温馨提示

1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。

2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。

3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。

4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。

5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。

  • 文档助手,定制查找
    精品 全部 DOC PPT RAR
换一批