基于机器学习网页恶意代码检测技术的研究㊣精品文档值得下载

基于机器学习网页恶意代码检测技术的研究

以这个蜜罐系统的页面访问器模块与分析引擎模块都要在虚拟机的操作系统下执行。客户端程序驱动器组成了访问器模块，几个监控系统状态改变的监视器构成了分析引擎模块，引导访问器模块访问页面服务器的队列生成器也就是是事件控制器，它会记录分析引擎模块的分析结果。此外，根据虚拟机中操作系统的状态的改变以及分析的结果是否为恶意的，控制器能够恢复虚拟机中操作系统至检测前的状态，为下个分析提供个好的环境。当分类器把所要检测的页面成功分类，把被分类为恶意代码的页面的本地地址送入到系统中，然后系统通过调用浏览器对页面访问，而后通过对系统状态的变化的监控来进行判决。由于系统主要工作访问器模块和分析引擎模块是在客户端完成，下面主要分析下客户端系统结构。那么可以得到，由贝叶斯公式得到状态分析子系统进程状态文件状态注册表状态管理服务器端连接，允许发送数据或者到服务器对象状态管理服务器端连接，允许发送数据或者到服务器对象状态实际是恶意代码数实际是非恶意代码数被分类器判为恶意代码数第三章网页恶意代码检测模型客户端通信子系统事件控制器访问子系统访问图客户端系统框架如图所示客户端系统主要有三个子系统组成状态分析子系统通信子系统访问子系统。访问子系统访问子系统的功能为控制客户端程序浏览网页或打开些文件。子系统中由于不是直接对虚拟机中客户端程序控制，因此使用插件控制的形式来控制切客户端软件。本客户端蜜罐系统只是对恶意网址动态检测，因此本系统的实现的插件只要是浏览器，火狐浏览器等。不过最新的高交互蜜罐系统还支持的插件有谷歌的浏览器苹果浏览器等浏览器，微软的程序和部分视频播放器。所以还可以在今后的开发过程中开发其他扩展插件。访问子系统是用启动阻塞式线程的方式来控制每个插件的开启，需要其它访问事件同意才能继续下个插件执行。其子系统的详细系统结构如图所示。状态分析子系统进程状态文件状态注册表状态管理服务器端连接，允许发送数据或者到服务器对象状态管理服务器端连接，允许发送数据或者到服务器对象状态实际是恶意代码数实际是非恶意代码数被分类器判为恶意代码数被分类器判为正常代码数分类器召回率准确率精确率决策树分类器分类器基于机器学习的网页恶意代码检测技术研究访问子系统应用程序接口应用程序配置管理其他可扩展插件图客户端访问子系统通信子系统这个子系统是远程服务器通信部分在本地客户端的代理，主要任务为管理客户端和服务器端的通信。这个子系统主要由两个部分组成发送节点部分和远程服务器通信部分。发送节点部分可以由其他模块如分析引擎模块直接调用。远程服务器部分是远程服务器端的本地代理，设置单独的线程将其启动，主要任务是把服务器端的控制消息发送到虚拟机中的客户端。通信子系统的系统详细结构如图所示。状态分析子系统进程状态文件状态注册表状态管理服务器端连接，允许发送数据或者到服务器对象状态管理服务器端连接，允许发送数据或者到服务器对象状态实际是恶意代码数实际是非恶意代码数被分类器判为恶意代码数被分类器判为正常代码数分类器召回率准确率精确率决策树分类器分类器第三章网页恶意代码检测模型通信子系统图通信子系统状态分析子系统系统状态分析子系统的主要任务是对虚拟机操作系统中系统状态变化的监听，主要监听包括注册表变化，文件的变化，进程变化和系统服务描述符表的变化。其中系统服务描述符表监听主要为了对含有的页面的检测。每个部分变化的监听是由这个蜜罐的客户端主线程控制不同的其他线程来实现的。状态分析子系统的详细系统结构如图所示。基于机器学习的网页恶意代码检测技术研究状态分析子系统通过启动和连接事件管理对象初始化所有的监听器对象状态图访问子系统当分类判决模块对网页代码分类之后，通信子系统把爬取下来页面地址送入的客户端，客户端打开浏览器动态执行页面页面执行的过程中，恶意代码所产生的恶意行为将会被状态分析子系统以日志的形式记录下来，并通过通信子系统传送到服务器端,作为行为判决模块的检测依据。本章小结本章主要介绍了本基于机器学习的混合式网页恶意代码检测系统各个模块的设计与实现。第节简要介绍了下系统的结构框架。第二节介绍了数据采集模块的设计和实现，并介绍了系统所需要的数据和数据的收集。第三节介绍了基于机器学习分类的分类判决模块的设计和实现，主要包含三个部分特征选择，所选特征的提取方法和实验中的分类算法。第四节首先阐述了现有的蜜罐技术，包括传统蜜罐技术和最近几年才迅速发展第三章网页恶意代码检测模型的客户端蜜罐技术。然后讲解了行为判决模块所采用的高交互客户端蜜罐的结构和改进。下章将通过实验验证本文所述方法的有效性，然后对实验结果进行系统的分析并得出相关结论。状态分析子系统进程状态文件状态注册表状态第四章实验测试与分析第四章实验测试与分析实验环境实验数据集为了有效验证本文所提出的基于机器学习的混合式恶意代码检测系统的效果，首先本系统构建分类模型所用数据集是按照节所介绍的数据收集方法，总共收集正常数据样本个和网页恶意代码样本个。按照节所述方法从中抽取个正样本作为分类模型构造所用正常代码样本集，同样按照节所述方法从恶意样本集中个恶意代码样本作为分类模型构造的恶意代码样本集，共同构成分类模型构建所用样本集。最后，为测试系统的总体性能，本文按照前文所述方法又另外选取了个恶意网页和个正常网页对整个系统测试。实验软硬件环境实验硬件环境因特尔酷睿处理器，内存，微软操作系统。软件开发环境。实验使用工具等。测试标准本文有两个实验部分，个是分类模型的构建实验，个是整体系统性能测试实验。首先介绍下分类模型的评价标准，恶意代码识别问题实际上是个二分类，通过分类器把恶意代码和正常代码区分开来。所以本文采用二值分类的评价标准。二分类般采用列联表来对其评价。网页恶意代码分类器的列联表如表所示表恶意代码分类器列联表设样本测试集总共有个样本，则,则有如下几个评价标准基于机器学习的网页恶意代码检测技术研究召回率，主要是说明恶意代码网页的查全率。反应了分类器发现恶意代码的能力。准确率精确率准率。，主要是说明分类器对所有页面的判对率。，主要是说明分类器对恶意代码页面的查判错率，主要是说明分类器对所有页面的判错率。分类模型构建实验本节实验目的是构建分类判决模块所需的分类模型，系统通过所构建的分类模型对所要检测网页初步判决。判错率和准确率是说明个问题，所以本文采不用判错率这个指标，只采用召回率准确率和精确率三个评价指标。本文采用了节所述三种不同的分类算法构建分类模型分类算法朴素贝叶斯分类算法和决策树分类算法。根据三种不同算法性能指标的测试结果，从而确定最终系统所采用的算法。分类模型训练工具的全名是怀卡托智能分析环境，是款免费的，非商业化与之对应的是公司商业数据挖掘产品的，基于环境下开源的机器学习以及数据挖掘软件。由于很早就是由新西兰政府支持开发的，系统得到了广泛的认可，被誉为数据挖掘和机器学习历史上的里程碑。工具里几乎包括了所有的机器学习的算法，像关联规则算法，回归算法，各种分类算法，各种聚类算法，还有数据预处理算法等。是图形界面的程序，对于初学者使用起来非常方便，还可以把几个步骤组合成个工作流。另外，也允许在命令行执行命令。此外由于属于开源软件，如果想研究算法可以使用开发环境进行调试。默认的是格式的文件，但也可以通过自带的工具把等格式的文件转换成格式文件。状态分析子系统进程状态文件状态注册表状态管理服务器端连接，允许发送数据或者到服务器对象状态第四章实验测试与分析在把数据转换成格式文件之后，点击中的来装载文件就可以使用各种算法程序对数据进行处理了。在分类菜单中设置所要采用的分类算法，在输入栏中输入所要用到的参数，就可以根据需求建立相应的分类模型。在经过分类算法对模型训练以后，通常还要对分类算法的参数做出调整，让模型能有个更好的准确率。内置了现有的大部分分类算法，常用的算法有算法朴素贝叶斯课题研究过程中给了我很大帮助，帮我解决了很多研究过程中的问题。在其帮助下我的研究课题才能得以完成。刘飚老师不仅在科学研究方法给了我很大的帮助，而且生活中也给了我很多鼓励，帮我克服了生活中的很多不好的习惯。刘飚老师勤学的态度也深深的感染了我，让我知道了勤奋是成功的唯捷径。感谢同实验室的李聪同学周李京同学钱勇同学刘巧瑜同学孙轶茹同学，他们在我科研进展遇到难题时提出了很多宝贵的建设性建议，与他们探讨使我受益匪浅。感谢同宿舍的吴志刚同学和周鑫同学，感谢在两年多时间里对我的悉心关照。特别感谢我的父亲和母亲，他们对我的鼓励默默支持深厚爱意激励着我专注于科研工作和生活中的学习，他们的爱是我永不止步的源动力。感谢我研究生阶段的全体老师和同学，特别感谢张力同学，李旭飞同学，杨庆瑞同学龚高翔同学董浩聪同学和赵晓蓉同学，正是因为和有你们在，我的这段生活才如此的丰富和难忘。最后要感谢对本课题给予大力支持的国家自然科学基金项目基于多模态特征的多媒体语义分析关键理论与技术研究和北京市自然科学基金项目基于网络多媒体信息语义的网络舆情分析研究，感谢在实验中所使用的各种开源工具的开发者们。基于机器学习的网页恶意代码检测技术研究参考文献参考文献,,,,,赛门铁克互联网安全威胁报告期,,,,,,,,,,黄建军,梁彬基于植入特征的网页恶意代码检测清华大学学报自然科学版张昊,陶然,李志勇等判断矩阵法在网页恶意脚本检测中的应用兵工学报,,,,,,,