网络的负载。
在集群上进行分布式并行计算,计算的结点可以很方便的扩充,计算能力得了很大的增强,但由于数据需要在多个计算机之间流动,所以网络宽带资源变的很宝贵。
任务粒度把原始大数据集分割成多个小数据集,通常让小数据集小于或等于上个块的大小缺省情况是,这样就可以保证个小的数据集位于台计算机上,便于本地计算。
上语言开发的提供了。
但要想在上作语言开发,必须先安装库。
首先需要找到源码然后可以将该源地址假如到的中。
注意上面的对操作系统有要求,必须是的系统。
然后这就可以使用安装了。
安装好后就可以在上作语言开发了。
测试用例代码见附录编译运行上面执行该程序是在的文件系统上下创建个文件在该文件中写入测试用例在文件系统上实现文件的拷贝。
测试代码代码见附录编译运行上面执行平台上编写分布式并行计算程序编写代码见附录编译运行如上程序过程如下会生成个文件利用下述命令将编译所得的文件打包成包将测试文件上传到上运行程序查看执行结果执行过程图解及其说明图计算过程图计算过程结论数据挖掘是从海量数据中提取有用信息。
现在的政府和企业都把数据看成非常宝贵的财富,纷纷利用数据挖掘发现其中隐藏的信息。
亚马逊在年的峰会上表明其目前的数据挖掘业务比重非常大,并为提升其服务将有显著的持续投入。
总体上来说,除数据保密性以外,信息机构内部的开源架构的应用很好地解决了如下几方面的问题高效网络存储和计算资源的控制利用,有效地防止了服务器蔓延,推动机构内部数据中心的绿色节能建设。
通过虚拟技术将具有相类似的应用服务器整合到相对集中的资源池中,提高应用的稳定性可用性,同时通过可视化监控界面动态配置调整调度服务器及存储设备,提高计算资源的利用效率。
加速分布式数据挖掘服务部署能力。
通过分布式服务应用映像模板,用户可以根据数据挖掘的任务和数据规模,简单灵活创建和增减服务器结点,形成规模合适的容错性强的集群,低成本快速完成数据挖掘任务。
任务完成后,还可以快速收回计算资源给其他应用使用,深层次挖掘计算资源的可利用空间。
大数据处理简单化,开发方便。
通过界面化平台管理,海量数据处理对专业数据分析人员来说不再是复杂的服务器集群软硬件和数据挖掘算法的整合过程,系统将屏蔽掉底层,数据分析师可以将更多精力放到数据挖掘算法上。
这种大数据处理过程的简单化趋势将推动知识挖掘和发现的快速发展。
尽管开源有如上这些优点,但目前仍有些不足,例如,在算法,多节点计算速度,实时数据处理,中文支持等方面有很多限制和不足。
结束语通过这次毕业设计,我学到了很多关于云计算,海量数据处理相关的知识,以前只是接触些概念,现在通过具体的环境搭建和程序编写,对这些技术有了更深刻的理解,这些知识也为我日后从事的工作奠定了良好的基础。
在毕设的完成过程中,我明白了技术很重要的个方面就是解决问题的能力,因为在该过程中会出现许许多多从未见过的问题,这就需要我们面对个陌生的问题不要有畏惧感,勇敢地面对,遇到问题就解决问题。
在毕设过程中,开始就遇到安装出现各种问题,首先是在上安装的,经过两层虚拟后发现后面很多问题越来越复杂,出现的问题也越来越多,后来为了把问题简化,将直接安装在硬件上,开始用镜像制作了个启动盘,发现总是在开始的画面卡死,最终在网上了解到可能是版本太高,硬件不支持。
后来下载了低版本就安装成功了。
当毕设所需的环境搭建好后,有种说不出的成就感和喜悦之情。
在这几个月的毕设完成过程中,我收获到的不只是技术,更重要的是面对出现问题处理问题的那种心态,这种心态会使我终身受益。
致谢经过将近个学期的努力,我最终完成了基于弹性云计算开源海量数据处理课题的研究。
在这里起关键作用的是指导老师李晓戈老师的帮助。
他不仅定期组织我们开会督促,而且还指导我们答疑。
在该课题的研究中,还得感谢杨浩同学,他的毕设和我的毕设有些共同的点,我们用自己擅长的技术互补,这样才这么顺利的完成,这也充分体现了团队的精神。
最后,衷心感谢李晓戈老师对我的帮助,同时也感谢杨浩同学和切帮助过我,,






























1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。
2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。
3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。
4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。
5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。
