doc 基于点击流数据和Hadoop的毕业设计论文 ㊣ 精品文档 值得下载

🔯 格式:DOC | ❒ 页数:91 页 | ⭐收藏:0人 | ✔ 可以修改 | @ 版权投诉 | ❤️ 我的浏览 | 上传时间:2022-06-25 20:01

基于点击流数据和Hadoop的毕业设计论文

,,,武汉理工大学硕士学位论文刘伟,胡志刚,郭克华设计模式清华大学出版社,接下来查询这个资源第个表示未知的之间的导航关系。查询的结果是个带权有向图其数据表示形式是邻接表,可使用表保存。查询原理用伪代码表示如下武汉理工大学硕士学位论文外面的双重循环相当于关系运算中的笛卡尔积,可以用无条件的关系运算符来实现。使用实现如下,,,,,查询表结果显示,个资源之间共存在种导航关系总可能导航关系是种。表数据详见本课题的项目。查询查询结果中增加了个字段。它是以为底数的指数,用于描述导航关系的数量级。对所得邻接表进行数据化展示,本文选取了由实验室发布的开源工具包。可以渲染出使用简单的文本描述的矢量图形。本文利用正则表达式对表中的邻接表数据进行简单的处理,生成格式的矢量图形文件,然后利用及相关工作渲染出来。生成的图形文件格式为格式的详细设置参见绘图语言参考。使用自带的命令将格式转换为格式即可生成可用浏览器直接打开的形式的矢量图形文件。图形展示如图。如图,图中线的宽度代表了导航关系的强度或数量级。图中的节点明显可分为四类未知来源网站首页评论提交页其它页面均为专题页面。在统计时间段内,武汉理工大学硕士学位论文访客从未知来源进入了所有个主要页面,又从未知来源和所有其它个主要页面进入了评论提交页。网站首页在所统计的个页面的导航中占据的作用似乎不大访客通过它向其它页面导航的次数微乎其微。从图中还可以看出很多的信息,这里不再作深入讨论。武汉理工大学硕士学位论文图网站访问拓扑结构图武汉理工大学硕士学位论文自动化网站访客行为分析系统的构建本章前面的七节详细展示了运用处理传统点击流数据,分析网站访客行为的关键环节和关键技术。上面的分析是半手动的网站日志是手动复制到集群的日志的预处理是手动编写程序和执行程序完成的每个分析都是通过手动输入命令或,将结果导出到文本文件,最后通过绘图展示来完成的。手动完成网站访客行为分析的过程可以将尚未清晰的分析过程逐步清晰化,可以很容易地对过程进行改进,是构建自动化分析系统的必经阶段当分析过程趋于稳定,分析量增大后,分析过程的自动化,即构建自动化的网站访客行为分析系统,成了必然的选择。本节对此进行简单设计与实现。需求分析与整体设计围绕本研究的目的帮助企业开发面向未来海量用户和复杂业务的网站访客行为分析系统,本文对目标系统提出以下扼要的功能需求能定时收集网站日志能自动对收集来的网站日志进行预处理能自动执行预设的数据分析任务允许数据分析人员通过命令行界面或网页界面设定与执行数据分析任务所分析结果能保存成结构化的文本文件,允许数据分析人员下载并使用打开所分析结果保存在数据库,并能在网页界面上展示。根据以上对功能需求的分析,可以将系统的功能划分为五个模块日志收集模块,日志预处理模块,计划任务模块,分析结果存储模块,报表展示模块,如图。各个模块的主要功能如下日志收集模块在指定的日志收集时刻,从指定的个或多个网站服务器的日志目录下复制日志日志预处理模块执行预设的日志清洗任务,将收集来的日志处理成后续易于分析的结构化形式计划任务模块存储分析人员提供的任务及其执行计划在计划满足条武汉理工大学硕士学位论文件时,准备环境,执行相应任务显示任务执行过程记录执行日志分析结果存储模块将分析结果存储在数据库和文件系统中报表展示模块提供对分析结果的报表展示。日志收集模块日志预处理模块计划任务模块分析结果存储模块报表展示模块图网站访客行为分析系统模块层次结构图如图所示,网站访客行为分析系统模块层次结构图具有个自底向上的方向性,其下端接外部系统如外部网站服务器网络文件系统等,上端接使用者如网站分析人员。日志收集和日志预处理本身也属于计划任务,但它们是后续分析型计划任务的先导任务,其中日志收集涉及与外部系统的交互,日志预处理涉及海量数据的写操作,因此将它们提出成单独的模块。计划任务模块接受分析人员的计划任务和执行命令的输入,分析结果存储模块存储任务执行的输出,报表展示模块以可视化的方式展示分析结果。上述系统的逻辑模块同样也是系统主要的功能模块。系统功能模块结构如图。网站访客行为分析系统计划任务分析结果存储日志预处理报表展示日志收集计划任务设定计划任务执行文本文件存储关系数据库存储网页报表展示报表展示图系统功能模块结构图在这所有模块的背后,是通用分布式大规模数据存储与计算系统武汉理工大学硕士学位论文连接所有模块和的,是包括命令和管道重定向机制命令特别是计划任务命令和微型数据关系库引擎提供任务设定和报表展示用户界面的技术,本文设计使用模式的网站应用,并采用了公司提供的基于和的报表展示控件的开源版本标准版。所设计网站访客行为分析系统技术架构如图。如图所示,可直接读取数据库展示数据分析结果,可调用完成后者的部分工作,包括计划任务设定等。拥有对和等所有其它部件的完全控制能力,可更加自由地设定计划任务执行任务等,并控制的执行的分析结果的导出导出到本地文件系统或。计划任务设定,报表展示计划任务执行计划任务设定,任务执行,数据传输等数据分析结果存储分布式大规模数据存储与处理图网站访客行为分析系统技术架构系统的部署可参考节中图描述的基于的网站访客行为分析方案的基本架构。详细设计总体设计中设计了构成系统的五大模块,并给出了实现和连接这些模块的技术架构。本小节将结合前面的需求分析和本章所做的具体的分析工作以及技术架构中的技术组件,详细设计每个模块的实现原理。日志收集模块日志收集模块在指定的日志收集时刻,从指定的个或多个网站服务器的日志目录下复制日志。该模块使用技术架构中的,为每个日志源设定条定时复制计划即可完成。须事先配置网站服务器,使其为每天创建单独的日志文件,方便每日定时复制和后续以天为自然统计时段进行数据分析。须能武汉理工大学硕士学位论文允许配置源路径和目标路径源路径须支持网络文件系统。须妥善处理好通过网络从网站服务器拷贝日志文件可能出现或失败的问题对于无法自动恢复的失败,须通过邮件系统自动汇报数据分析人员。日志预处理模块日志预处理模块执行预设的日志清洗任务,将收集来的日志处理成后续易于分析的结构化形式。该模块基于技术架构中的和,作为日志收集任务完成后的后续任务被自动触发。预处理的方法参考节中面向通用分析目的的预处理方式,即将网站日志处理成与表模式对应可直接作为数据文件的格式。须完整记录日志行的异常情况当异常日志行占比超过时,须通过邮件系统自动汇报数据分析人员。计划任务模块计划任务模块存储分析人员提供的任务及其执行计划在计划满足条件时,准备环境,执行相应任务显示任务执行过程记录执行日志。它是系统的核心模块,也是最为复杂的模块。为允

下一篇
基于点击流数据和Hadoop的毕业设计论文第1页
1 页 / 共 91
基于点击流数据和Hadoop的毕业设计论文第2页
2 页 / 共 91
基于点击流数据和Hadoop的毕业设计论文第3页
3 页 / 共 91
基于点击流数据和Hadoop的毕业设计论文第4页
4 页 / 共 91
基于点击流数据和Hadoop的毕业设计论文第5页
5 页 / 共 91
基于点击流数据和Hadoop的毕业设计论文第6页
6 页 / 共 91
基于点击流数据和Hadoop的毕业设计论文第7页
7 页 / 共 91
基于点击流数据和Hadoop的毕业设计论文第8页
8 页 / 共 91
基于点击流数据和Hadoop的毕业设计论文第9页
9 页 / 共 91
基于点击流数据和Hadoop的毕业设计论文第10页
10 页 / 共 91
基于点击流数据和Hadoop的毕业设计论文第11页
11 页 / 共 91
基于点击流数据和Hadoop的毕业设计论文第12页
12 页 / 共 91
基于点击流数据和Hadoop的毕业设计论文第13页
13 页 / 共 91
基于点击流数据和Hadoop的毕业设计论文第14页
14 页 / 共 91
基于点击流数据和Hadoop的毕业设计论文第15页
15 页 / 共 91
温馨提示

1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。

2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。

3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。

4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。

5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。

  • 文档助手,定制查找
    精品 全部 DOC PPT RAR
换一批