帮帮文库

(Web事务聚类分析的研究与实现) (Web事务聚类分析的研究与实现)

格式:DOC | 上传时间:2022-06-25 14:14 | 页数:36 页 | ✔ 可编辑修改 | @ 版权投诉 | ❤ 我的浏览
(Web事务聚类分析的研究与实现)
(Web事务聚类分析的研究与实现)
1 页 / 共 36
(Web事务聚类分析的研究与实现)
(Web事务聚类分析的研究与实现)
2 页 / 共 36
(Web事务聚类分析的研究与实现)
(Web事务聚类分析的研究与实现)
3 页 / 共 36
(Web事务聚类分析的研究与实现)
(Web事务聚类分析的研究与实现)
4 页 / 共 36
(Web事务聚类分析的研究与实现)
(Web事务聚类分析的研究与实现)
5 页 / 共 36
(Web事务聚类分析的研究与实现)
(Web事务聚类分析的研究与实现)
6 页 / 共 36
(Web事务聚类分析的研究与实现)
(Web事务聚类分析的研究与实现)
7 页 / 共 36
(Web事务聚类分析的研究与实现)
(Web事务聚类分析的研究与实现)
8 页 / 共 36
(Web事务聚类分析的研究与实现)
(Web事务聚类分析的研究与实现)
9 页 / 共 36
(Web事务聚类分析的研究与实现)
(Web事务聚类分析的研究与实现)
10 页 / 共 36
(Web事务聚类分析的研究与实现)
(Web事务聚类分析的研究与实现)
11 页 / 共 36
(Web事务聚类分析的研究与实现)
(Web事务聚类分析的研究与实现)
12 页 / 共 36
(Web事务聚类分析的研究与实现)
(Web事务聚类分析的研究与实现)
13 页 / 共 36
(Web事务聚类分析的研究与实现)
(Web事务聚类分析的研究与实现)
14 页 / 共 36
(Web事务聚类分析的研究与实现)
(Web事务聚类分析的研究与实现)
15 页 / 共 36

1、相似的事务聚集成簇,并且以簇中事务频繁访问的主题作为该簇的特征。在此基础上,还可以发现簇中事务的更多特征。比如,在关心学院新闻动态的事务中,用户更关注哪类新闻这些用户都来自什么地区他们喜欢在哪些时间上学院的网站看新闻等等。挖掘孤立点的特征。在基于蚁群算法的聚类分析中,我们发现了大量的孤立点,数量接近数据集的半。这些孤立点不能被分配到已发现的任何个簇中。虽然在基于均值算法的聚类分析中,我们发现了些蚁群聚类算法不能发现的特征,但是这些特征仍然十分模糊。这些孤立点可能隐藏了些有价值的知识。根据已有的聚类分析结果构建个性化服务推荐系统。事务聚类分析的结果可以用于构建个性化服务的推荐系统。当个用户在网站上浏览了定时间后,个性化服务系统就可以判断该用户更具备哪个用户群的特征,从而将已经为该用户群定制好的页面呈现给用户,使得用户的浏览更为便利,同时也可提高用户的访问兴趣。这种推荐系统在电子商务网站上具有巨大的应用价值。随着的迅猛发展和电子商务电子政务的兴起,使用挖掘将会得到更多的重视,也会得到更大的发展。致谢首先非常感谢老师,张老师从我的毕业设计开题起,就不断地给予我许多指导,同时他也带我走进了数据挖掘的大门。感谢和老师,他们对我的毕业设计都提供了非常有帮助的建议。感谢计算机科学与技术系全体老师的辛勤教育,他们为我的研究工作打下了坚实的基础。感谢评阅评审论文和出席论文答辩会的各位专家在百忙中给予的悉心指导,参考文献缪勇匿名用户浏览路径挖掘研究与实现南京理工大学硕士学位论文,张慧颖,焦霖楠。

2、以外,还比较关注学院的后勤服务信息,这是在使用蚁群算法作为聚类手段时没有发现的。簇的事务以访问学院的概况和招生就业信息为主,其次是访问学院的研究生工作信息。可以推测这类事务的用户很可能是有意报考我院的考生,并且其中含有大量报考我院研究生的考生。其余簇的体积过小,因此不能作为正常的事务簇。试验结果小结从试验结果可以看出,使用蚁群聚类算法不需要与数据集相关的先验知识,无需事先指定簇的数目,并且获得的聚类结果较为自然,能够发现各种大小的簇,且包含的细节数量适中,可以很好地被解释。但是在蚁群聚类分析的结果中,可能存在着大量的孤立点,这些孤立点可能含有细微但是重要的特征。均值聚类算法需要知道数据集中簇的数目这先验知识。由于该算法不考虑孤立点的存在,因此可能会将大量相似度较低的数据对象聚集到个簇中,最终形成体积庞大并且特征模糊的簇。另外,由于均值算法含有较多的随机因素,因此其聚类结果不稳定。但是使用均值算法有可能发现蚁群算法聚类中不能发现的孤立点的特征。总结与展望论文总结事务聚类分析是挖掘领域的重要内容,通过对用户事务进行聚类分析,可以获得用户群对站点的关注热点用户浏览网站的行为规律等模式知识,这些知识对于于服务个性化推荐,改善页面之间的链接结构,提高整个系统的性能,开展电子商务智能应用等方面都具有重大意义。本文结合北京电子科技学院的服务器日志,对基于会话粒度的事务聚类分析的各个阶段进行了详细的论述。本文在介绍了事务聚类分析系统的总体设计之后,首先分析了聚类分析的数据基础,并在聚类分析。

3、作为簇和簇的特征,则的用户主要访问的主题是学院信息,关心学院的重要新闻簇主要访问的主题是学院概况和招生就业,可以大致推断该类用户是有意向报考我院的考生。这样,分析的结果则是访问北京电子科技学院网站的用户中有两大用户群。与使用蚁群算法得到的结果相比,这样的结果十分的模糊,丢失了许多的细节。鉴于均值算法含有随机因素,本文再次用均值算法对同样的数据源重新进行了聚类分析,这次得到的结果如图所示。簇包含个会话访问的主题总访问次数学院概况招生就业系部设置研究生工作处学生天地机构总览人才培养学院信息后勤服务科学研究省略总访问次数少于的个主题簇包含个会话访问的主题总访问次数学院信息学生天地后勤服务专题学院概况教学与研究人才培养校友园地招生就业科学研究专题系部设置招生信息网机构总览师德建设研究生工作处校务信息簇包含个会话访问的主题总访问次数学院信息学院概况招生就业系部设置学生天地研究生工作处省略总访问次数少于的个主题簇包含个会话访问的主题总访问次数学院信息后勤服务学生天地专题学院概况人才培养教学与研究科学研究省略总访问次数小于的个主题簇包含个会话访问的主题总访问次数学生天地学院信息系部设置学院概况招生就业省略总访问次数小于的个主题簇包含个会话访问的主题总访问次数学生天地学院概况学院信息招生就业招生信息网研究生工作处专题校友园地机构总览人才培养专题系部设置教学与研究图第二次使用均值聚类算法得到的各个簇的特征簇包含个会话访问的主题总访问次数招生就业学院概况系部设置学生天地机构总览人才培养科学研究。

4、前对原始数据实施了有针对性的数据清洗工作。为了获得质量良好的聚类结果,除了对数据集进行有针对性的数据清洗以及采用良好的聚类算法之外,数据集本身也要满足定的要求。是清洗后得到的数据集中,用户集中访问的不同地址的个数和会话总数的比例要适当。如果该比例过小比如整个数据集中只有个地址,那么用户的行为模式可能会比较单,没有进行聚类分析的必要如果该比例过大,那么聚类分析后可能会得到许多体积很小的簇,这样的分析结果是难以为人所理解的。二是站点的网页地址要具有良好的格式,这会使数据清洗工作更易实现,也会使聚类的结果更易为人所理解。在事务聚类阶段,本文首先采用了基于人工蚂蚁模型的聚类分析算法得到了和数据集相关的先验知识,然后在此先验知识的基础上,又采用均值算法对数据集进行了重新分析,并且对比了两个算法的优劣。试验表明,在缺乏先验知识的情况下,蚁群算法比均值算法更适合作为事务聚类分析的算法。但是为了获得更为全局的认识,或者为了发现蚁群算法不能发现的更细微的事务特征,可以根据使用蚁群算法所获得的先验知识,采用均值算法对事务集再次进行分析。以上的技术和方法对于发现用户访问北京电子科技学院站点的行为规律是行之有效的,对于研究其它站点也具有定的参考价值。下步的研究工作事务聚类分析只是使用挖掘工作的部分。本文的绪论也曾提到,在很多应用中,聚类分析作为种数据预处理过程,是进步分析和处理数据的基础。因此,在本文的基础上,还可以在下面几个方向上做进步的研究进步分析各事务簇的模式。本文根据各个事务所访问的主题将。

5、松河,钱慎,张素智基于日志的高精度聚类算法河南科技大学学报自然科学版,年月,第卷第期张姝网站可用性分析及可视化技术研究沈阳工业大学硕士学位论文,年月吴俊杰,陈俊杰,赵栓柱基于用户访问兴趣的路径聚类研究计算机工程与应用,,张传升,萧蕴诗,赵勇用模糊均值聚类算法挖掘日志潜在客户的应用研究微型机与应用年第期,,,,,,附录事务聚类分析系统用户界面数据清洗视图。附图展示了数据清洗完成后的用户界面。界面中,分割栏上方的滚动表格显示了过滤后的日志记录分割栏下方的文本区域显示程序运行的状态,图中该区域显示本次数据清洗过程共读取日志记录条,经过清洗后剩余记录条。附图数据清洗视图院概况研究生工作处系部设置机构总览人才培养学生天地科学研究招生就业学院信息重要文件后勤服务招生信息网重点实验室簇包含个会话访问的主题总访问次数学院概况招生就业研究生工作处学院信息人才培养系部设置学生天地科学研究后勤服务招生信息网机构总览重要文件专题专题在这次的聚类结果中,簇的体积极其庞大,几乎覆盖了整个数据集。该簇的事务主要访问的主题是学院信息学院概况招生就业系部设置学生天地和研究生工作处,这几乎包含了网站中所有最主要的主题。可以说,这样的事务特征等于没有特征。簇簇和簇的体积虽然偏小,但是仍能作为正常的事务簇。簇和簇的事务以访问学院的新闻动态为主,但不同的是簇的事务除了关心新闻动态以外,还关心学院的概况和机构设置,可以推测这类事务的用户可能是有意报考我院的考生,或者是有意到我院就职的应聘人员而簇的事务除了访问新闻动态。

6、点实验室簇包含个会话访问的主题总访问次数系部设置学院信息学院概况招生就业科学研究重点实验室机构总览省略总访问次数小于的个主题簇包含个会话访问的主题总访问次数学生天地学院信息系部设置学院概况招生就业省略总访问次数小于的个主题簇包含个会话访问的主题总访问次数学院信息学生天地系部设置学院概况研究生工作处机构总览人才培养招生就业后勤服务科学研究教学与研究专题专题省略总访问次数少于的个主题簇包含个会话访问的主题总访问次数学院概况研究生工作处科学研究人才培养招生就业后勤服务重要文件重点实验室招生信息网学院信息学生天地专题系部设置机构总览专题图第次使用均值聚类算法得到的各个簇的特征可以看到,除了簇和簇以外,其余的簇体积都显得过小。以总访问次数大于的概念作为簇和簇的特征,则的用户主要访问的主题是学院信息,关心学院的重要新闻簇主要访问的主题是学院概况和招生就业,可以大致推断该类用户是有意向报考我院的考生。这样,分析的结果则是访问北京电子科技学院网站的用户中有两大用户群。与使用蚁群算法得到的结果相比,这样的结果十分的模糊,丢失了许多的细节。鉴于均值算法含有随机因素,本文再次用均值算法对同样的数据源重新进行了聚类分析,这次得到的结果如图所示。簇包含个会话访问的主题总访问次数学院概况招生就业系部设置研究生工作处学生天地机构总览人才培养学院信息后勤服务科学研究省略总访问次数少于的个主题簇包含个会话访问的主题总访问次数学院信息学生天地后勤服务专题学院概况教学与研究人才培养校友园地招生就业科学研究专题系。

参考资料:

[1](EC公司绩效管理系统的设计与研究)(最终版)(第81页,发表于2022-06-25 14:30)

[2](EAP在小型民营企业中的应用的研究)(第50页,发表于2022-06-25 14:30)

[3](EAP在AB公司员工压力管理中的应用的研究)(最终版)(第55页,发表于2022-06-25 14:30)

[4](DZZ_10多轴钻床的设计)(第54页,发表于2022-06-25 14:30)

[5](D银行浙江分行经营绩效评价体系的研究)(第71页,发表于2022-06-25 14:30)

[6](D公司战略采购模式的研究)(最终版)(第47页,发表于2022-06-25 14:30)

[7](D公司品牌策略的研究)(第61页,发表于2022-06-25 14:30)

[8](D公司核心人才流失及防范体系构建的研究)(最终版)(第54页,发表于2022-06-25 14:30)

[9](D公司动态ABC库存管理系统开发与应用)(第56页,发表于2022-06-25 14:30)

[10](DX集装箱码头公司薪酬管理体系设计的研究)(第50页,发表于2022-06-25 14:30)

[11](DZ60振动打桩锤的设计)(第54页,发表于2022-06-25 14:30)

[12](DY公司质量管理的研究)(第54页,发表于2022-06-25 14:30)

[13](DYK公司发展战略的研究)(第54页,发表于2022-06-25 14:30)

[14](DY_150采煤机的设计)(第40页,发表于2022-06-25 14:30)

[15](DWY25多功能全液压挖掘机的设计)(最终版)(第36页,发表于2022-06-25 14:30)

[16](DVD注塑模具的设计)(第42页,发表于2022-06-25 14:30)

[17](DVD遥控器外壳上半部分塑料模具的设计)(第66页,发表于2022-06-25 14:30)

[18](DTQ1400型重型带式输送机头部清扫器的设计)(第52页,发表于2022-06-25 14:30)

[19](DTII型固定式带式输送机设计(450吨每小时)的设计)(第64页,发表于2022-06-25 14:30)

[20](DP泵业公司(中国)发展战略的研究)(第71页,发表于2022-06-25 14:30)

下一篇
温馨提示

1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。

2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。

3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。

4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。

5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。

帮帮文库——12年耕耘,汇集海量精品文档,旨在将用户工作效率提升到极致