1、“.....除了簇和簇以外,其余的簇体积都显得过小。以总访问次数大于的概念作为簇和簇的特征,则的用户主要访问的主题是学院信息,关心学院的重要新闻簇主要访问的主题是学院概况和招生就业......”。
2、“.....这样,分析的结果则是访问北京电子科技学院网站的用户中有两大用户群。与使用蚁群算法得到的结果相比,这样的结果十分的模糊,丢失了许多的细节。鉴于均值算法含有随机因素,本文再次用均值算法对同样的数据源重新进行了聚类分析,这次得到的结果如图所示......”。
3、“.....第卷第期,,戴升祥蚁群算法在挖掘中的应用研究广西大学硕士学位论文,段海滨蚁群算法原理及其应用科学出版社,年何尧......”。
4、“.....潘钧面向日志的语义聚类算法计算机应用研究,年月,第卷第期潘莹,梁京章,黎慧娟基于算法的校园网用户行为聚类分析计算机技术与自动化,年月,第卷第期郭岩网络日志中用户兴趣的挖掘及利用中国科学院计算科学技术研究所博士学位论文,年金松河,钱慎,张素智基于日志的高精度聚类算法河南科技大学学报自然科学版,年月,第卷第期张姝网站可用性分析及可视化技术研究沈阳工业大学硕士学位论文,年月吴俊杰,陈俊杰,赵栓柱基于用户访问兴趣的路径聚类研究计算机工程与应用,,张传升,萧蕴诗,赵勇用模糊均值聚类算法挖掘日志潜在客户的应用研究微型机与应用年第期,,,,,,附录事务聚类分析系统用户界面数据清洗视图。附图展示了数据清洗完成后的用户界面。界面中,分割栏上方的滚动表格显示了过滤后的日志记录分割栏下方的文本区域显示程序运行的状态......”。
5、“.....经过清洗后剩余记录条。附图数据清洗视图院概况研究生工作处系部设置机构总览人才培养学生天地科学研究招生就业学院信息重要文件后勤服务招生信息网重点实验室簇包含个会话访问的主题总访问次数学院概况招生就业研究生工作处学院信息人才培养系部设置学生天地科学研究后勤服务招生信息网机构总览重要文件专题专题在这次的聚类结果中,簇的体积极其庞大,几乎覆盖了整个数据集。该簇的事务主要访问的主题是学院信息学院概况招生就业系部设置学生天地和研究生工作处,这几乎包含了网站中所有最主要的主题。可以说,这样的事务特征等于没有特征。簇簇和簇的体积虽然偏小,但是仍能作为正常的事务簇。簇和簇的事务以访问学院的新闻动态为主,但不同的是簇的事务除了关心新闻动态以外,还关心学院的概况和机构设置,可以推测这类事务的用户可能是有意报考我院的考生......”。
6、“.....还比较关注学院的后勤服务信息,这是在使用蚁群算法作为聚类手段时没有发现的。簇的事务以访问学院的概况和招生就业信息为主,其次是访问学院的研究生工作信息。可以推测这类事务的用户很可能是有意报考我院的考生,并且其中含有大量报考我院研究生的考生。其余簇的体积过小,因此不能作为正常的事务簇。试验结果小结从试验结果可以看出,使用蚁群聚类算法不需要与数据集相关的先验知识,无需事先指定簇的数目,并且获得的聚类结果较为自然,能够发现各种大小的簇,且包含的细节数量适中,可以很好地被解释。但是在蚁群聚类分析的结果中,可能存在着大量的孤立点,这些孤立点可能含有细微但是重要的特征。均值聚类算法需要知道数据集中簇的数目这先验知识。由于该算法不考虑孤立点的存在,因此可能会将大量相似度较低的数据对象聚集到个簇中,最终形成体积庞大并且特征模糊的簇。另外,由于均值算法含有较多的随机因素......”。
7、“.....但是使用均值算法有可能发现蚁群算法聚类中不能发现的孤立点的特征。总结与展望论文总结事务聚类分析是挖掘领域的重要内容,通过对用户事务进行聚类分析,可以获得用户群对站点的关注热点用户浏览网站的行为规律等模式知识,这些知识对于于服务个性化推荐,改善页面之间的链接结构,提高整个系统的性能,开展电子商务智能应用等方面都具有重大意义。本文结合北京电子科技学院的服务器日志,对基于会话粒度的事务聚类分析的各个阶段进行了详细的论述。本文在介绍了事务聚类分析系统的总体设计之后,首先分析了聚类分析的数据基础,并在聚类分析前对原始数据实施了有针对性的数据清洗工作。为了获得质量良好的聚类结果,除了对数据集进行有针对性的数据清洗以及采用良好的聚类算法之外,数据集本身也要满足定的要求。是清洗后得到的数据集中,用户集中访问的不同地址的个数和会话总数的比例要适当......”。
8、“.....那么用户的行为模式可能会比较单,没有进行聚类分析的必要如果该比例过大,那么聚类分析后可能会得到许多体积很小的簇,这样的分析结果是难以为人所理解的。二是站点的网页地址要具有良好的格式,这会使数据清洗工作更易实现,也会使聚类的结果更易为人所理解。在事务聚类阶段,本文首先采用了基于人工蚂蚁模型的聚类分析算法得到了和数据集相关的先验知识,然后在此先验知识的基础上,又采用均值算法对数据集进行了重新分析,并且对比了两个算法的优劣。试验表明,在缺乏先验知识的情况下,蚁群算法比均值算法更适合作为事务聚类分析的算法。但是为了获得更为全局的认识,或者为了发现蚁群算法不能发现的更细微的事务特征,可以根据使用蚁群算法所获得的先验知识,采用均值算法对事务集再次进行分析。以上的技术和方法对于发现用户访问北京电子科技学院站点的行为规律是行之有效的......”。
9、“.....下步的研究工作事务聚类分析只是使用挖掘工作的部分。本文的绪论也曾提到,在很多应用中,聚类分析作为种数据预处理过程,是进步分析和处理数据的基础。因此,在本文的基础上,还可以在下面几个方向上做进步的研究进步分析各事务簇的模式。本文根据各个事务所访问的主题将相似的事务聚集成簇,并且以簇中事务频繁访问的主题作为该簇的特征。在此基础上,还可以发现簇中事务的更多特征。比如,在关心学院新闻动态的事务中,用户更关注哪类新闻这些用户都来自什么地区他们喜欢在哪些时间上学院的网站看新闻等等。挖掘孤立点的特征。在基于蚁群算法的聚类分析中,我们发现了大量的孤立点,数量接近数据集的半。这些孤立点不能被分配到已发现的任何个簇中。虽然在基于均值算法的聚类分析中,我们发现了些蚁群聚类算法不能发现的特征,但是这些特征仍然十分模糊。这些孤立点可能隐藏了些有价值的知识......”。
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。