,引用文档对被引用文档的说明往往更客观更概括更准确。结构挖掘在定程度上得益于社会网络和引用分析的研究把网页之间的关系分为连接和连接,运用引用分析方法找到同网站内部以及不同网站之间的连接关系。在结构挖掘领域最著名的算法是算法和算法。他们的共同点是使用定方法计算页面之间超连接的质量,从而得到页面的权重。著名的和搜索引擎就采用了该类算法。结构挖掘主要应用领域结构挖掘主要应用于上的信息检索领域,算法和算法都是利用网页间的超链接信息对搜索引擎的检索结果进行相关度排序。另外,在信息检索领域的应用还包括寻找个人主页和相似网页等。除此之外,结构挖掘可以提高搜索蜘蛛在网上的爬行效率,其搜索策略是沿着超链接优先爬行具有最高值的网页,从而使其以最短的路径最少的时间发现最多最新的文档信息。主机的镜像使得搜索引擎为镜像网页建立了大量重复的索引,不仅造成了存储空间的浪费,而且直接导致了检索结果的重复。由于近似镜像页的主机在链接结构上非常近似,因此等人通过将地址分析模式分析和链接结构分析相结合的方法,可以检测到大量的近似镜像页。近似镜像检测算法已经被成功地应用于消除搜索引擎系统的重复网页,成为提高搜索引擎服务质量的关键技术之。另外,结构挖掘还可以用于对页进行分类预测用户的链接使用及链接属性的可视化对各个商业搜索引擎索引的页数量进行统计分析等结构挖掘领域开展的研究理解用户偏好的检索系统。可以从用户查询的上下文环境发现用户的查询目标文档范围和分类并在该分类上做进步的查询和多次反馈文档的分类与聚类。根据查询词可能属于的分类范畴或相关类别的聚类,分别生成局部专题提供给查询用户,这样可以提高主题挖掘的深度和准确性基于数据抽取的知识搜索引擎。数据抽取技术运用机器学习算法,分析标签和数据的关系,建立半结构化数据,按照定义的把页面中有价值的数据抽取出来并保存在数据库中以提供结构化查询服务基于自然语言理解的搜索引擎。利用自然语言进行查询需要解决如文本挖掘和等关键技术,目前提供自然语言查询的搜索引擎如能提供些最基本的理解能力。随着技术的发展和成熟,利用人类语言查询将成为重要的信息获取手段基于语义的信息检索。语义是从传统过渡到知识化下代信息组织和表达方式。与不同,语义利用可扩展标识语言编写,所有数据都有确定的语义而不是像那样各个标签之间无法区分。通过和框架,可以建立起对知识进行描述和管理的有效方法,使得上的数据可以被机器所理解并集成到各个不同的应用程序中。由于语义规器模式的访问者说访问的内容来裁减用户与信息空间的交互,减少用户过滤信息的负担预测未来的访问模式,了解正在发生的变化。相关序列模式的存取的分析,可对服务器的缓存预取和交换参数进行调整。四分类技术分类计数主要是根据用户的特征用户群的访问特征些共同点额特性。这些特征可用于把数据项映射到预先定义好的类中去。即对新添加到数据库里的数据进行分类。在网络数据挖掘中,分类计数可以根据访问这些用户而得到的个人信息或共同访问模式得出访问服务器文件的用户特征。分类方法有很多种,常使用归纳学习算法,如决策树技术贝叶斯分类法邻近分类法。五聚类技术局累计数是否合访问规律特征用户进行用户特征挖掘。在网络用法挖掘中,存在两种类型的聚类使用聚类用户聚类和网页聚类。用户聚类主要是把所有用户划分为若干组,具体有相似特性或浏览模式的用户分在组,这类知识对为用户提供个性化服务特别有用。网页类聚可以找出具有相关内容的网页组,这对网上搜索引擎及提供上网帮助的应用特别有用。上述两类应用都能根据用户的询问或过去所需求的信息的历史生成静态或动态,从而向用户推荐相关的超链接。目前许多知名的门户网站如搜狐,新浪等均在用户浏览网页后给出相关链接服务,就是运用了这类技术。六挖掘的发展方向目前,在国内外挖掘的研究处于初级阶段,是前沿性的研究领域。在挖掘领域中面临下列诸多方面的挑战在数据预处理方面,数据的收集机制也技术开发研究和开发多种数据的智能集成系统,以期能提供完善的查询优化和维护机制。高效多能自动导航的搜索引擎的研究。基于半结构化的数据查询语言及查询系统的研究现有挖掘方法与技术改进。模式发现与分析智能化工具的研究与开发。新的数据模型与算法研究。七结束语挖掘是当今世界上的热门研究领域,其研究有助于网络资源的开发利用,具有广阔的应用前景和巨大的现实意义。目前国内的挖掘尚处于学习跟踪和探索阶段,许多问题有待于进步的研究和深化。随着技术的发展,页面会蕴含更多的结构化个语义信息,者会使挖掘工作变得更有效,也更容易。八参考文献朱丽红,赵燕平挖掘研究综述情报技术,陈新中,李岩,杨炳儒,等日志挖掘技术进展系统工程与电子技术,涂承胜,鲁明羽,陆玉昌挖掘研究综述计算机工程与应用,蒋良孝,蔡之华挖掘及其应用研究现代计算机,毛国君数据挖掘原理与算法清华大学出版社,,清华大学出版社,范化的定义和数据的自描述特性,对数据的推理和联想成为可能,基于语义的信息检索和知识发现将成为下代智能信息检索的重要研究方向。三用法挖掘除了内容和链接结构,挖掘的另个重要任务是日志挖掘,它通过挖掘日志记录来发现用户访问页面的模式。通过分析和探究日志记录中的规律,可以识别电子商务的潜在用户,增强对用户的因特网信息服务的质量和交付,并改进服务器系统的性能和结构。目前研究较多的日志挖掘技术和工具可分为两大类模式发现和模式分析。在模式发现中,首先要解决的额问题就是数据的预处理,它主要包括如下两个部分数据清洗包括无关记录的剔除判断是否有重要的额访问没有被记录用户的识别等问题事务识别是指将页面访问序列划分为代表事务或用户会话的逻辑单元。在对事务进行划分后,就可以根据具体的分析需求选择访问模式发现的技术,如路径分析关联规则挖掘时序模式以及聚类和分类技术。路径分析可以用来分析站点中最常被访问的路径,从而可以调整站点的结构。模式分析利用领域专家的知识以及其它些可用的标准来分析这些模式,并过滤掉那些没有利用价值以及有偏差的模式,将发现的有价值的用户浏览模式以表格饼图曲线图趋势图直方图或者其它特殊形式表现形式显示出来。如果没有适合的技术和工具来辅助分析人员的理解,采用各种技术挖掘出来的模式将不能得到的很好的利用。五挖掘相关技术模式发现是挖掘的主要阶段,采用的算法有统计分析关联规则挖掘路径分析时序模式发现聚类和分类算法等。统计分析方法它是抽取有关网站访问者知识的最常用方法。通过分析会话文件或事物数据库,可对诸如网页视图浏览时间导航路径长度等做出不同的描述性统计分析。很多分析工具还提供定期的报告,其中包含最大频繁访问页面平均浏览时间通过站点的路径的平均长度统计信息。此类报告还能提供有限的低层次的分析,比如检测未授权入口点找出最常见不变的等。尽管这种分析缺乏深度,但这类知识有助于改进系统性能提高系统的安全性便于站点修改,并能提供决策支持。二关联规则挖掘技术关联规则主要关注事务内的关系。在网络用法挖掘中,关联规则挖掘就是挖掘用户在个访问期间从服务器上访问的页面文件之间的关系,找出在次服务器会话中最经常起出现的相关页面。挖掘发现的相关规则往往是指支持度超过预设值的组访问页,这些网页之间可能并不存在直接的应用关系。例如,用算法发现关联规则有可能发现访问包含网络搜索引擎网页的用户和访问有关纳斯达克市场页面的用户之间的常用技术,可从事务数据库中挖掘出最大频繁访问项集,该项集就是关联规则挖掘出来的用户访问模式。三序列模式挖机技术时序模式主要关注事务之间的关系。序列模式挖掘就是挖掘出交集之间序列关系的模式,在中发现所有满足用户规定的最小支持度的大序列模式。在网站服务器日志中,用户的访问是以段是按金为单位记载的,经过数据精简事件交易确认以后是个间断的时间序列,有助于网站管理人员改善网站的组织根据具有相同浏览细分为前向神经网络算法自组织神经网络自组织特征映射竞争学习等等。三数据挖掘的技术方法数据挖掘的方法通常可以分为两大类类是统计型,常用的技术概率分析相关性聚类分析和判别分析等另类是人工智能中的机器学习型。通过训练和学习大量的样品集得出需要的模式或参数。数据挖掘的应用中,最终的目标都是发现有价值的知识信息,有共同的思路和步骤,但是存在很大的差异和区别。由于各种方法有自身的功能特点及应用领域,数据挖掘技术的选择将影响最后结果地质量和效果。下面对数据挖掘中常用的关联分析决策树和神经网络等几种技术方法进行讨论,包括技术的基本思想优势与缺点和主要应用领域见表表技术方法主要功能和特点主要应用领域关联分析分类聚类零售业保险业和通讯业决策树归纳分类直观制造业医药和零售业等遗传算法聚类优化高效性金融业保险业和农业等贝叶斯网络分类聚类和预测易理解医学制造业和电信等粗糙集方法不去定性分类零售业金融业和制造业等神经网络预测分类和聚类解释性差金融业保险业和制造业等统计分析聚类结果精确易理解金融业制造业和医学等四数据挖掘与相关技术挖掘与传统挖掘挖掘从传统的数据挖掘发展而来,但是与传统的数据挖掘相比有许多不同之处。传统的数据挖掘是以数据仓库为基础,对结构化的数据源进行信息的加工分析和模式挖掘。而挖掘的对象是半结构化或无结构的文档,使用信息以及大量的动态的超链接信息,缺乏机器可理解的语义。因此有些数据挖掘技术并不适用于挖掘,即使可用也
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
第 1 页 / 共 27 页
第 2 页 / 共 27 页
第 3 页 / 共 27 页
第 4 页 / 共 27 页
第 5 页 / 共 27 页
第 6 页 / 共 27 页
第 7 页 / 共 27 页
第 8 页 / 共 27 页
第 9 页 / 共 27 页
第 10 页 / 共 27 页
第 11 页 / 共 27 页
第 12 页 / 共 27 页
第 13 页 / 共 27 页
第 14 页 / 共 27 页
第 15 页 / 共 27 页
预览结束,还剩
12 页未读
阅读全文需用电脑访问
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。
1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。
2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。
3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。
4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。
5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。