doc 专家检索研究综述 ㊣ 精品文档 值得下载

🔯 格式:DOC | ❒ 页数:25 页 | ⭐收藏:0人 | ✔ 可以修改 | @ 版权投诉 | ❤️ 我的浏览 | 上传时间:2023-09-14 20:25

专家检索研究综述

过潜语义 标引对研究团体的研究成果文献建立索引作为团体专长的种描述,从而实现自动化的 专家检索系统。等通过电子邮件交互提取出个专家网络,并通过该网络寻找 具有相同兴趣或专长的专家。等利用讨论组中专家的交流提出了种具备专家 推荐能力的智能中介来向讨论组中的询问者推荐可解答问题的专家。等和 等分别利用专家访问互联网的日志和专家访问本地文件的日志,结合被访问网页和 文档的主题,来实现类似于专家检索的功能。等通过对公司内部网络中的 文档和专家建立联系,提取专家专长的表示,从而实现专家检索。等提出了种利用 资源描述框架描述专长的形式,并利用了高等院校中常见的专长资源专家主页 学术文献科技报告来检索专家。 目前,在专家检索领域仍没有种通用的方法,通过分析近几年来专家检索任 务中采用方式 如专家证据来源文档或者网页的链接般只考虑入链,地址长度等。内容上主要是 考虑候选专家姓名或者邮件地址与查询主题词之间的距离。对这方面研究具代表的是 ,他在中,利用投票模型来识别高质量的专家证据,并提出链接越多的文档 专家证据的质量越高越短的网页越有可能是候选专家的个人主页,个人主页上般 都注明了候选专家的个人兴趣爱好,故能提供高质量的专家证据查询主题与专家姓名共现 次数越多的文档,提供的专家证据质量越高,并利用投票模型来计算候选专家姓名和查询主 题之间的距离。 查询扩展 基于专家档案的方法实质上是将专家与查询主题之间的关系转换为文档与查询主题之 间的关系。为了提高专家检索的准确度,些研究者已将用于文档检索中的查询扩展运用到 了专家检索中。即在检索时,将排名靠前的专家档案作为伪相关集,进而利用伪相关集 来扩展最初的查询并为查询主题词重新设置权值。 和通过给相关性很大的文档中的主题词加权来选择扩展词,由于候 选专家的档案和支持文档中包括了候选专家其它的与查询主题不相关的专家领域,如果将这 个文档作为查询扩展,则其它不相关的专长领域会影响到查询扩展的效果,从而使得最后扩 展的查询主题失去了原有意思即跑题。在文中提出,将与查询主题相关性 很大的文档作为查询扩展集,可以有效避免查询扩展中的跑题。等将检 索结果相关性排名前的文档中的出现频次前的检索主题词作为查询扩展词。 跑题是将查询扩展运用到专家检索不可避免的现象,目前有些衡量专家 档案中跑题发生的次数的方法,但还未提出些衡量跑题是何时与如何发 生的方法。总之,查询扩展的在专家检索中的成功运用有助于发现相似专家,也有助于在组 织中自动创建专长路线图。 基于文档的专家检索方法 抓取所得 数据集合 建立索引 交叉与归并 与各主题相关的专家列表 查询主题 专家候选人特征 信息姓名电 子邮箱等 检索 信息抽取 索引结果集 与各专家候选人 相关的结果集 与各主题相关 的文档结果集 对与各主题相关的专家候选人排序 与各主题相关的专家候选人文档结果集 合并各专家候选人相关文档权重 邮件 数据库 记录 文档 报告 网页„„ 图基于文档的专家检索流程 该方法基于这样的假设,个专家出现在与查询主题相关的文档中,则该专家可能是与 查询主题相关的专家,且出现的文档与查询主题的相关性越大,则是专家的可能性也就越大。 基于文档的专家检索方法就是将候选专家与查询主题之间的关系转化为查询主题与文档之 间的关系。目前,研究者认为基于文档权重归并的专家检索方法比基于专家档案的检索方法 更有效,主要是因为用于估算与候选专家相关度的文本内容比专家档案中的文本内容的 歧义要少,因此信息的模糊性也较低。 图是基于文档的专家检索流程图,从图可知,该方法首先利用般信息检索模型如 向量空间模型概率模型语言模型等检索出与查询相关的文档,然后根据文档与查询的 相关性给文档赋定的权值,最后通过归并专家的相关文档权值来计算该专家的专长得分, 并根据该得分为专家排序。 基于文档的专家检索在研究候选专家与查询主题之间的相关性时,主要通过文档来传递 这种相关性。目前主要是通过以下两种方式来实现这种相关性传递 步相关性传递 步相关性传递是基于这样的假设即当用户查询到与主题相关的文档时,则用户就会 停止其查询行为。候选专家与文档之间的步相关性传递就是指当用户从文档集中检索到专 家后,其查询行为就会停止,即当相关性从文档传递给候选专家后,则相关性传递就停止了。 基于文档权重归并的专家检索方法就是步相关性传递的,它主要探讨以下几个问题支 持文档的相关性,即在计算支持文档的权重时,般是通过各种信息检索模型来计算文档与 查询主题相似度。查询词与候选专家的共现,这里所指的查询词与候选专家的共现,主 要是指查询主题中的主题词与表示专家的特征信息如专家的姓名邮件地址等文档中的 共现情况,如共现频次,共现距离等问题。专家得分的计算,目前通常利用文档权重的 线性归并获得候选专家的得分。 多步相关性传递 步相关性传递没有考虑到候选专家之间的联系和与候选专家有间接关系的文档。其 实,当用户在文档中检索到候选专家后,他并不会停下来,而是通过该专家推荐的其它的与 查询主题相关的文档来查找这些文档中的新的专家,即当文档把相关性传递给候选专家后 后,相关性传递不会终止,还会通过该专家推荐的文档将相关性传递给其它候选专家。基于 此,等提出了在大的企业或者内部网络中建立由候选专家,组织文档和它们 之间相互联系构成的专长图,通过该图来研究候选专家与文档之间的联系。采用该方法 能识别出文档中没有直接提到的但与查询主题相关的专家。 基于窗口的专家检索方法 目前,些学者们为了减少与候选专家不是很相关的文档的相关性传递,尝试采用基于 窗口的专家检索方法。该方法的主要思想是出现在专家姓名和邮件地址附近的信息比出现 在其它位置的信息与专家更相关。 年以前,已有些学者将该方法有效地运用到文档检索中。等提出,进 行文档检索时,不返回整个文档,而返回只与查询相关文档的部分内容等则通 过名字等特征信息周围大小固定的窗口来对人进行描述,并进步查找实体之间的联系 等研究候选专家与查询主题词之间的共现模型时,通过对比基于文档的共现和基于窗 口的共现子模型,得出后个子模型优于前个子模型,这为后面参与者采用基于窗口的专 家检索方法提供了依据。 基于窗口的专家检索主要有两种方法种方法,只考虑固定大小的窗口中的文本内容, 如等在参加会议时,采用窗口来建立候选专家的描述。其基本思想是 利用专家姓名或者邮件地址附近的信息创建专家的档案在年,和 等通过设置不同大小的窗口扩展了该模型。另种方法,考虑在与候选专家相关的文档 中,查询词和候选专家的相关性与文档中该查询词和表示专家姓名与邮件地址的词之间的词 距离存在依存性,并利用距离公式探讨二者之间的这种依存性。 基于图的专家检索方法 该方法基于这样的假设,即个体之间所发送的信息能够指示他在特定领域的专长。其主 要思想是在图,其中表示图中的结点,表示图中的边中候选专家作为 节点,专家之间的联系作为边,而这种联系可能是种问答关系或者是合作关系。可利用社 会网络分析专家之间的联系,并进步识别出专家。 基于图的专家检索方法是基于文档的专家检索的个子系列。在基于候选专家之间 专家检索研究综述 摘要增加了企业检索任务并设立了专家检索子任务, 为专家检索方法和技术的经验性评价提供了平台,并着重从专家检索算法模型和评价方法 等几方面进行了探讨,极大地促进了专家检索研究的发展。本文即是在此背景下,对近年来 专家检索研究的进展和现状进行的系统总结。本文分别从专家检索的数据集来源专家检索 方法专家检索的排序方法专家检索的效果评价这四个方面对专家检索的相关研究进行了 介绍和评述。 关键词专家专家专长专家档案专家证据专家检索 , , , 引言 进入世纪,人类社会正在由信息社会迈向知识社会,掌握定知识经验和技能的 人才将会成为企业和组织最宝贵的资源。各领域的专家是该领域知识的代表,所拥有的丰富 且最新的该领域的专业知识技能和经验是企业生存和发展的最关键因素。目前,些企业 和组织,为了提高自身的竞争优势,已经或者正在建立专家检索系统,利于有效地管理专家 资源。 专家检索亦称之为专家查询,专家推荐,专长定位,专长识别作为实体检索的 个特例,它要求返回的实体类型是具有特定专长与查询主题相关的的专家。由于专家检 索在促进知识共享和交流,构建学术界和产业界的桥梁,知识管理等方面有重要的应用价值, 近年来专家检索引起了学术界广泛兴趣。 作为的后继项目,于年增加了企业 检索任务,并设立了专家检索子任务。该子任务可以描述为给定文档集, 查询主题集和专家列表,并从这些专家列表中为每个查询主题查找相关专家。自设立专家检 索子任务后,为专家检索的方法和技术进行经验性评价提供了个公共平台,近几年 来,分别对专家检索算法模型和评价进行了探讨,促进了专家检索领域的发展。 关于专家检索的任务,等界定为以下两个方面查找具有专长的专家 和查找专家所具有的专长。目前,检索界所探讨的专家检索般是指前个方面。本文所探 讨的专家检索也是指查找具有专长的专家,故本文中的专家检索主要任务可以描述为利 用企业或者组织内外能够表征专家专长的各种文档和资源,如电子邮件报告数据库文 件和网页等,识别专家在给定查询主题领域的专长相关性程度,并按程度高低排序显 示专家结果列表的过程。 本文组织如下第二节介绍用于专家检索的数据集来源,第三节介绍专家检索的方法, 第四节介绍专家检索排序,第五节介绍专家检索结果的评价,最后第六节对本文工作进行简 要总结。 专家检索的数据集来源 般来说,要实现专家检索需要两个必要条件即专家列表和包含专家专长信息的数据 集。其中,数据集来源可以分为以下三类 传统数据库 专家检索的最初数据来源就是在组织中用个数据库存贮每个候选专家

下一篇
专家检索研究综述第1页
1 页 / 共 25
专家检索研究综述第2页
2 页 / 共 25
专家检索研究综述第3页
3 页 / 共 25
专家检索研究综述第4页
4 页 / 共 25
专家检索研究综述第5页
5 页 / 共 25
专家检索研究综述第6页
6 页 / 共 25
专家检索研究综述第7页
7 页 / 共 25
专家检索研究综述第8页
8 页 / 共 25
专家检索研究综述第9页
9 页 / 共 25
专家检索研究综述第10页
10 页 / 共 25
专家检索研究综述第11页
11 页 / 共 25
专家检索研究综述第12页
12 页 / 共 25
专家检索研究综述第13页
13 页 / 共 25
专家检索研究综述第14页
14 页 / 共 25
专家检索研究综述第15页
15 页 / 共 25
温馨提示

1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。

2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。

3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。

4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。

5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。

  • 文档助手,定制查找
    精品 全部 DOC PPT RAR
换一批