毕业设计专家检索研究综述（1）

格式：word 上传：2025-07-21 07:47:19

等通过对公司内部网络中的文档和专家建立联系，提取专家专长的表示，从而实现专家检索。等提出了种利用资源描述框架描述专长的形式，并利用了高等院校中常见的专长资源介来向讨论组中的询问者推荐可解答问题的专家。等和等分别利用专家访问互联网的日志和专家访问本地文件的日志，结合被访问网页和文档的主题，来实现类似于专家检索的功能。自动化的专家检索系统。等通过电子邮件交互提取出个专家网络，并通过该网络寻找具有相同兴趣或专长的专家。等利用讨论组中专家的交流提出了种具备专家推荐能力的智能中检索任务之前，其它领域的学者们已对专家检索方法进行了探讨，但并未在检索学界得到较多的关注。早在年，等就通过潜语义标引对研究团体的研究成果文献建立索引作为团体专长的种描述，从而实现兰蒂尔堡大学网站抓取的多语种信息，获得了多语种的专家证据。等利用搜索引擎搜索专家或者专家的相关信息，并将搜索引擎的返回结果作为专家证据的外部数据集。专家检索方法早在年会议设立专家等利用检索出候选专家的出版物来补充专家档案中候选专家的专长信息等将整个互联网作为专家证据的来源。等创建了数据集，该数据集是从荷要考虑企业内部网上的专家证据也要考虑外部网站上的专家证据。把这些从企业内部网之外所获得的专家证据来源称之为外部数据源。如些学术数据库，专利网站或者新闻网站等，都是专家证据的很好来源。组织内部有名望，其在可查询到的网络空间如新闻，博客，学术图书馆中也可能具有定的声誉。以来，研究者们尝试扩展数据集的来源，即从企业内部网扩展到互联网。也就是说在建立专家档案时不但，所以参与者需在数据集中识别出专家的特征信息如姓名与邮件地址。外部数据源语料库和语料库中的数据集都是企业内部网站上抓取的但基于这样的个假设，真正的专家不应该只是在企业或者和等格式的。的。没有给参与者提供候选专家列表，而只是提供了员工邮件地址的个模板如，所以参与者需在数据集中识别出专家的特征信息如姓名与邮件地址。本文组织如下第二节介绍用于专家检索的数据集来源，第三节介绍专家检索的方法，第四节介绍专家检索排序，第五节介绍专家检索结果的评价，最后第六节对本文工作进行简要总结。专家检索的数据集来源般来说，要实现专家检索需要两个必要条件即专家列表和包含专家专长信息的数据集。其中，数据集来源可以分为以下三类传统数据库专家检索的最初数据来源就是在组织中用个数据库存贮每个候选专家的技能和知识，这些信息都是用户手动添加进去的，其存在以下缺陷首先，该数据库需要受手动创建和维护，因此费时费力其次，专家的专长信息是不断更新的，而数据却不易更新，故数据库的信息往往是陈旧的再者，利用这些数据库进行专家检索时对查询格式有固定的格式化要求，缺乏灵活性。企业内部网从企业的内部公开网站上获得的企业内部网页企业内部邮件企业内部文档简历个人主页等可以作为专家专长信息的来源。如为专家检索子任务提供了两种数据集，即语料库和语料库，它们都来自于企业内部网站。语料库和使用的专家检索数据集是在年月从的公开网站上抓取的，其数据集的详细信息如表所示表数据集类型范围大小文档数平均文档长度此外，在这两次的专家检索任务中，给参与者提供了包含个候选专家的列表，在候选专家列表中包括了专家的全名和邮件地址。语料库和的数据集，是于年月从的公开网站上抓取的。该数据集共，包括了个文档，含个超链接，其中的网页至少包含个外链接，且这些外链接包含锚文本。等指出，中大约的文档是网页，的文档是和格式的，剩下的文档则是多媒体和等格式的。没有给参与者提供候选专家列表，而只是提供了员工邮件地址的个模板如，所以参与者需在数据集中识别出专家的特征信息如姓名与邮件地址。外部数据源语料库和语料库中的数据集都是企业内部网站上抓取的但基于这样的个假设，真正的专家不应该只是在企业或者组织内部有名望，其在可查询到的网络空间如新闻，博客，学术图书馆中也可能具有定的声誉。以来，研究者们尝试扩展数据集的来源，即从企业内部网扩展到互联网。也就是说在建立专家档案时不但要考虑企业内部网上的专家证据也要考虑外部网站上的专家证据。

温馨提示：手指轻点页面，可唤醒全屏阅读模式，左右滑动可以翻页。