帮帮文库

返回

【毕业论文】基于《知网》的词汇语义相似度计算的设计与开发word文档(定稿) 【毕业论文】基于《知网》的词汇语义相似度计算的设计与开发word文档(定稿)

格式:word 上传:2022-06-24 22:03:45

《【毕业论文】基于《知网》的词汇语义相似度计算的设计与开发word文档(定稿)》修改意见稿

1、“.....与般语义词典如同义词词林,或不同,知网并不是简单将所有概念归结到个树状概念层次体系中,而是试图用系列义原来对每个概念进行描述。知网共采用了义原,这些义原分为以下几个大类事件实体属性值属性值数量数量值次要特征语法动态角色动态属性对于这些义原,我们把它们归为三组第组,包括第到类义原,我们称之为基本。词语相关性也是个,之间实数。词语相关性和词语相似性是两个不同概念。例如医生和疾病两个词语,其相似性非常低,而相关性却很高。可以这么认为,词语相似性反映是词语之间聚合特点,而词语相关性反映是词语之间组合特点。同时,词语相关性和词语相似性又有着密切联系。如果两个词语非常相似,那么这两个词语与其他词语相关性也会非常接近。反之,如果两个词语与其他词语相关性特点很接近,那么这两个词般相似程度也很高。词语相似度计算方法词语距离有两类常见计算方法......”

2、“.....种利用大规模语料库进行统计。根据世界知识计算词语语义距离方法,般是利用部同义词词典。般同义词词典都是将所有词组织在棵或几棵树状层次结构中。我们知道,在棵树形图中,任何两个结点之间有且只有条路径。于是,这条路径长度就可以作为这两个概念语义距离种度量。图同义词词林语义分类树形图虚线用于标识上层节点到下层节点路径王斌采用这种方法利用同义词词林来计算汉语词语之间相似度如图所示。有些研究者考虑情况更复杂。在利用计算词语语义相似度时,除了结点间路径长度外,还考虑到了其他些因素。例如概念层次树深度路径长度相同两个结点,如果位于概念层次越底层,其语义距离较大比如说动物和植物哺乳动物和爬行动物,这两对概念间路径长度都是,但前对词处于语义树较高层,因此认为其语义距离较大,后对词处于语义树较低层,其语义距离更小概念层次树区域密度路径长度相同两个结点,如果位于概念层次树中高密度区域......”

3、“.....由于中概念描述粗细程度不均,例如动植物分类描述及其详尽,而有些区域概念描述又比较粗疏,所以加入了概念层次树区域密度对语义距离影响。另种词语相似度计算方法是大规模语料来统计。例如,利用词语相关性来计算词语相似度。事先选择组特征词,然后计算这组特征词与每个词相关性般用这组词在实际大规模语料中在该词上下文中出现频率来度量,于是,对于每个词都可以得到个相关性特征词向量,然后利用这些向量之间相似度般用向量夹角余弦来计算作为这两个词相似度。这种做法假设是,凡是语义相近词,他们上下文也应该相似。李涓子利用这种思想来实现语义自动排歧鲁松研究了如何如何利用词语相关性来计算词语相似度。使用了更为复杂概率模型来计算词语距离。这两种方法各有特点。基于世界知识方法简单有效,也比较直观易于理解,但这种方法得到结果受人主观意识影响较大,有时并不能准确反映客观事实。另外......”

4、“.....而对于词语之间句法和语用特点考虑得比较少。基于语料库方法比较客观,综合反映了词语在句法语义语用等方面相似性和差异。但是,这种方法比较依赖于训练所用语料库,计算量大,计算方法复杂,另外,受数据稀疏和数据噪声干扰较大,有时会出现明显。本文主要研究基于知网词语相似度计算方法,这是种基于世界知识方法。知网简介按照知网创造者董振东先生自己说法杜飞龙,知网是个以汉语和英语词语所代表概念为描述对象,以揭示概念与概念之间以及概念所具有属性之间关系为基本内容常识知识库。知网中含有丰富词汇语义知识和世界知识,为自然语言处理和机器翻译等方面研究提供了宝贵资源。不过,在我们真正试图利用知网来进行计算机处理时,发现还是会遇到不少困难。我们感觉是,知网确实是座宝库,但另方面,知网内容又非常庞杂。尽管知网提供了详细文档......”

5、“.....很多地方多少显得有些混乱。当我们阅读这些文档时,很容易下子陷入大量细节之中,而很难对知网有个总体把握。这使得我们在进行计算时候觉得很不方便。因此,我们在试图利用知网进行计算过程中,也在逐渐加深我们对于知网认识,并试图整理出个关于知网比较清晰图象。本节中,我们对于知网描述是按照我们自己语言来组织,很多地方加入了我们理解,并不定都是知网文档中描述。我们希望通过这种方法,使读者更快地了解知网,对知网有个比较清晰而全面印象。当然,我们理解也难免有和遗漏之处,欢迎知网作者和其他读者批评指正。知网结构董振东先生反复强调,知网并不是个在线词汇数据库,知网不是部语义词典。在介绍知网结构之前,我们首先要理解知网中两个主要概念概念与义原。概念是对词汇语义种描述。每个词可以表达为几个概念。概念是用种知识表示语言来描述,这种知识表示语言所用词汇叫做义原。义原是用于描述个概念最小意义单位......”

6、“.....或不同,知网并不是简单将所有概念归结到个树状概念层次体系中,而是试图用系列义原来对每个概念进行描述。知网共采用了义原,这些义原分为以下几个大类事件实体属性值属性值数量数量值次要特征语法动态角色动态属性对于这些义原,我们把它们归为三组第组,包括第到类义原,我们称之为基本把关系义原相同描述式分为组,并计算其相似度符号义原描述式符号义原描述式配对分组与关系义原描述式类似,我们把关系符号相同描述式分为组,并计算其相似度。在以上计算中,最后求加权平均时,各部分取相等权值。到此为止,我们已经讨论了基于知网词语相似度计算所有细节,具体算法我们不再详细说明。实验及结果根据以上方法,我们实现了个基于知网语义相似度计算程序模块。词语相似度计算结果评价,最好是放到实际系统中如基于实例机器翻译系统,观察不同相似度计算方法对实际系统性能影响。这需要个完整应用系统......”

7、“.....我们采用了人工判别方法。我们设计了两个对比实验。第个实验,采用本文中提出词语相似度计算方法,我们计算个词和另外任意选取组词相似度,由人来判断这个词和这组词相似度大小是否与人直觉相符合第二个实验,我们使用了三种方法来计算词语相似度,并把它们计算结果进行比较方法仅使用知网语义表达式中第义原来计算词语相似度方法中使用词语语义相似度计算方法方法本文中介绍语义相似度计算方法在实验中,几个参数取值如下,两个实验结果如下表所示词语词语词语语义方法方法方法男人女人人,家,女男人父亲人,家,男男人母亲人,家,女男人和尚人,宗教,男男人经理人,职位,官,商男人高兴属性值,境况,福,良男人收音机机器,传播男人鲤鱼鱼男人苹果水果男人工作事务,担任男人责任责任表实验结果考察实验结果,也就是上面方法结果,我们可以看到,男人和其他各个词相似度与人直觉是比较相符合。考察实验结果......”

8、“.....可以看到方法结果比较粗糙,只要是人,相似度都为,显然不够合理方法结果比方法更细腻些,能够区分不同人之间相似度,但有些相似度结果也不太合理,比如男人和工作相似度比男人和鲤鱼相似度更高。从可替换性来说,这显然不合理,至少男人和鲤鱼都是有生命物体,而工作只可能是个行为或者个抽象事物。方法出现这种不合理现象原因在于其计算方法把部分相关度数值加权计入了相似度中。另外,方法结果中,男人和和尚相似度比男人和经理相似度高出近倍,而方法结果中,这两个相似度差距更合理些。结论与传统语义词典不同,知网采用了多个义原,通过种知识描述语言来对每个概念进行描述。为了计算用知识描述语言表达两个概念语义表达式之间相似度,我们采用了整体相似度等于部分相似度加权平均做法。首先将个整体分解成部分,再将两个整体各个部分进行组合配对,通过计算每个组合对相似度加权平均得到整体相似度......”

9、“.....可以将两个语义表达式整体相似度分解成些义原对相似度组合。对于两个义原相似度,我们采用根据上下位关系得到语义距离并进行转换方法。实验证明,我们做法充分利用了知网中对每个概念进行描述时丰富语义信息,得到结果与人直觉比较符合,词语相似度值刻划也比较细致。参考文献李涓子,汉语词义排歧方法研究,清华大学博士论文王斌,汉英双语语料库自动对齐研究,中国科学院计算技术研究所博士学位论文鲁松,自然语言中词相关性知识无导获取和均衡分类器构建,中国科学院计算技术研究所博士论文董振东,董强,知网,杜飞龙,知网辟蹊径,共享新天地董振东先生谈知网与知识共享,微电脑世界杂志,年第期。词语相关性也是个,之间实数。词语相关性和词语相似性是两个不同概念。例如医生和疾病两个词语,其相似性非常低,而相关性却很高。可以这么认为,词语相似性反映是词语之间聚合特点......”

下一篇
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
【毕业论文】基于《知网》的词汇语义相似度计算的设计与开发.doc预览图(1)
1 页 / 共 13
【毕业论文】基于《知网》的词汇语义相似度计算的设计与开发.doc预览图(2)
2 页 / 共 13
【毕业论文】基于《知网》的词汇语义相似度计算的设计与开发.doc预览图(3)
3 页 / 共 13
【毕业论文】基于《知网》的词汇语义相似度计算的设计与开发.doc预览图(4)
4 页 / 共 13
【毕业论文】基于《知网》的词汇语义相似度计算的设计与开发.doc预览图(5)
5 页 / 共 13
【毕业论文】基于《知网》的词汇语义相似度计算的设计与开发.doc预览图(6)
6 页 / 共 13
【毕业论文】基于《知网》的词汇语义相似度计算的设计与开发.doc预览图(7)
7 页 / 共 13
【毕业论文】基于《知网》的词汇语义相似度计算的设计与开发.doc预览图(8)
8 页 / 共 13
【毕业论文】基于《知网》的词汇语义相似度计算的设计与开发.doc预览图(9)
9 页 / 共 13
【毕业论文】基于《知网》的词汇语义相似度计算的设计与开发.doc预览图(10)
10 页 / 共 13
【毕业论文】基于《知网》的词汇语义相似度计算的设计与开发.doc预览图(11)
11 页 / 共 13
【毕业论文】基于《知网》的词汇语义相似度计算的设计与开发.doc预览图(12)
12 页 / 共 13
【毕业论文】基于《知网》的词汇语义相似度计算的设计与开发.doc预览图(13)
13 页 / 共 13
预览结束,喜欢就下载吧!
  • 内容预览结束,喜欢就下载吧!
温馨提示 电脑下载 投诉举报

1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。

2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。

3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。

  • Hi,我是你的文档小助手!
    你可以按格式查找相似内容哟
DOC PPT RAR 精品 全部
小贴士:
  • 🔯 当前文档为word文档,建议你点击DOC查看当前文档的相似文档。
  • ⭐ 查询的内容是以当前文档的标题进行精准匹配找到的结果,如果你对结果不满意,可以在顶部的搜索输入框输入关健词进行。
帮帮文库
换一批

搜索

客服

足迹

下载文档