1、“.....对于这个问题这里我们不展开讨论,留给以后的研究工作来处理。另外,在知网的知识描述语言中,在些义原出现的位置都可能出现个具体词概念,并用圆括号括起来。所以我们在计算相似度时还要考虑到具体词和具体词具体词和义原之间的相似度计算。理想的做法应该是先把具体词还原成知网的语义表达式,然后再计算相似度。这样做将导入函数的递归调用,甚至可能导致死循环,这会使算法会变得很复杂。由于具体词在知网的语义表达式中只占很小的比例,因此,在我们的实验中,为了简化起见,我们做如下规定具体词与义原的相似度律处理为个比较小的常数具体词和具体词的相似度,如果两个词相同,则为,否则为。虚词概念的相似度的计算我们认为,在实际的文本中,虚词和实词总是不能互相替换的,因此,虚词概念和实词概念的相似度总是为零。由于虚词概念总是用句法义原或关系义原这两种方式进行描述,所以......”。
2、“.....只需要计算其对应的句法义原或关系义原之间的相似度即可。实词概念的相似度的计算由于实词概念是用个语义表达式来描述的,因此其相似度计算变得非常复杂。如何计算两个语义表达式的相似度呢我们的基本设想是整体相似要建立在部分相似的基础上。把个复杂的整体分解成部分,通过计算部分之间的相似度得到整体的相似度。假设两个整体和都可以分解成以下部分分解成分解成那么这些部分之间的对应关系就有种。问题是这些部分之间的相似度是否都对整体的相似度发生影响如果不是全部都发生影响,那么我们应该如何选择那些发生影响的那些部分之间的相似度选择出来以后,我们又如何得到整体的相似度我们认为个整体的各个不同部分在整体中的作用是不同的,只有在整体中起相同作用的部分互相比较才有效。例如比较两个人长相是否相似,我们总是比较它们的脸型轮廓眼睛鼻子等相同部分是否相似......”。
3、“.....因此,在比较两个整体的相似性时,我们首先要做的工作是对这两个整体的各个部分之间建立起对应的关系,然后在这些对应的部分之间进行比较。我们把这种做法比喻成古代的战场的两军对垒兵对兵将对将,捉对厮杀。还有个问题如果部分的对应物为空,如何计算其相似度我们的处理方法是将任何义原或具体词与空值的相似度定义为个比较小的常数整体的相似度通过部分的相似度加权平均得到。对于实词概念的语义表达式,我们将其分成四个部分第独立义原描述式我们将两个概念的这部分的相似度记为其他独立义原描述式语义表达式中除第独立义原以外的所有其他独立义原或具体词,我们将两个概念的这部分的相似度记为关系义原描述式语义表达式中所有的用关系义原描述式,我们将两个概念的这部分的相似度记为符号义原描述式语义表达式中所有的用符号义原描述式,我们将两个概念的这部分的相似度记为,。于是......”。
4、“.....是可调节男人苹果水果男人工作事务,担任男人责任责任表实验结果考察实验的结果,也就是上面方法的结果,我们可以看到,男人和其他各个词的相似度与人的直觉是比较相符合的。考察实验的结果,也就是将方法和方法方法的结果相比较,可以看到方法的结果比较粗糙,只要是人,相似度都为,显然不够合理方法的结果比方法更细腻些,能够区分不同人之间的相似度,但有些相似度的结果也不太合理,比如男人和工作的相似度比男人和鲤鱼的相似度更高。从可替换性来说,这显然不合理,至少男人和鲤鱼都是有生命物体,而工作只可能是个行为或者个抽象事物。方法出现这种不合理现象的原因在于其计算方法把部分相关度数值加权计入了相似度中。另外,方法的结果中,男人和和尚的相似度比男人和经理的相似度高出近倍,而方法的结果中,这两个相似度的差距更合理些。结论与传统的语义词典不同,知网采用了多个义原......”。
5、“.....为了计算用知识描述语言表达的两个概念的语义表达式之间的相似度,我们采用了整体的相似度等于部分相似度加权平均的做法。首先将个整体分解成部分,再将两个整体的各个部分进行组合配对,通过计算每个组合对的相似度的加权平均得到整体的相似度。通过对概念的语义表达式反复使用这方法,可以将两个语义表达式的整体相似度分解成些义原对的相似度的组合。对于两个义原的相似度,我们采用根据上下位关系得到语义距离并进行转换的方法。实验证明,我们的做法充分利用了知网中对每个概念进行描述时的丰富的语义信息,得到的结果与人的直觉比较符合,词语相似度值刻划也比较细致。参考文献,,李涓子,汉语词义排歧方法研究,清华大学博士论文王斌,汉英双语语料库自动对齐研究,中国科学院计算技术研究所博士学位论文鲁松,自然语言中词相关性知识无导获取和均衡分类器的构建......”。
6、“.....董强,知网,杜飞龙,知网的参数,且有,。后者反映了到对于总体相似度所起到的作用依次递减。由于第独立义原描述式反映了个概念最主要的特征,所以我们应该将其权值定义得比较大,般应在以上。在实验中我们发现,如果非常小,但或者比较大,将导致整体的相似度仍然比较大的不合理现象。因此我们对公式进行了修改,得到公式如下其意义在于,主要部分的相似度值对于次要部分的相似度值起到制约作用,也就是说,如果主要部分相似度比较低,那么次要部分的相似度对于整体相似度所起到的作用也要降低。下面我们再分别讨论每部分的相似度。第独立义原描述式就是两个义原的相似度,按照公式计算即可其他独立义原描述式由于其他独立义原描述式不止个,所以计算较为复杂。我们还是按照上面的思想,把整体相似度还原为部分相似度的加权平均。困难在于,各个独立义原描述式之间没有分工......”。
7、“.....我们按照如下步骤对这些独立义原描述式分组先把两个表达式的所有独立义原第个除外任意配对,计算出所有可能的配对的义原相似度取相似度最大的对,并将它们归为组在剩下的独立义原的配对相似度中,取最大的对,并归为组,如此反复,直到所有独立义原都完成分组。关系义原描述式关系义原描述式的配对分组较为简单,我们把关系义原相同的描述式分为组,并计算其相似度符号义原描述式符号义原描述式的配对分组与关系义原描述式类似,我们把关系符号相同的描述式分为组,并计算其相似度。在以上的计算中,最后求加权平均时,各部分取相等的权值。到此为止,我们已经讨论了基于知网的词语相似度计算的所有细节,具体的算法我们不再详细说明。实验及结果根据以上方法,我们实现了个基于知网的语义相似度计算程序模块。词语相似度计算的结果评价,最好是放到实际的系统中如基于实例的机器翻译系统......”。
8、“.....这需要个完整的应用系统。在条件不具备的情况下,我们采用了人工判别的方法。我们设计了两个对比实验。第个实验,采用本文中提出的词语相似度计算方法,我们计算个词和另外任意选取的组词的相似度,由人来判断这个词和这组词的相似度大小是否与人的直觉相符合第二个实验,我们使用了三种方法来计算词语相似度,并把它们的计算结果进行比较方法仅使用知网语义表达式中第独立义原来计算词语相似度方法中使用的词语语义相似度计算方法方法本文中介绍的语义相似度计算方法在实验中,几个参数的取值如下,,,两个实验结果如下表所示词语词语词语的语义方法方法方法男人女人人,家,女男人父亲人,家,男男人母亲人,家,女男人和尚人,宗教,男男人经理人,职位,官,商男人高兴属性值,境况,福,良男人收音机机器,传播男人鲤鱼鱼表达为几个概念。概念是用种知识表示语言来描述的......”。
9、“.....义原是用于描述个概念的最小意义单位。与般的语义词典如同义词词林,或不同,知网并不是简单的将所有的概念归结到个树状的概念层次体系中,而是试图用系列的义原来对每个概念进行描述。知网共采用了义原,这些义原分为以下几个大类事件实体属性值属性值数量数量值次要特征语法动态角色动态属性对于这些义原,我们把它们归为三组第组,包括第到类的义原,我们称之为基本义原,用来描述单个概念的语义特征第二组,只包括第类义原,我们称之为语法义原,用于描述词语的语法特征,主要是词性第三组,包括第和第类的义原,我们称之为关系义原,用于描述概念和概念之间的关系类似于格语法中的格关系。除了义原以外,知网中还用了些符号来对概念的语义进行描述,如下表所示,多个属性之间,表示和的关系表示与其相关表示是其部分表示可以被该处置,或是该的受事,对象,领有物,或者内容表示会或主要用于......”。
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。