种不同计算策略的性能,结果如图所示。关键词相似度计算语义统计中图分类号文献标识码文语义与统计相结合的中文微博相似度计算方法论文原稿第界汉语词汇语义学研讨会台北,且义原的组合形式也是确定的。在计算词汇语义相似度时,较多是采用刘群李建素提出的基于知网的词汇语义相似度计算公式,即,各符号代表详见文献。通过图可以看出,相比语义相似度和统常见相似度计算方法基于语义的文本相似度计算基于语义的文本相似度计算常以本体论作为背景知识。目前常用的本体论主要有和,而计算文本中名词集合和动词集合的相似度,最后加权平均,得到的就是两条微博文本的语义相似度。语义与统计相结合的中文微博相似度计算方法论文原稿。微博文本具有稀疏性实时性不规义和基于统计的计算方法两者结合起来,提出种组合相似度计算方法,即语义和统计相结合的相似度计算方法。算法第步,即计算基于语义的文本相似度在计算微博文本的相似度时,必须对每条汇语义进行描述,每个词可以表达为几个概念,而概念又由义原来描述。对于同义词近义词不仅用来表述它的义原是确定的,而且义原的组合形式也是确定的。在计算词汇语义相似度时,较多是,李楚贞中文微博主题层次识别方法研究广东技术师范学院,。语义与统计相结合的中文微博相似度计算方法论文原稿。常见相似度计算方法基于语义的文本相似度计算基于语义的文语义与统计相结合的中文微博相似度计算方法论文原稿性等特点,导致传统的相似度计算方法都很难适用。因此,本文把基于语义和基于统计的计算方法两者结合起来,提出种组合相似度计算方法,即语义和统计相结合的相似度计算方法。义相似度计算时先进行词性分类表示,即把文本向量中词性为名词的归为类,词性为动词的归为另类。假设微博文本用向量表示为,如果是名词,是动词,则词性分类后该文本向量表示为,再分霞知识挖掘理论方法与应用北京科学出版社,赵应秋,罗军,张君艳基于知网的词语语义相关度计算信息技术博文本进行预处理,如分词词性过滤停用词过滤词频统计。经过预处理后,每条文本只剩下高频的有实际意义的动词和名词。本文考虑到不同詞性的词语在语义上其相似度比较低,所以在进行语采用刘群李建素提出的基于知网的词汇语义相似度计算公式,即,各符号代表详见文献。微博文本具有稀疏性实时性不规范性等特点,导致传统的相似度计算方法都很难适用。因此,本文把基于相似度计算常以本体论作为背景知识。目前常用的本体论主要有和,而是最为著名的采用汉语描述的本体论。在知网中,用概念来对语义与统计相结合的中文微博相似度计算方法论文原稿,郑庆华,刘均,田锋,算法分别比较语义相似度统计相似度和组合相似度种不同计算策略的性能,结果如图所示。通过图可以看出,相比语义相似度和统计相似度,采用组合相似度计算策略在各项编号文本相似度计算在文本分类文本聚类信息检索等自然语言处理领域有着广泛的应用。相比词语相似度计算,文本相似度计算不仅要识别句子结构语义关系,还要考虑语境问题。针对这问题李楚贞中文微博主题层次识别方法研究广东技术师范学院,。语义与统计相结合的中文微博相似度计算方法论文原稿。为了验证组合相似,郑庆华,刘均,田锋,孙霞知识挖掘理论方法与应用北京科学出版社,赵应秋,罗军,张君艳基于知网的词语语义相关度计算信息技术相似度,采用组合相似度计算策略在各项性能指标上都比较好,这说明引入词汇语义和相关度的相似度策略能够更好地识别相关的主题。参考文献刘群,李素建基于知网的词汇语义相似度计算是最为著名的采用汉语描述的本体论。在知网中,用概念来对词汇语义进行描述,每个词可以表达为几个概念,而概念又由义原来描述。对于同义词近义词不仅用来表述它的义原是确定的,
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
第 1 页 / 共 5 页
第 2 页 / 共 5 页
第 3 页 / 共 5 页
第 4 页 / 共 5 页
第 5 页 / 共 5 页
预览结束,喜欢就下载吧!
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。
1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。
2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。
3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。
4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。
5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。