帮帮文库

返回

大规模平衡语料的收集分析及文本分类方法研究 大规模平衡语料的收集分析及文本分类方法研究

格式:word 上传:2022-06-25 18:30:30

《大规模平衡语料的收集分析及文本分类方法研究》修改意见稿

1、“.....在各种方根形式中又以的立方根形式效果最好提高了,从到。增加了反映关键词在不同领域之间分布差异性的变量以后,分类效果比原来有很明显的提高提高了,从到。最适合分类的关键词数目。从测度值随关键词数目的变化来看个关键词以下,测度的值上升很快。这说明在该高频区段反映领域特征的词在不断地增多之间测度稍有上升,这说明此区段仍存在些权重较高的词,但这些词的权重较前区段已不是很高,数量比前区段也少了不少。,之间测度上升更少......”

2、“.....之间测度微有下降。这说明从这个区段开始随着关键词数量的增大,正面词汇包含在关键词表中有助于分类的词的增加已开始小于负面词汇包含在关键词表中有害于分类效果的增加。所以关键词的数量般定在左右比较合适,如果要求更高的正确率和召回率,可以将关键词的数目定在,但不宜再多。实验和的比较前面介绍的时候,提到采用的是的形式,而不是的形式,主要是因为后者的采用会在权重公式中引入较大的倚重,为了证实这个结论......”

3、“.....实验内容对比和的分类效果。实验平台点积分类器实验语料训练语料是中科院自动化所合作为欧盟项目建立的万字的汉语语料,分六个领域体育娱乐和游戏财经新闻个人交流消费信息测试语料是个从网上随意收集的文本共个汉字,分属于这六个领域,各领域文本数分别为消费信息领域文化和娱乐领域财经领域新闻领域个人交流领域体育和游戏领域,这部分语料作为开放的测试语料。实验步骤清除下载文本中的垃圾文字,并对实验文本分词和词性标注。从每个领域抽取个词......”

4、“.....词性词频和信息都应当包含在该词表中。用该关键词表结合点积分类器对测试语料分类。分别取,对比在不同取值情况下算法和算法的分类效果。实验结果和结论表和分类效果的不同从实验结果可以看出值取的时候的分类效果要好于,但这时的分类准确率比较低,而在分类准确率比较高的和时,的分类效果都要好于,同时在我们最终的改进权重算法中取值为,所以对应的取应当是优于。实验算法和算法的对比我们设计了两个实验来验证对算法的改进效果......”

5、“.....但采用的分类器有所不同,个是点积分类器,另个是余铉分类器。实验内容对比算法和算法的分类效果。实验平台点积分类器和余铉分类器实验语料训练语料从网上下载的个文本,分个领域领域名称领域文本数娱乐财经健康新闻个人交流社会体育表实验训练语料的分布测试语料也是从网上下载的个文本,领域划分同上领域名称领域文本数娱乐财经健康新闻个人交流社会体育表实验测试语料的分布实验步骤清除下载文本中的垃圾文字......”

6、“.....从实验语料中抽取出个总词表,包括词形词性每个领域的词频。从总词表中按照领域词频排序选择关键词数目分别为和的两种分类词表,同时去除各领域词频之和小于的词。在点积分类器下,使用关键词表,权重算法对测试语料分类。在点积分类器下,使用关键词表,权重算法对测试语料分类。与的结果对比。见表在点积分类器下,使用关键词表,权重算法对测试语料分类。在点积分类器下,使用关键词表,权重算法对测试语料分类。与的结果对比。见表在余铉分类器下,使用关键词表......”

7、“.....在余铉分类器下,使用关键词表,权重算法对测试语料分类。与的结果对比。见表在余铉分类器下,使用关键词表,权重算法对测试语料分类。在余铉分类器下,使用关键词表,权重算法对测试语料分类。与的结果对比。见表实验结果与结论表点积分类器,关键词的分类结果表点积分类器,关键词分类算法算法表余铉分类器,关键词分类表余铉分类器,关键词分类从上面的实验结果可以得出无论余铉分类器和点积分类器下,用的次方代替分类效果都有很大的提高......”

8、“.....的引入都使分类效果都有很大的提高。的最佳取值余铉分类器在的情况下效果最好点积分类器在的情况下最好,但是和的效果非常接近,考虑到计算复杂性我们也可以取。最终权重算法优于权重算法,平均值提高了左右。点积分类器无有无有无有有无无有无有无有有无个关键词下从提高到,提高了个关键词下从提高到,提高了余铉分类器个关键词下从提高到,提高了个关键词下从提高到......”

9、“.....以及我们提出的选取方法。为了充分对比它们的分类效果,我们结合余铉分类器,选取不同数目的关键词建立了分类关键词表,对测试语料进行了分类。实验内容比较不同选词策略和对于分类结果的影响。实验平台余铉分类器,权重算法实验语料同实验三的语料实验步骤清除下载文本中的垃圾文字,并对实验文本分词和词性标注。从实验语料中抽取出个总词表,包括词形词性每个领域的词频。将总词表按照排序,从高到低选择词分别组成不同的分类关键词表......”

下一篇
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
大规模平衡语料的收集分析及文本分类方法研究.doc预览图(1)
1 页 / 共 87
大规模平衡语料的收集分析及文本分类方法研究.doc预览图(2)
2 页 / 共 87
大规模平衡语料的收集分析及文本分类方法研究.doc预览图(3)
3 页 / 共 87
大规模平衡语料的收集分析及文本分类方法研究.doc预览图(4)
4 页 / 共 87
大规模平衡语料的收集分析及文本分类方法研究.doc预览图(5)
5 页 / 共 87
大规模平衡语料的收集分析及文本分类方法研究.doc预览图(6)
6 页 / 共 87
大规模平衡语料的收集分析及文本分类方法研究.doc预览图(7)
7 页 / 共 87
大规模平衡语料的收集分析及文本分类方法研究.doc预览图(8)
8 页 / 共 87
大规模平衡语料的收集分析及文本分类方法研究.doc预览图(9)
9 页 / 共 87
大规模平衡语料的收集分析及文本分类方法研究.doc预览图(10)
10 页 / 共 87
大规模平衡语料的收集分析及文本分类方法研究.doc预览图(11)
11 页 / 共 87
大规模平衡语料的收集分析及文本分类方法研究.doc预览图(12)
12 页 / 共 87
大规模平衡语料的收集分析及文本分类方法研究.doc预览图(13)
13 页 / 共 87
大规模平衡语料的收集分析及文本分类方法研究.doc预览图(14)
14 页 / 共 87
大规模平衡语料的收集分析及文本分类方法研究.doc预览图(15)
15 页 / 共 87
预览结束,还剩 72 页未读
阅读全文需用电脑访问
温馨提示 电脑下载 投诉举报

1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。

2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。

3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。

  • Hi,我是你的文档小助手!
    你可以按格式查找相似内容哟
DOC PPT RAR 精品 全部
小贴士:
  • 🔯 当前文档为word文档,建议你点击DOC查看当前文档的相似文档。
  • ⭐ 查询的内容是以当前文档的标题进行精准匹配找到的结果,如果你对结果不满意,可以在顶部的搜索输入框输入关健词进行。
帮帮文库
换一批

搜索

客服

足迹

下载文档