1、“.....摘要丰富的平行语料库对提升机器翻译准确度意义重大,然而目前研究中缺乏有效的平行语料获取方法,本文提出种从多语种网站中自动获取平行语料的方法,并且通过个多语种网站的平行语料采集和对齐研究,验证通过多语种网站获取大规模平行语料具有较高的可行性,这说明通过多语种网站获取大规模平行语料具有较高的可行性。关键词多语种新闻网站平行能够从相同事件的文本中获取机器翻译语料,同时数据每天更新,可以不断丰富平行语料库。平行采集使用爬虫技术对选择的多语种网站进行抓取,数据从互联网采集到本地之后,将按照统的标准进行数据分类,以的格式存储在对应的文件夹中,通过设臵对应的路径方便篇章对齐中文本数据的选取。篇章对齐对采集的语料进行分类后开始篇章对齐处理。如果篇章处理后发现网站的不同语种新闻存在较高的相似度......”。
2、“.....对人民网的新闻语料进行人工对齐,共计有项新闻语料使用不同语种陈述相同事情,在相似度的情况下进行篇章对齐,结果显示在对齐的项主题中,有项主题与文本内容致,其余项均为关键词相同,与人工比对结果相比对齊效果较好,作为平行语料具有参考价值,文本对齐结果如表所示。多语种网站平行语料采集与对齐研究论文原稿。双语词条语料主要是发布的双语对照新闻,以外交发布的例行记者发布会内容中为对翻译的双语新闻,这种平行语料质量高,可以直接作为机器翻译的语料,但是这种平行语料较少且大部分只有中英对照,数据缺乏规模和普遍性。多语种新闻网站平行语料是本次实验所探究采集的语料,在国家级政府机构的新闻网站会分为不同的语种频道,些新闻报道会在间隔较短的时间内以不同语言发布在对应网站。这些语料虽然不是精确到对翻译,但能够从相同事件的文本中获取机器翻译联网采集到本地之后......”。
3、“.....以的格式存储在对应的文件夹中,通过设臵对应的路径方便篇章对齐中文本数据的选取。篇章对齐对采集的语料进行分类后开始篇章对齐处理。如果篇章处理后发现网站的不同语种新闻存在较高的相似度,就可以将这些语料用于机器翻译的学习中。在篇章对齐的实现过程中主要接入百度通用翻译,在调入接口的过程中设臵自动识别语言,同时设臵发送字符的换行摘要丰富的平行语料库对提升机器翻译准确度意义重大,然而目前研究中缺乏有效的平行语料获取方法,本文提出种从多语种网站中自动获取平行语料的方法,并且通过个多语种网站的平行语料采集和对齐研究,验证通过多语种网站获取大规模平行语料具有较高的可行性,这说明通过多语种网站获取大规模平行语料具有较高的可行性。关键词多语种新闻网站平行语料篇章对齐机器翻译中图分类号文献标识码文章编号引言统计多语种频道的新闻网站而言......”。
4、“.....但由于新闻需要每天更新,因此文本数据始终在增加,这样平行语料就会处于直增加的状态,同时多语种网站提供了不同的语种组合,所以可以获得更多种语言的平行语料。下步的工作主要是提高篇章对齐的准确度,从篇章对齐延伸至句子对齐,同时从具有平行语料价值的网站中获取更多的多语种文本。参考文献章对齐,在对篇章对齐结果进行数据清理后得到项结果,其中项对齐程度高新闻主题和内容相同,剩余项为部分关键词相同。在篇章自动对齐结果中,新华网文本基本满足了多语种语料篇章对齐的要求,对齐结果质量较高,可以作为平行语料采用,具体对齐情况如表所示。中国青年网对齐结果分析中国青年网共采集篇,采集语料数量如下法语篇俄语篇英语篇。由于中国青年网部分网站运营出现问题,导致数据采集缺失。在后期过篇章对齐等技术的处理,目前对齐主要思路是根据多语种语料间句子的特征寻找匹配度最高的句子,通过句子长度......”。
5、“.....实验过程主要思路选择主流官方媒体人民网,中国青年网,外交部官方网站等拥有多语种的网站作为采集目标,官方新闻网站在不同语种频道发布的新闻主要分为独立编辑新闻和翻译汉语新闻,根据需求进行篇章对齐的是后者。通过网页代码制定抓取规则,使用数据采集系行语料就会处于直增加的状态,同时多语种网站提供了不同的语种组合,所以可以获得更多种语言的平行语料。下步的工作主要是提高篇章对齐的准确度,从篇章对齐延伸至句子对齐,同时从具有平行语料价值的网站中获取更多的多语种文本。参考文献,朱杰,古明基于语料库的机器翻译现代交际多语种网站平行语料采集与对齐研究论文原稿,朱杰,古明基于语料库的机器翻译现代交际,冯志伟基于语料库的机器翻译系统术语标准化与信息技术,肖维青平行语料库与应用翻译研究中国科技翻译,邵健,章成志从互联网上自动获取领域平行语料现代图书情报技术......”。
6、“.....。行语料的数据采集库。实验结果分析本文通过对个多语种网站的不同语言频道新闻进行采集和篇章对齐处理,得到以下结论具备作为平行语料采集价值的多语种网站,其中人民网新华网外交部官网国际在线这个网站作为采集对象,通过篇章对齐后得到的文本对齐率高,自动对齐的文本较精准,可作为平行语料。另外两个网站由于更新问题,暂时还不具备作为多语种平行语料的价值。传统的平行语料大多来源自双语数据库,对拥篇,采集语料数量如下德语篇法语篇俄语篇日语篇韩语。人工对齐结果共有项,篇文本。使用软件进行自动篇章对齐结果共有项,其中项主题内容相同,剩余项为关键词对齐。综合对齐效果来看,中国网无论是从文章主题还是关键词的角度对齐数量少,因此不适合作为平行语料的数据采集库。实验结果分析本文通过对个多语种网站的不同语言频道新闻进行采集和篇章对齐处理......”。
7、“.....共有两项主题内容相同。通过软件进行自动篇章对齐,无准确结果,因此中国青年网不作为平行语料的采集对象。中国网对齐结果分析中国网共采集篇,采集语料数量如下德语篇法语篇俄语篇日语篇韩语。人工对齐结果共有项,篇文本。使用软件进行自动篇章对齐结果共有项,其中项主题内容相同,剩余项为关键词对齐。综合对齐效果来看,中国网无论是从文章主题还是关键词的角度对齐数量少,因此不适合作为平分别对上述网站的新闻进行抓取,分别选取其汉语英语日语韩语法语俄语等多个不同语种频道的新闻。抓取内容包括标题布时间内容等容易进行匹配的特征。多语种网站平行语料采集与对齐研究论文原稿。新华网对齐结果分析新华网共采集新闻篇,采集语料数量如下德语篇法语篇俄语篇韩语篇日语篇英语篇。人工对齐结果为个主题,共篇文章在新闻内容上致。对数据进行清洗后,在相似比为的情况下对采集数据进行自动篇......”。
8、“.....肖维青平行语料库与应用翻译研究中国科技翻译,邵健,章成志从互联网上自动获取领域平行语料现代图书情报技术,王斌汉英双语语料库自动对齐研究北京中国科学院研究生院,。语料对齐王斌将语料对齐定义为确定源文本和目标文本是否互为翻译关系的过程。对于获取的原始语料存在噪音的问题,因为不能直接使用在机器翻译的模型训练中,所以需要通网站,其中人民网新华网外交部官网国际在线这个网站作为采集对象,通过篇章对齐后得到的文本对齐率高,自动对齐的文本较精准,可作为平行语料。另外两个网站由于更新问题,暂时还不具备作为多语种平行语料的价值。传统的平行语料大多来源自双语数据库,对拥有多语种频道的新闻网站而言,通过篇章对齐获得的平行语料相较传统数据库而言缺乏定的精确性,但由于新闻需要每天更新,因此文本数据始终在增加......”。
9、“.....对齐结果质量较高,可以作为平行语料采用,具体对齐情况如表所示。中国青年网对齐结果分析中国青年网共采集篇,采集语料数量如下法语篇俄语篇英语篇。由于中国青年网部分网站运营出现问题,导致数据采集缺失。在后期人工对齐中,共有两项主题内容相同。通过软件进行自动篇章对齐,无准确结果,因此中国青年网不作为平行语料的采集对象。中国网对齐结果分析中国网共采语料篇章对齐机器翻译中图分类号文献标识码文章编号引言统计机器翻译通常需要大规模的平行语料来不断提高翻译的准确度,因此语料库的规模与持续扩充是提高机器翻译质量的重要因素。平行语料的人工标注难度很大,特别是小语种语料,而互联网上存在着大量多语平行语料资源,并且这些语料是持续增长的。如何通过网络爬虫技术和双语自动对齐技术从多语种网站采集并对齐语料,在机器翻译领域是件值得研究的事......”。
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。