帮帮文库

返回

(外文翻译)问答通道图中的答案抽取(外文+译文) (外文翻译)问答通道图中的答案抽取(外文+译文)

格式:RAR 上传:2022-06-25 05:57:10
内容摘要(随机读取):

1、在通道之间不是孤立的,并使得其他段落所提供的证据被充分利用。方法.任务定义给定的个问题和其相应的通道,.,该任务是针指向从中提取答案.特别,我们从每个通道中抽取候选人,以产生候选人名单,我们将同样出现的放在起用来产生,.。在这里,是基于频率进行排名的。在每个段落中,我们在通道中的每个字的分类上进行抽取任务的交换,用є,标签以表明它是否是个答案字符串。在这里,є,是通道的序列号,表示这个词是通道中的第个字。接下来我们连接不同的通道来建立通道图。在不同的通道中,我们添加的边缘连接变量和,若和共享相同的“茎”在这里,我们消除问题中和之间的联系。核心任务是预测在通道图中。当我们得到谓词,提取每个通道内具有连续的单词序列标签的作为候选人,以产生候选名单。.模型我们采用因子图作为模型来解决在图形上的预测。我们规定因子图如下。在每个通道中,我们使用来表。

2、抽取看作是通道中每个文字是否是问题答案的项任务,当我们运用这种分类时,所有通道中的致信息都是有用的。让我们从基本词法观点来考虑所有的通道都是由同检索查询时,有可能不同通道中相同的文字表示了相同的意思,作为结果他们可能都是答案或者他们可能都不是答案。另外,他们共享的上下文越相似,作为是否是答案候选的标签是否相同就越有可能。因此,有可能针指向更多的正确答案或纠正提取过程中的边界问题。表年问题。检索通道通过使用作为查询问题问什么是阿拉斯加的州鸟答柳雷鸟通道官方阿拉斯加的州鸟是柳雷鸟通道本系列被摄制柳松鸡拍下.公园在阿拉斯加通道柳松鸡是相当大的鸟,非常小的鸡。考虑表中描述的例子,通道中的证据很明显的表示“柳雷鸟”作为个正确的答案,因为句子结构与问题相似以及关键词在通道中有提到使得答案很变的很明确。与此相反,通道和通道中的证据不是那么明显,因为这两。

3、案句子之间的相似度进行候选人的排名。太阳等,以三倍速度分解这种依赖树并在共同信息的基础上计算相似度。,使用树核函数计算的相似性和探索,的问题和候选句子之间依赖路径的相关性。为了克服问题表达和候选句子之间的表面差距,纳入意译依赖映射的路径,然后根据语言模型排列候选人。最后的方法类型作为个长期的提取工艺来查看答案抽取受到了的质疑。这种方法运用的特点来自问题,文件,以及在两部分之间匹配标签。因子图,是个双向图,定义的因素和变量使得“全球”函数被不同的变量分解的功能。许多自然语言处理讨论了使用因子图方法解决不同的问题,如关系提取,情感分析或事件抽取。在本文中,我们采用因子图作为我们的模型来执行答案提取。不同于以往分别在每个通道中提取答案的答案抽取方法,本文中,我们在图表上执行答案抽取,这种图表是建立在通过连接与该问题相关的所有通道上的。这使得提取。

4、案。然而,大多数以前的方法都是单独的对每个通道进行提取,而没有考虑到其他通道所提供的线索。本文通过充分利用不同通道之间的联系提出了种新的方法来提取答案。特别地,提取是通过建立在添加了大量的通道联系的通道图来执行的。不同的通道是通过具有相同的连接词进行联系的。我们通过使用因子图作为我们的模型来提取答案。多个数据上的实验结果集表明,我们的方法显著提高答案抽取的性能。说明问答的任务旨在自动解答自然语言描述中的问题。答案提取是系统中的个重要组成部分,用来生成通道中的精确答案。答案提取首先从通道中生成候选答案,再通过些评分函数进行排名,例如候选的频度。以往的研究已经检查答案抽取不同的方法,如命名实体识别或模式匹配,然而,这些拥有相同财产的人是从单独的通道中抽取出来的,不考虑由其他通道提供的任何信息。然而,其他通道所提供的线索是有用的。如果我们把答案。

5、了很高的精确度,基于模式的答案抽取方法被预先定义的问题的类型所限制。除了模式,不同的语言单元也被抽取并根据频率进行排名。和,年,做出发言,大多数系统使用命名实体识别进行答案提取,比如说.,。该方法首先提取实体,然后过滤列表,并将保留的候选人固定在预期答案类型中。实现了良好的业绩通常需要实现给类型学提供个命名实体的工具,因为很多答案类型不包括现有命名实体识别工具中。然而,开发这样的识别在答案类型确定中是不平凡和错误的将传播到提取。答案提取的另外个单元是正克。等,从网上检索到的文件中收集高频正克。该方法使用表面串特点和手工制作的图案确定候选人类型并进行过滤。此外,些文字单位通过外部知识或字典确定,例如文字网或维基百科中的标题,锚文章和重定向原数据。另外,很多方法都依赖于句法结构和提取的名词短语或依赖通道中的树节点。这些类型的方法通常利用问题和。

6、示相关的变量。对于不同通道上的边,我们使用因子节点来分解定义在这条边上的功能。图显示了个例证因子图。这项工作中,我们使用循环信念传播推断在训练和使用调整参数的边缘可能性。就推理来说,最大积分算法被使用。培训和接口战略遵循了中提到的方法。在这里我们忽略节省空间的详细信息。.特点我们定义了两个功能集和来代表图中的两种不同的因素节点。两者的功能集包含简单词汇特征以及通过标记和依赖解析所产生的复杂特征。在下文中,我们说明了两个功能集。功能集此功能集描绘来自不同通道的两个词表示相同含义的可能性。这种可能性越高,词汇的标签是相同的可能越大。我们根据其上下文模拟这种可能性。这集合的特点包括两个通道的含有的包含这些字,如果这两个词都被用到如果这两个词是相同的,如果他们的标签是相同的如果他们有相同的依赖标签,如果他们的依赖父亲是同个词在他们依赖孩子节点中重。

7、个通道描述了关于“柳雷鸟”的其他方面。此外,“柳雷鸟“通道中没有提到,这使得它更难被提取。但是,如果我们利用通道中“柳雷鸟“的标签,这两个标签作为候选答案的概率会提高。在通道中,“柳”和“松鸡”很容易被分离,但把通道中的“柳雷鸟”作为候选答案边界将会被修改。其结果是,找到正确答案的频率将会提高。这有助于提高正确回答问题的可能性。在本文中,出于这种观察,我们提出了通过不同通道之间的充分连接进行答案的提取。特别地,答案提取是执行在为描述所有通道中相同问题而建立的通道图上。不同通道之间的关联是通过相同连接词之间添加边来建立。以这种方式,个字符串是否可以被确定为候选答案由两个因素共同决定本地通道中包含证据在其他通道中的有与标签中相同的字的证据。我们采用因子图作为模型。在因子图,随机变量表示通道中的文字,用来生成个的标签。在不同的通道中,我们通过添。

8、,我们采用四个数据集达尼洛等人,年,年,年和数据。我们手动过滤掉非智能标记问题。这也被提到的问题!楚卡罗尔和风扇,。佐佐木,年英语问题英日跨越语言问题回答任务数据。佛瑞斯,从年至年的数据。我们添加人的努力解决照应对于给定主题相关的些问题。在我们的实验中,我们使用的数据示于表。为了试验,我们随机选择数据并且使用残余的作为测试数据。由于上衣步骤所遗漏的答案不影响我们对提取组件性能的估算。因此,继设置沉的年,我们只保留答案包含在检索到的通道的问题。总体而言这留给我们.左右的问题。该二进制召回答案都包含在搜索结果中的问题比例通过检索组件也示于表。数据集实现了低记得。这可以归因于个事实,这个数据集的应答是取决于所提问题的时间或者上下文。我们显示了些问题类型测试载于表中。人工评估,随机选取测试集上的问题每套显示精度问题类型的预测是。评估我们评。

9、个因素节点来连接两个变量,这两个变量的“茎”是相同的,用来表示变量之间的相近度。实验执行在四大公共数据集上。结果表明,利用通道之间的关系,相对于没有使用这种关系的方法,答案提取的性能有着显著的提高。相关工作以往对答案抽取的研究已经讨论使用不同的结构进行答案抽取,包括模式,命名实体,正克和句法结构。,使用手工绘制图案从文本中提取候选人来预先定义问题的类型些工作用使用问题类型来描述该问题是否被问到有关职能标记,列表,定义等等。本文重点是智能标记,我们按照符号在许多文件中不区分问题的类型和答案型候选人的分数取决于他们来自哪个模式。无需人工努力,年自动学习这种模式集并自动生成成绩。他们发送问题条款和答案到个搜索引擎上并从通道检索上提取模式。等,通过在问题条款中增加语义类型来提高以前的方法,并使用自动学习型态的特点来模拟答案抽取的正确性。尽管它提供。

10、和通道之间最长公共子序列的匹配通道中的通道的题目通过通道中检索组件来排列。问题的特点题型人,地点,等问题焦点谁,何时,何地,等实验在本节中,我们讲述了实验的设置和结果,并对结果进行了分析。.实验设置组件我们的系统主要遵循传统的管道框架包含三个部分问题分析我们使用手动定义的规则确定问题类型和重点。问题被用来作为检索通道的唯查询办法。通道检索我们使用了个精心打造的搜索引擎检索通道,并保留了前名的检索结果。答案抽取我们选择出现频率最多的作为最终的答案,如果有局限的话,最频繁的搜索结果的排列顺序是按照在已经抽取的各种各样的通道中的第个单词的最大价值评分。文本预处理通过搜索引擎检索的检索结果首先被分解在单独的句子里。对于每个句子问题或片段,词根词性标注,依存分析进行。我们使用的是斯坦福大学解析器等人,产生的标签和依赖关系树。数据在我们的实验。

11、估了前值的数目其中这些数目的问题的答案也是排在前值里的。我们也给出了。其中等级的排名,排名最顶尖的是问题的正确答案,是些测试题的数目,只计算所询问题的答案可以在检索通道中找到的。.比较结果与不使用通道图的方法的比较为了验证通道之间的效果连接,我们通过去除建立在不同通道之间的变量的因子代码来构建基础线。因此功能设置和因子节点被消除。这个设置所使用的试验数据和工具与我们建议的方法相同。因此,基准线的方法是类似于中描述的佐佐木,但是我们添加更多的依赖功能,和风格的词汇特征。此外,该日本机使用的功能佐佐木也没有使用。试验结果于表进行了比较。通过增加链接不同通道之间的端口,所有的指标都比基础线的办法好。当的结果是显着帮助以粗体表示显著改善。改善并不可观,但该数据集是非常小的,所以它不能代表统计趋势。在所有数据集,前措施和前名除了在都得到了提高。这结。

12、词会的数量,在他们周围字集的重叠词汇的数量,窗口大小,类似的词语下同,其他通道的与这个字相关联的字的数量。功能设置这组中的功能是用来描述在给定上下文的情况下个字是答案的可能性。不同于传统所采用的功能,我们添加更多的特征描述字与问题之间的关系。这些特征来自四个部分问题相关的特征这些功能定义在定语境中个给定词语问题相关的捕获程度。这集合包括这个词是否在问题中这个词的依赖父亲是否在问题中是否与问题中出现的主要词汇有依赖关系它的依赖孩子在问题中的数量周围的词语在问题中的数量。词汇的特点这些功能描述每个字的重要性,这个类别主要包括使用的传统功能字的标记及周边字字是否被使用它是否是个是否它包含个数字是否是标点,是否是个人,位置,或组织名称。通道功些功能捕捉通道和问题之间的相似之处。他们包括通路的依赖关系三元组与问题相匹配的数量最长公共子序列问题。

参考资料:

[1](外文翻译)温度对一钢_混凝土组合梁桥的每日模态变化的影响(外文+译文)(第0页,发表于2022-06-25)

[2](外文翻译)为快速开发web应用设计一个MVC模型(外文+译文)(第0页,发表于2022-06-25)

[3](外文翻译)为冲压模具设计开发一个切实可行的排样优化系统(外文+译文)(第0页,发表于2022-06-25)

[4](外文翻译)往复式压缩机的吸簧片阀在冰箱里受到交变应力负载的可靠性设计(外文+译文)(第0页,发表于2022-06-25)

[5](外文翻译)网络悬索系统在钢系杆拱桥中的应用和发展(外文+译文)(第0页,发表于2022-06-25)

[6](外文翻译)土星磁尾的高能离子加速土星亚暴(外文+译文)(第0页,发表于2022-06-25)

[7](外文翻译)图像处理最大类间方差算法的图像分割综述(外文+译文)(第0页,发表于2022-06-25)

[8](外文翻译)统计评估一个钢筋混凝土组合桥面板的疲劳性能和应力等级(外文+译文)(第0页,发表于2022-06-25)

[9](外文翻译)通过使用高级航空热发射和反射辐射仪(ASTER)热红外图像(外文+译文)(第0页,发表于2022-06-25)

[10](外文翻译)通过使用SANS方法对溶胀橡胶碳黑系统进行结构分析(外文+译文)(第0页,发表于2022-06-25)

[11](外文翻译)通过三维打印技术快速制备太赫兹透镜(外文+译文)(第0页,发表于2022-06-25)

[12](外文翻译)通过亲身实验改进工业设计(外文+译文)(第0页,发表于2022-06-25)

[13](外文翻译)通过5氨基乙酰丙酸来改善棉苗的耐盐性(外文+译文)(第0页,发表于2022-06-25)

[14](外文翻译)体验营销洞察消费者的消费心理(外文+译文)(第0页,发表于2022-06-25)

[15](外文翻译)水平传染的克隆癌细胞在软壳蛤种群中引发了癌症(外文+译文)(第0页,发表于2022-06-25)

[16](外文翻译)水动力建模船舶在船闸中的操作(外文+译文)(第0页,发表于2022-06-25)

[17](外文翻译)谁来为网络学习在高等教育的成功负责?(外文+译文)(第0页,发表于2022-06-25)

[18](外文翻译)双丝埋弧焊过程的数值模拟模型(外文+译文)(第0页,发表于2022-06-25)

[19](外文翻译)双侧可调节人工晶状体(外文+译文)(第0页,发表于2022-06-25)

[20](外文翻译)术后期间使用外用类固醇与非甾体抗炎药的重要性(外文+译文)(第0页,发表于2022-06-25)

该本为压缩包,包含中文跟外文
  • 文档助手
    精品 绿卡 DOC PPT RAR
换一批
(外文翻译)问答通道图中的答案抽取(外文+译文)
帮帮文库
页面跳转中,请稍等....
帮帮文库

搜索

客服

足迹

下载文档