（外文翻译）问答通道图中的答案抽取（译文）㊣精品文档值得下载

（外文翻译）问答通道图中的答案抽取（译文）

年自动学习这种模式集并自动生成成绩。他们发送问题条款和答案到个搜索引擎上并从通道检索上提取模式。等，通过在问题条款中增加语义类型来提高以前的方法，并使用自动学习型态的特点来模拟答案抽取的正确性。尽管它提供了很高的精确度，基于模式的答案抽取方法被预先定义的问题的类型所限制。除了模式，不同的语言单元也被抽取并根据频率进行排名。和，年，做出发言，大多数系统使用命名实体识别进行答案提取，比如说 , , 。该方法首先提取实体，然后过滤列表，并将保留的候选人固定在预期答案类型中。实现了良好的业绩通常需要实现给类型学提供个命名实体的工具，因为很多答案类型不包括现有命名实体识别工具中。然而，开发这样的识别在答案类型确定中是不平凡和的将传播到提取。答案提取的另外个单元是正克。等，从网上检索到的文件中收集高频正克。该方法使用表面串特点和手工制作的图案确定候选人类型并进行过滤。此外，些文字单位通过外部知识或字典确定，例如文字网或维基百科中的标题，锚文章和重定向原数据。另外，很多方法都依赖于句法结构和提取的名词短语或依赖通道中的树节点。这些类型的方法通常利用问题和答案句子之间的相似度进行候选人的排名。太阳等，以三倍速度分解这种依赖树并在共同信息的基础上计算相似度。，使用树核函数计算的相似性和探索，的问题和候选句子之间依赖路径的相关性。为了克服问题表达和候选句子之间的表面差距，纳入意译依赖映射的路径，然后根据语言模型排列候选人。最后的方法类型作为个长期的提取工艺来查看答案抽取受到了的质疑。这种方法运用的特点来自问题，文件，以及在两部分之间匹配标签。因子图，是个双向图，定义的因素和变量使得全球函数被不同的变量分解的功能。许多自然语言处理讨论了使用因子图方法解决不同的问题，如关系提取，情感分析或事件抽取。在本文中，我们采用因子图作为我们的模型来执行答案提取。不同于以往分别在每个通道中提取答案的答案抽取方法，本文中，我们在图表上执行答案抽取，这种图表是建立在通过连接与该问题相关的所有通道上的。这使得提取在通道之间不是孤立的，并使得其他段落所提供的证据被充分利用。方法任务定义给定的个问题和其相应的通道 , ，该任务是针指向从中提取答案特别，我们从每个通道中抽取候选人，以产生候选人名单 ,我们将同样出现的放在起用来产生，。在这里，是基于频率进行排名的。在每个段落中，我们在通道中的每个字的分类上进行抽取任务的交换，用 є,标签以表明它是否是个答案字符串。在这里， є ，是通道的序列号，表示这个词是通道中的第个字。接下来我们连接不同的通道来建立通道图。在不同的通道中，我们添加的边缘连接变量和，若和共享相同的茎在这里，我们消除问题中和之间的联系。核心任务是预测在通道图中。当我们得到谓词，提取每个通道内具有连续的单词序列标签的作为候选人，以产生候选名单。模型我们采用因子图作为模型来解决在图形上的预测。我们规定因子图如下。在每个通道中，我们使用来表示相关的变量。对于不同通道上的边，我们使用因子节点来分解定义在这条边上的功能。图显示了个例证因子图。这项工作中，我们使用循环信念传播推断在训练和使用调整参数的边缘可能性。就推理来说，最大积分算法被使用。培训和接口战略遵循了中提到的方法。在这里我们忽略节省空间的详细信息。特点我们定义了两个功能集和来代表图中的两种不同的因素节点。两者的功能集包含简单词汇特征以及通过标记和依赖解析所产生的复杂特征。在下文中，我们说明了两个功能集。功能集此功能集描绘来自不同通道的两个词表示相同含义的可能性。这种可能性越高，词汇的标签是相同的可能越大。我们根据其上下文模拟这种可能性。这集合的特点包括两个通道的含有的包含这些字，如果这两个词都被用到如果这两个词是相同的，如果他们的标签是相同的如果他们有相同的依赖标签，如果他们的依赖父亲是同个词在他们依赖孩子节点中重叠词会的数量，在他们周围字集的重叠词汇的数量，窗口大小，类似的词语下同，其他通道的与这个字相关联的字的数量。功能设置这组中的功能是用来描述在给定上下文的情况下个字是答案的可能性。不同于传统所采用的功能，我们添加更多的特征描述字与问题之间的关系。这些特征来自四个部分  问题相关的特征这些功能定义在定语境中个给定词语问题相关的捕获程度。这集合包括这个词是否在问题中这个词的依赖父亲是否在问题中是否与问题中出现的主要词汇有依赖关系它的依赖孩子在问题中的数量周围的词语在问题中的数量。  词汇的特点这些功能描述每个字的重要性，这个类别主要包括使用的传统功能字的标记及周边字字是否被使用它是否是个是否它包含个数字是否是标点，是否是个人，位置，或组织名称。  通道功能这些功能捕捉通道和问题之间的相似之处。他们包括通路的依赖关系三元组与问题相匹配的数量最长公共子序列问题和通道之间最长公共子序列的匹配通道中的通道的题目通过通道中检索组件来排列。  问题的特点题型人，地点，等问题焦点谁，何时，何地，等实验在本节中，我们讲述了实验的设置和结果，并对结果进行了分析。实验设置组件我们的系统主要遵循传统的管道框架包含三个部分  问题分析我们使用手动定义的规则确定问题类型和重点。问题被用来作为检索通道的唯查询办法。  通道检索我们使用了个精心打造的搜索引擎检索通道，并保留了前名的检索结果。  答案抽取我们选择出现频率最多的作为最终的答案，如果有局限的话，最频繁的搜索结果的排列顺序是按照在已经抽取的各种各样的通道中的第个单词的最大价值评分。文本预处理通过搜索引擎检索的检索结果首先被分解在单独的句子里。对于每个句子问题或片段，词根词性标注，依存分析进行。我们使用的是斯坦福大学解析器等人，产生的标签和依赖关系树。数据在我们的实验中，我们采用四个数据集  达尼洛等人，年，年，年和数据。我们手动过滤掉非智能标记问题。  这也被提到的问题, 楚卡罗尔和风扇，。  佐佐木，年英语问题英日跨越语言问题回答任务数据。  佛瑞斯，从年至年的数据。我们添加人的努力解决照应对于给定主题相关的些问题。在我们的实验中，我们使用的数据示于表。为了试验，我们随机选择数据并且使用残余的作为测试数据。由于上衣步骤所遗漏的答案不影响我们对提取组件性能的估算。因此，继设置沉的年，我们只保留答案包含在检索到的通道的问题。总体而言这留给我们左右的问题。该二进制召回答案都包含在搜索结果中的问题比例通过检索组件也示于表。数据集实现了低记得。这可以归因于个事实，这个数据集的应答是取决于所提问题的时间或者上下文。我们显示了些问题类型测试载于表中。人工评估，随机选取测试集上的问题每套显示精度问题类型的预测是。评估我们评估了前值的数目其中这些数目的问题的答案也是排在前值里的。我们也给出了。其中等级的排名，排名最顶尖的是问题的正确答案，是些测试题的数目，只计算所询问题的答案可以在检索通道中找到的。比较结果与不使用通道图的方法的比较为了验证通道之间的效果连接，我们通过去除建立在不同通道之间的变量的因子代码来构建基础线。因此功能设置和因子节点被消除。这个设置所使用的试验数据和工具与我们建议的方法相同。因此，基准线的方法是类似于中描述的佐佐木，但是我们添加更多的依赖功能，和风格的词汇特征。此外，该日本机使用的功能佐佐木也没有使用。试验结果于表进行了比较。通过增加链接不同通道之间的端口，所有的指标都比基础线的办法好。当的结果是显着帮助以粗体表示显著改善。改善并不可观，但该数据集是非常小的，所以它不能代表统计趋势。在所有数据集，前措施和前名除了在都得到了提高。这结果证实，包含了段落之间的关系可以有效的提高答案抽取。我们还对基线的结果进行重新排序，表示为基线重新排名功能停用词的基础上，频率，的频率周围所有候选人，回答类型匹配，长度等。培训过程在培训数据基础上进行了排名。这种办法被表述在等人，年。似乎重排序后的基线结果是提高了，但是，与建议办法还是有些差距。对于效率比较，通道图方法需要执行的置信度传播，推断过程需要的时间处理每个问题而基线法只需要。两者的特征提取时间方法，几乎是相同的。与比较大多数答案抽取工作只在它自己的研究路线上进行了性能比较，如沉，，比较其结果与基于语法的方法。我们的方法虽然使用答案抽取，但可以被看作是个图形化的基于模型的提取，尤其是长期的任务。因此我们把结果与方法进行了比较。因为它不容易实现个复杂的命名实体尤其像类型学，我们在人地点和组织问题使用我们的办法和现存的工具进行比较。实体的确定是基于频率的基础上由工具保持和排序。结果示于表，表明我们的方法优于。这是因为方面，斯坦福训练数据集