（外文翻译）场景分析中的神经网络视觉计划表示（外文+译文）

格式：RAR 上传：2025-11-25 17:01:12

构化的知识。第个问题的出现是由于没有个实用的神经网络可以同时高效地处理所有的可视化输入。解决这个问题的办法是并行地处理比较小的输入，并且连续地处理输入的其他部分。为了能够描述和翻译收集来的前后相继的信息，这个策略需要系统维护个结构化的知识。被提议的系统由两个主要的模块组成。低层可视化模块从可视化输入中提取特征和位置信息。计划模块把可能的对象的可视化知识编码，并且为低层可视化模块提供自上而下的信息，以便把注意力集中在场景中互不相同的部分。通过和低层可视化模块的协力合作，计划模块建立了个对于收集到的前后相继的可视化信息的全局致的翻译。Ⅰ介绍考虑在简单场景中对象识别的任务。个场景分析系统不得不识别场景中的对象比如张弓和两棵树并且识别出场景所描绘的到底是什么。在设计个执行以上所描述的功能的神经网络系统的过程中，我们遇到了两个基本的问题怎样能使得个固定的，有限的神经网络能够处理无限的信息怎样能使得个神经网络能够表示和利用已有的结构化知识实际上，在许多神经网络应用领域我们都遇到了以上所描述的两个问题，例如在语言理解和自然语言处理领域。这个研究的目的就是把场景分析作为个具体的任务，针对这些问题发展些通用的方法。我们现在来考虑第个问题有限的处理资源。在实践中，我们只可能建立个拥有固定数量的输入单元和内部处理单元的神经网络。权重和行为拥有有限的精确度并且被限制在个范围之内。输入单元的数量可能比场景的型号要小。尽管网络可以次捕捉个场景的很大部分，但是它不可能并行地处理所有的信息除非它有指数级的单元和线路。唯可行的选择是并行地处理视觉输入的个小部分，并且相继地处理这个场景的不同部分。这个场景同样地应用在生物视觉系统中。因为网络是固定的和有限的，它不可能为无限的输入信息提供足够的存储空间。它应该为目前已经收集到的信息建立和维护个局部的翻译。基于已收集到的信息，它估计出输入特征属于个已知对象的可能性。随着更多的信息被接收，它加强或者削弱先前做出的估计。他不停地处理场景的其他部分直到收集够足够的信息来建立个致的翻译。每个局部翻译都和网络的个稳定的中间状态相对应。采用这个策略的系统，为了能做出翻译，都需要个在心理研究上通常被称作计划的内部模块。因此第个问题的解决方法需要让神经网络编码计划，或者更普通的，我们叫做结构化知识也就是说，第个问题的解决需要引用第二个问题。个解决问题的办法是在神经网络中象征性地表示这样的知识。这个方法在可以很好地使用于简单场景，但是对于更为复杂的系统它没有普遍的适应性。神经网络并不擅长于直接处理符号。但是，他们对特征提取，联想，限制性满足，模式分类和其它的些模糊决定很在行。这些任务通过神经过程得到执行，就象单元和网络间的合作和竞争。是被设计用来在对象识别和场景分析领域解决上文所述的两个基本问题的。简化工作可是让我们把精力放在核心问题上计划的学习和表示。在这个工程中要考虑的场景是由对象组成的，而对象是由直线和些简单的图形例如矩形和三角形组成的。描述对象和场景的知识包括四个位置关系左，右，上，下和个层级关系属于。这样的知识可以很方便地被编码成地图和单元之间的联系。除去简化任务，这个研究的目的是得到可以适用于更复杂的场景和任务的通用的解决方法。Ⅱ相关工作提出了个通用的方法，可以用模式编码概念上的计划。计划的单个组件，比如沙发，床，浴缸和洗手间被表示成个网络内的不同单元。两个单元之间联系的权重表示这两个组件在个计划内出现的可能性，并且网络的行为模式把个计划的实例编码。这个网络不编码计划间的层级关系。描述了三种表示层级知识的方法。其中第二中方法和中曾经用过的种方法很相似。网络里的很多单元被组织成不同的层。层级越高，该单元所表示的对象也就越复杂。表示对象组件的较低层次的单元被连接到表示对象本身的较高层次的单元。和的认识模型偏重于对计划的激活和控制。在这个模型，指定域的行为计划和思考计划可以被独立地激活。将要被运行的计划的个小的子集是由两个被称作争论调度和监督注意系统的不同的进程选出的。争论调度是个指定域的进程，类似于传统人工智能系统中的冲突解决。它通过指定域的简单标准来选取计划。监督注意系统是个在每个域上运行计划的通用规划系统。它通过偏置争论调度的操作来控制计划的激活。中计划的激活和控制类似于争论调度进程。Ⅲ的成就在低层是把“干什么”和“在哪里”分开处理的如图所示。它由低层视觉模块和计划模块组成。低层视觉模块图次处理场景中的个位置上的信息，提取出这个位置的特征信息线，矩形或者三角形。作为输出，特征池表明了低层视觉模块判断出现个确定特征的可能性图。相对关系图用不同的比例编码这些特征的相对位置。举个例子，假设部分场景包含个弓和两棵树图。同样假设现在系统的注意力集中在弓的三角形的底部。在精确模式，相对关系图识别出三角形位于两个矩形之上，并在图的顶端给出个蜂值回应图。在粗糙模式下，相对关系图识别出组成弓的特征黑点位于组成两棵树的黑点的中间，并在图的中间就给出个峰值回应图。在比视网膜大的模式中，必须考虑眼球的位置。计划模块图维护计划的层次，整合连续的输入信息，决定下个要处理的位置。它由两个主要的神经网络组成计划层次网和变化选择网。计划层次网是计划表示网的个多层网络，或者可以说是计划网的简明模式图。个计划网由四个主要的部分组成输出单元，子计划行为图，当前位置图和可能位置图。在详细地描述这些组件之前，我们先来看看在计划层次网中计划是怎么样表示的。计划网中的每层都对应于计划层次中的个层。个计划网既可以作为个高层计划的子计划也可以作为个低层计划的父计划。第层计划的子计划由特征池组成。的连通性编码计划之间的局部和整体的关系。举个例子，我们考虑弓的表示。如图所示，张弓由三个部分组成个三角形的顶，和两个矩形的柱。弓上有层次感的格子在弓计划网络中表示子计划行为图。黑点表示图中组件的位置。例如，三角形在弓的中上部。和每个黑点对应的，在特征池和单元之间有条连线。连线表示在单元的位置特征是弓计划的个组件。单元的行为表示子计划出现在场景中的可能性。这些行为可能随着从场景中提取出的信息不断增多而改变。可以有效地编码个计划当前信息的摘要。除了在中被编码的动态信息外，保留计划的静态结构信息是很有必要的，这样系统可以决定下步要集中处理什么。这样的信息存储在可能位置图。单元中的个高级动作表明个子计划被期望发生于与之对应的位置。当前处理的位置被存储在当前位置图中，被图中单个活跃单元的位置编码。每个单元都以乘法的关系连接到单元的相应位置上。如果个单元正在运行，则相应的单元的行为是最新的。否则，单元的行为则会保持不变。换句话说，只有配套当前位置的子计划的行为才可以向上传播。个计划与输入匹配到底是必然还是偶然，是在计划输出单元的行为中被总结的。除了从计划自己的单元中自下而上的联系外，输出单元接受从父计划的单元中自上而下的联系图。如果个较高层的计划以高偶然性匹配个输入对象，那么它的子计划也和对象的组件匹配因此建立自上而下的反馈。在计划的输出单元间仍然有些互相禁止的联系允许计划在翻译输入是产生竞争。在场景中特定位置的信息被处理之后，将会把注意力集中到个新的位置上。变换选择网络决定下个位置图。就像在下节中我们要详细描绘的那样，它根据计划的行为和计划想要的变换向量来做出决定。操作在场景分析进程开始的时候，所有的计划都被重置到他们的开始状态。也就是说，他们所有的单元都是开启的没有当前注意位置，并且他们的单元的行为是没有发现任何东西。在每次注意力调整之后，计划模块处理从接收到的特征和位置信息，处理过程要经过四个主要的阶段在计划内设定当前位置，更新计划的动作，选定计划的下个处理位置，选定个位置做注意力转换。让我们大概浏览下完整的处理过程。．设定当前位置。当把注意力已经转移到场景中选定的位置之后，计划就更新自己的当前位置信息。如果个计划不准备做任何事情，也就是所，它的单元都是关闭的，它的当前位置被选定为的峰值位置图。如果单元的其中个是开启的，则当前位置在这个方向上变换，并且方向决定于被编码的从收到的变换向量的数量。如果变换的数量超过了的存储容量，则计划将会被首先重置为初始状态，并且它的当前位置被设定为的峰值位置。．计划激活。在这个阶段，其中个单元是活动的，并且它的当前位置就是计划的当前位置。单元在相应图位置的行为也被更新。其他单元的行为依旧保持不变。计划的输出单元的行为也跟着计划与输入的匹配程度而改变。如果它匹配的很好，它的活性会因为活性的增加而增加另外，它的活性也会因为计划间的相互抑制而减弱。个计划的行为会依次反馈给它的子计划，并且推进他们的行为。这个反馈信号符合自上而下的展望如果个计划和个对象匹配的很好，则它的子计划也会匹配于对象的组件。行为的更新是异步的，在多个循环中逐渐地达到稳定。．下个可能位置的选定。在行为稳定之后，每个计划都会选定个位置，他们期望这个位置会成为整个系统的注意焦点。计划可以从它选定的位置上发现可以增加它的活性的特征。计划的选择基于以下的标准．选择个子计划期望的位置，也就是在单元中具有高活性的位置。．选择个具有低活性的位置。在实际的网络中，单元的活性是有限的，被限制在个范围之内。在增加计划活性的过程中，把焦点放在具有高活性的位置上是没有效率的。．选择个距离当前位置最近的位置，这样可以使转换代价达到最小选择好的位置会被编码成变换向量，然后发送给。．下个实际位置的选定。把从所有计划网那里收到的变换向量作为输入，并且从中选择个采用。个高度活跃的计划倾向于选择个小的变换。这个标准支持按照最佳匹配的计划进行图像输入的翻译，并且使得焦点转移量达到最小。最后，选定的变换向量被传播给所有的计划和。的试验结果三个关于对象识别和场景分析的的试验要被演示。第个试验将演示对象的完美实例的识别，第二个试验是个歪曲的实例，第三个试验是个完整的场景。所有的计划都在被手工编码。的第层由弓房子和树的计划组成图。其中，弓和房子的计划是非常相似的。两个都有三角形的顶，并且很可能把弓的矩形柱和房子的正方形窗子混淆。第二层的计划在第三个试验中使用是森林，公园，郊区和城市图。这些计划也同样非常相似。例如，如果场景是森林，或者公园，或者郊区，从左向右扫描，在最左边的对象被识别之前，它是不可能消除歧义的。注意到这些第二层计划并不是这些场景的通用表示。它们被设计用来测试在极度不清楚的情况下的性能。在第个试验中，个房子被输入到。图在处理场景时第层计划的行为的个片断。每次每步的焦点位置被显示在图中。系统被故意设置成在清晰的状态下启动它把焦点放在房子的三角形屋顶上。起初，认为对象很可能是张弓。在第五步之后，房子计划的活性增加并且超过了弓计划，达到了最终的稳定状态，并且得出了结论，这张图绘制的是个房子。第二个试验说明了扭曲图像的处理过程。两个变异的房子图形被输入。第张图中的房子有个平坦的屋顶，第二张图中的房子则没有屋顶。在两种情况下，都是从左边的窗户开始。图说明了两种情况下计划的活性。特征失真的效果在第二步当处理屋顶的时候最明显。输入的图像和在计划中表示的图像差别越大，弓和房子的计划的活性就越低。也就是说，对对象的身份更加不确定。但是，在两种情况下，都可以最终得出结论输入的物体最有可能是座房子。在第三个试验中，接收到副和郊区模式非常匹配的郊区图片。被设置为从最右边的三角形树开始图。注意到这个陈述是很模糊的，这是因为森林，公园和郊区的

该本为压缩包，包含中文跟外文

Hi，我是你的文档小助手!

你可以按格式查找相似内容哟

DOC PPT RAR 精品全部

小贴士：

🔯 当前文档为RAR文档，建议你点击RAR查看当前文档的相似文档。
⭐ 查询的内容是以当前文档的标题进行精准匹配找到的结果，如果你对结果不满意，可以在顶部的搜索输入框输入关健词进行。