
人类的视觉系统是一个令人惊叹的信息处理器,但即使是最先进的机器也无法完全模拟我们识别图案的能力。为什么我们能够毫不费力地从复杂的视觉场景中识别出特定的物体,而计算机却需要庞大的计算资源?答案就在于一个被称为“注意力”的神奇机制。 注意力并不是什么神秘的“精神能量集中”,而是大脑将分析资源分配到视觉场域中特定区域的过程。就像手电筒的光束一样,我们无法同时照亮整个房间,但可以选择性地照亮我们感兴趣的角落。这种选择性的信息处理不仅是人类认知的核心特征,也是理解视觉感知机制的关键。 本文将深入探讨焦点注意力的工作原理,以及它如何与前注意过程和图形合成机制协同工作,共同构成我们强大的视觉认知能力。我们还将看到,这些理论原理如何被应用到实际的机器识别系统中。
如果我们的大脑真的像某些理论所描述的那样进行“空间并行处理”——同时分析整个视野中的所有信息,会发生什么?这听起来很棒,但实际上会带来一个巨大的问题。 以著名的赫布理论为例。按照这个理论,我们能够在视网膜的任何位置识别三角形,是因为敏感的分析器或细胞群在各处重复存在并相互连接。这确实能解释单个三角形的识别,但当两个三角形同时出现时问题就来了。
但我们都知道,即使是刚恢复视力的人也能区分一个三角形和两个三角形的差别。这种区分能力基于赫布所说的“原始统一性”,其在模式识别中的作用远比我们想象的要重要。 计算机的字母识别系统也面临同样的问题。大多数程序通过一次只处理一个字母来巧妙地回避了这个难题——相当于人为地确立了“原始统一性”。但如果让几个字母同时出现在输入区域,它们必须先被分离开来才能被识别。这个过程在技术上叫做“分割”。 没有分割过程,对包含多个不同字母或物体的输入进行并行处理就会导致混乱。这就像试图在嘈杂的餐厅里同时听懂所有人的对话一样——根本无法实现。
即使我们不考虑“一个”和“两个”图形之间的现象差异,空间并行处理理论在纯定量基础上也会失败。试想,如果要同时处理整个视觉输入,并基于视野中任意特征组合做出判别,这将需要一个大得不可思议的大脑,或者需要多得离谱的“先前经验”。 计算机科学家明斯基对这个问题有非常清晰的阐述。他指出,固定大小的特性列表方案在处理复杂场景时能力有限,特别是在处理包含多个物体的复合场景时更是如此。
如果一台机器能识别椅子和桌子,它当然应该能够告诉我们“这里有一把椅子和一张桌子”。但没有办法逃避信息限制。所需要的显然是:(1)场景中基本物体的列表;(2)关于它们之间关系的陈述。
视觉物体只有在被分割开来之后才能被识别。这使得感知者能够将大部分认知资源分配到视野中适当选择的部分。分析器通常不会“并行”地作用于整个视觉输入,而主要在焦点注意的区域内操作。 需要强调的是,这里的“焦点”注意与其他意义上的“注意”概念是不同的。

比如赫布讨论的注意更多指的是“感知定势”或“期望”。而焦点注意是指在知道视觉图形可能代表什么之前,就选择一个视觉图形而不是另一个来进行检查的过程。 这种注意力机制不是神秘的精神能量集中,而是简单地将分析机制分配给视野的有限区域。关注一个图形就是对图像中相应部分进行某些分析或构造。我们对注意力客体的了解并不比对其他客体的了解更“直接”——在某种意义上甚至更间接,因为正在应用更复杂和受限的处理模式。
既然焦点注意力的过程无法同时作用于整个视觉场域,它们只能在初步操作已经分离出相关图形单元之后才能发挥作用。这些初步操作本身就极其有趣,它们部分对应于格式塔心理学家所说的“自发力量”,产生了赫布所谓的“原始统一性”。 我将这些过程称为前注意过程,以强调它们产生的是后续机制要进行充实和解释的对象。这些过程就像一群无声的整理者,在我们意识到之前就已经把复杂的视觉世界整理得井井有条。
但这些过程的“全局性”并不神秘,甚至不需要非常复杂。很简单的操作就能分离单元,只要它们有连续的轮廓或之间有空隙。计算机程序中跟踪线条或检测间隙的功能就是很好的例子,这些程序和填充空洞、消除局部不规则性的程序一样容易编写。 前注意过程有着层次化的深度结构。比如,当你试着在这行文字中寻找字母“q”时,前注意过程会让这个字母保持为一个独立完整的单元。这是一项习得的技能,对年幼的儿童和文盲来说都很困难——他们必须依靠更粗糙的注意对象,比如页面上的整个文字块或包含“q”的整个单词。
在前注意机制之后,是模式分析的第二层次,它作用于由第一层分离出的“对象”。在这里确定一个物体是“圆形且有颗粒质感的”,或者是三角形,或者是久别重逢的朋友。这些操作必须在前注意过程之后进行并依赖于它们。 这意味着模式识别过程毕竟是部分连续的。放弃所有视觉处理都是空间并行的假设,我们必然在认知模型中引入连续阶段——即在操作上也不并行的机制。注意行为是在前注意水平已经确立的更全局性质的背景下进行的。 格式塔心理学家强调“整体大于部分之和”,意思是一个部分的外观取决于它所嵌入的整体。几个经典例子足以说明这些效应的力量:
强调焦点注意力并不意味着它是所有反应的前提。当特定图形被识别或归类时,通常涉及焦点注意力,但在某些情况下前注意过程也能直接引起反应。 有两类运动最常受到前注意控制。第一类包括头部和眼部运动,构成注意力本身的重新导向。注意力不是随机指向的,它经常被已经从视觉输入中提取出的线索所引导。运动是这种线索的有效形式——当某物在我们未注意的视野区域移动时,通常会立即吸引我们的注意。
日常生活中大量的认知活动都是前注意的。这就是为什么速示器研究对关心日常认知的心理学家来说常常显得不合适。一个密切关注模糊图标残像、试图判断它代表26个字母中哪一个的被试,其功能方式与一个早晨进入办公室时“识别”熟悉景象的人截然不同。 想象这样一个场景:你早上走进办公室,眼角瞥见秘书已经坐在那里了。你的大脑其实很容易“偷懒”——也许墙上的画早就换了,也许今天来的是个临时秘书——等你真正仔细看时才会发现这些变化,心里会想“咦,什么时候换的?”
行走、驾驶、视觉追踪以及其他更“字面”而非“范畴化”、更“模拟”而非“数字化”的反应都可以在不使用焦点注意力的情况下进行。大多数司机偶尔会惊讶地意识到他们在过去半小时里并没有注意道路。行走时,同样的经历如此常见以至于不引起任何兴趣。 在这些情况下,行为完全由前注意分析器控制。
这些机制粗糙且全局化,不足以做出精细决策;因此如果出现困难情况,司机必须迅速变得警觉。 魔术表演中有很多前注意控制注意力和运动的例子。观众的注意力必须从某个关键动作上转移开,这通常通过在视野其他地方的一个运动巧妙地完成。对舞伴引导做出反应的舞者、与拳击手“共情”移动的观众、熟练避开障碍的梦游者都是类似的例子。显然,不仅注意力的流向,许多种类的身体运动都可以由前注意模式分析来控制。

有些读者可能会对我如此强调“注意力”这个看似神秘的概念感到困扰,让我们再次回顾一下它的理论基础。如果我们允许几个图形同时出现,可能的输入配置数量如此庞大,以至于一个完全并行的机制——为每种配置给出不同的输出——是不可想象的。 为了应对这个困难,即使是机械识别系统也必须有某种方式来选择输入信息的某些部分进行详细分析。这立即意味着存在两个分析层次:形成分离对象并帮助引导进一步处理的前注意机制,以及对选中对象进行更复杂分析的焦点注意行为。
这意味着我们在一个被关注的图形中通常看到的详细属性和特征在某种意义上是“可选的”。它们并不仅仅因为相关信息在图像中可用就自动出现,而是因为输入的一部分被选中接受注意并对其执行了某些操作。分析的对象和分析的性质都不是不可避免的,在不同的观察者和不同时间可能会有所不同。 “分析”这个词可能并不恰当。它暗示与化学的类比:化学家“分析”未知物质以找出它们“真正”是什么。
不同的隐喻会引导我们使用不同的术语——我们通常不会说雕刻家“分析”一块大理石直到找到其中“真正”包含的雕像。 但雕刻家的类比比化学家的类比更偏离主题。视觉输入对感知者的约束通常比大多数雕刻家能容忍的要严格得多。比这两者都更合适的是赫布的比较:将感知者比作古生物学家,他小心地从大量无关的碎石中提取一些可能是骨头的碎片,然后“重建”最终将陈列在自然历史博物馆中的恐龙。
感知本质上是一种建构性行为而非接受性或简单分析性行为的观念相当古老。它至少可以追溯到布伦塔诺的“行为心理学”和柏格森的“创造性综合”,威廉·詹姆斯在1890年雄辩地推进了这一观点。不过我在这里提出它并不是基于其历史资历,而是因为它能帮助我们解释一些经验观察。 就模式识别问题而言,合成只不过是一个隐喻。我们不再问输入如何被分配到正确的类别,而是问恰当类型的感知对象是如何形成的,这似乎只是语义上的差异。
我们仍然需要前面发展的具体概念:前注意过程、编码优先性、焦点注意、刺激分析机制等。 然而,合成概念在处理某些进一步问题时变得有用。其中许多问题集中在幻觉和错觉上:一个人看到不存在的东西必定是在为自己构造它们。视觉想象的机制与视觉感知的机制是连续的——这一事实强烈暗示所有感知都是建构性过程。
合成的东西不一定清晰或明确。前面将焦点注意定义为将认知资源分配给视觉场域的一部分时,强调的是这种安排可能带来的更高准确性。但仅仅强调这种清晰度的增加是误导性的。关注不仅仅是仔细分析;相反,它是一种建构行为。在这种合成中我们可能追求准确性,但我们并非必须如此。
我们构建的东西只具有我们赋予它的维度。这样解释的图形合成概念可能有助于澄清常被称为“生理学”感知的现象。每个人都曾感知过脸部的压抑愤怒、动作的快乐或画面的宁静和谐等特征。这些感知通常显得非常直接。我们不是先注意到下颌的紧绷然后推断愤怒;更常见的是相反的情况。
在某些精神病和特定药物影响下,它们可能变得极其强烈。在某些条件下,每个可见物体都可能呈现威胁性、恐怖或猥亵的外观;也可能发生一切都显得美丽优雅得无法描述的情况。这种情感泛滥的体验可以被视为特殊建构类型的结果。 让一位古生物学家制作出平凡生物准确模型的同样骨头碎片,可能会让另一位也许更焦虑或更戏剧化的学者“重建”出一个噩梦般的怪物。前注意过程本身既不是“生理学的”也不是“几何的”。它们是建构性的,但只制造原材料块,焦点注意可以从中合成许多不同的产品。
合成概念可以应用于视觉以外的其他感觉模式的感知,非视觉刺激可能有助于指导视觉“对象”的构造,无论是完全还是部分想象的。一旦我们知道如何构造特定图形,我们就可以用几乎任何感觉材料“制作”它,甚至完全不用任何材料,如在想象中。 这与皮肤上描画字母的问题特别相关。如前所述,模式识别的多功能性类似于我们同样令人印象深刻的将一旦学会的动作转移到身体任何肢体的能力。这种比较不再遥远。感知字母和书写字母是同一类型的合成活动。
合成概念也可以应用于不同类型的“识别”。到目前为止,这个过度使用的词在这里被当作“归类”的同义词。它还有另一个常见含义,出现在“我认识那个人”这样的话中。 这两种识别往往重合,但不一定如此。你可能通过办公桌上的姓名牌想起一个人,但现在却没有认出他;你可能认出某人却不知道以前在哪里见过他或他是谁。在这个意义上,“识别”指的是一种特定的主观体验——熟悉感的体验。

研究熟悉感必须使用新颖的刺激材料,这样受试者随后可以被问到“你以前见过这个吗?”我们日常识别多年未见的人的能力表明这类研究应该产生高比例的准确反应,事实确实如此。 最令人印象深刻且最精密的熟悉性识别研究是谢泼德(1967)的工作。他让受试者浏览612幅不同的图片,主要是杂志插图。按自己的节奏进行,他们平均每幅图片用时约六秒。随后,他们接受68对图片的测试,每对包括一幅来自之前系列的图片和一幅新图片。
在原始系列后立即测试时,受试者能够挑出熟悉图片的中位准确率高达98.5%!许多人完全没有错误。即使在延迟七天的测试中,准确率仍保持在90%以上,尽管四个月后降到接近偶然水平。 认为这种识别依赖于与模板匹配是错误的。我们经常识别因岁月流逝而发生相当变化的人。另一方面,在新情境中我们可能无法识别一个未变的面孔。这些考虑暗示一个依赖于特征和焦点注意的过程,如已经为模式识别建立的模型。 图形合成概念提出了一种推测性可能:看起来熟悉的不是刺激对象,而是感知对象。也许我们体验熟悉感的程度,取决于当前的视觉合成行为与之前的某个行为是否相同。
本节发展的概念可以具体应用于一些实证观察。我们看到某些实验范式似乎产生了操作并行处理的证据,而另一些则没有。额外的搜索目标在搜索实验中不会增加决策时间,在某些高度兼容的选择反应中也是如此,但在大多数字符分类研究中确实会增加延迟。 其中涉及的原理可能很简单:鼓励受试者个别合成每个图案的条件通常产生“连续”结果,而缺乏这些条件时“并行”数据倾向于出现。
一次呈现一个刺激、因错误而惩罚受试者、允许相对较少练习——这些都是可能导致分离图形合成进而导致连续处理的条件。 在大多数反应时间和字符分类实验中,一次呈现一个刺激,受试者的自然反应可能是在每个出现时识别它,做出“感觉”而非“运动”反应。他等到“真正看到”——即构造了——某些东西,然后搜索记忆以找到它要求的反应。
史坦伯格进行了一个巧妙的全识别假设测试。这又是一个字符分类实验;如果短暂闪现的数字是之前指定为目标的数字之一,受试者要拉一个杠杆,如果不是则拉另一个杠杆。反应时间会因原本分配给目标集合的每个额外数字而增加约35毫秒。 在进一步的条件下,史坦伯格用重叠的“视觉噪声”部分遮蔽刺激,从而使反应时间减慢约60毫秒。如果受试者在与潜在目标比较之前系统地识别(或“构造”)视觉对象,延迟的增加应该与可能目标的数量无关。
不幸的是,实验结果是模糊的。受试者进行了两天测试;“视觉噪声”产生的反应时间变化在第二天确实似乎与目标数量无关,但第一天观察到正相关关系。 在我们的视觉搜索研究中,每项的时间不取决于搜索的目标数量,练习过的受试者报告说他们几乎“看不到”无关的字母。这表明他们的反应根本不依赖于视觉合成,而是直接受前注意控制。 通过长期练习,受试者发展出前注意识别系统,对整体显示的特征敏感,能够信号目标字母的存在。他们“关注”Z特征只是在同样的意义上,人总是“关注”视野外围的运动或闪光:如果发生,它会抓住注意力。
搜索实验的受试者犯很多错误,通常是忽略目标。这并不奇怪。前注意机制不是为准确性而设计的——那是焦点注意的事情。当反应发生而没有注意构造时,我们可以期待某种粗糙性。我们也可以期待对全局、非特异性特征而非细节的依赖。
这些确实是视觉搜索中检测的特征,是“运动”而非“感觉”反应的特征,以及对掩蔽刺激反应的特征。此外,许多其他反应在足够练习后也能变成前注意。当它们变成这样时,我们常称之为“自动化”。
这可能就是莫布雷和罗兹实验中那位英雄受试者在40,000次试验后发生的情况,当时他对四个选择的反应时间不再与两个选择不同。这肯定是在前注意进行普通驾驶和行走时发生的情况。

无论图形合成概念在处理这些问题时看起来多么投机或模糊,它也已被应用于一个非常具体的问题,其成功证明了它的实用性。这个应用是计算机识别手写字母和单词。 手写问题对许多程序员来说特别困难,因为草书中连续的字母并不分离。对此最成功的攻击是伊登基于他称为“分析综合法”原理的方法。这个原理也出现在言语感知的合理理论中——就像手写一样,言语是特异性交流活动的连续流。
在明确转向书面材料识别之前,伊登专注于一些初步问题:将草书运动分析为“笔画”,产生笔画的运动解剖学,以及“伪造”的机械合成。只有在合成取得某种程度成功后,他才转向识别。 识别程序生成试验性字母,只尝试那些能组合成允许单词的字母,并逐笔画检查每个字母与输入的匹配。
这种方法可以说完全避免了分割问题,或更准确地说,将整个单词作为段落,在其中进行合成。毕竟,在书写过程中不会出现字母分割的需要。当一个字母的合成完成时,人们简单地写下一个字母。在分析综合法中,只有笔画需要在字母构造开始前被分离。当一个特定字母成功匹配后,匹配下一个的尝试开始。 程序的另一个重要方面是它使用上下文信息的方式。对可能或可能单词的了解可以用来控制探索各种试验性合成的顺序。已经构造了“coi-”后,程序会尝试“n”而不是“m”,或“l”而不是“k”。
目前,伊登的程序使用从笔画的时间序列中派生的信息,因此只能读取在特殊输入设备上书写的单词。它是否最终会克服这个限制并实现人类阅读手写文档的普通能力尚不确定,但它对理论的贡献已经很大。
让我们从两个角度总结这些论证。首先,考虑注意力和图形合成如何应用于速示阅读。从短暂暴露刺激到达眼睛的信息在图像记忆中保存短时间。在这个阶段,图案已经被我称为“前注意”的全局整体过程分解为一个或多个分离的图形。 如果受试者被训练给出快速、无区别的运动反应,甚至可以在这里——在详细看到任何图形之前——启动反应。
然而,早期并行过程在功能上是有限的。它们可以控制注意力转移,包括眼动和大体身体运动,但它们既不提供精细结构也不提供情感内容。 任何特定字母或图形的注意合成需要相当长的时间,大约100毫秒,可能被在此期间关键点到达的新输入干扰。如果要识别一整行字母,它们必须逐一合成。这是真的,尽管前注意过程(它们是并行的)已经将所有字母形成为分离单元,所以受试者有模糊印象正在“一次看到它们”。
无论哪些图形——或单个图形的哪些属性——首先被完全合成和命名,都最有可能被正确报告。稍后,图像将衰退,准确的图形合成将变得不可能。因此理解跨度限于在图像记忆持续期间可以合成然后口头存储的内容。 知觉定势通过控制各种图形接受焦点注意的顺序,或随后进行的合成来发挥作用。这就是为什么定势既能影响事物的情感、生理外观,也能影响我们分配给它们的类别,并能使我们看到实际上根本不存在的事物。 第二个总结可以围绕一个基本问题组织:当受试者看到A时,他如何知道它是A?这里的建议如下:
A被前注意过程从其他同时呈现的图形中分离。这些机制强调构造图形中的全局而非特殊,整体而非部分。它们在输入场域中并行复制。
焦点注意然后专注于A,要么因为它被内部引导的扫描到达,要么因为被初步机制检测到的某些注意强制特征。“引导注意”到图形就是尝试对它进行更广泛的合成。
注意合成的过程常常导致内部口语化(听觉合成),可以存储在活跃的口语记忆中。它们也可能导致与早期合成的存储记录进行一系列比较,以确定当前刺激的适当分类。
通过这种方式,我们建立了一个完整的理论框架,将前注意过程、焦点注意和图形合成统一起来,解释了人类视觉认知的复杂机制。这个框架不仅有助于理解正常的视觉感知,也为开发更有效的机器识别系统提供了理论基础。