听觉世界远比我们想象的复杂。当你在嘈杂的咖啡厅里专注地听朋友说话,或者在音乐会上跟随着优美的旋律时,你的大脑正在进行着一系列精妙的认知处理。这些看似轻松的听觉体验,背后隐藏着人类认知系统最精密的机制之一。
听觉信息总是在时间中展开,这意味着我们的认知系统必须有某种临时记忆机制,来保存这些转瞬即逝的声音信息,直到语言感知的各种处理过程分析完毕。只要这种“回声”记忆存在,听者就能选择其中某些部分进行特别关注。
现代认知心理学研究表明,听觉处理分为两个层次。初步分析由相对被动的前注意阶段完成,它提供信息来指导更主动的合成过程。这种区分自然引出了关于记忆和注意力的一些假说。比如,每个过程都可能有自己的存储介质(一种“记忆”)。另外,将合成过程与“付出注意”的行为联系起来,在直觉上也是合理的。
关于听觉最基本的事实是,声音本质上是时间性事件。听觉信息总在时间上展开,单独的毫秒无法包含足够有用的信息。如果信息一到达就被丢弃,听觉就几乎不可能了。因此,我们必须假设听觉认知系统中存在某种“缓冲器”——一种临时存储介质。
如果你的大脑就像一台只能处理“当前瞬间”的电脑,那么你将无法理解任何完整的词语,更别说句子了。每当你听到“你好”这个词时,当“好”的声音到达你耳朵的时候,“你”的声音早就消失了,你的大脑无法将它们组合成一个有意义的词语。
这个结论可以应用到语音感知上。语言的认知单位长度各不相同。有些单位,比如较短的音节,只持续几分之一秒;其他的需要更长时间。但即使最短的单位也有一定持续时间,它们的区别性特征需要一定时间才能形成。
就像视觉短时存储一样,这种转瞬即逝的记忆需要一个特殊名称。我们称它为“回声记忆”。也有其他称谓,比如“刺激痕迹”或“原始存储”都曾用来指同一种介质。不过这些术语可能有误导性:并不存在对声音刺激原始、未编码、类似录音带的记录。在到达这个处理阶段前,输入已经至少被耳蜗机制转换过,可能还经过其他处理。
回声记忆在很多方面对应于古代哲学家所说的“现前记忆”。古人用这个概念描述“当下瞬间”的稳定性,即我们体验为“正在发生”而非“已经结束”的短暂时间片段。几乎按定义,感知语音的单个片段必须落在这个时间范围内。如果它的一部分显得“过去”而另一部分显得“现在”,那就不是一个片段而是两个了。
回声记忆通常不需要持续很久:已经分割和组织的材料可以存储在不同的介质中。这表明“回声”只在相对较短的时间内有用。当然,它也可能在不需要时被保存着。
但认为回声记忆在每个语音片段后立即消失是不可能的。如果不合适的组织方式会破坏学习基础,那么新的组织模式就很难学会了。一个外国人被告知“不,不是'热(rè)',是'饿(è)'!”,如果没有回声记忆保存最初的/r/音以便与随后的/∅/音比较,他就无法从这个纠正中受益。
更有说服力的是,所谓的“超音段音位”似乎依赖于相对较长的回声记忆。如果要分辨“你能来吗?”(升调)和“你能来!”(平调)的差异,那么当“来”出现时,“你能”的声学基础必须仍然可用。
关于音乐欣赏也可以提出同样的论证。所有这些技能显然都需要一个精细的或者说回声的记忆,这种记忆有着相当的长度,能够持续穿越多个认知单位。
分析-综合机制依赖“语境”的指导,特别是已识别词语的指导。但在普通语音中,识别一个片段所需的语境可能出现在它之后,所以分割往往可以适当延迟。或者,即使没延迟,也能被随后到达的信息纠正。回声的持续性将大大促进这种对所听内容的回顾性分析。
中科院心理研究所的研究团队在上世纪60年代进行了测量回声记忆持续时间的经典实验。他们播放重复的白噪音片段,这些片段由计算机制备,片段的结尾与下一次出现的开头平滑融合。实验要解决的关键问题是:重复的声音是否会被察觉到?
结果很有意思:对于很短的片段(不到一秒),听者经常能听出重复的“扑扑”或“嘶嘶”声。但当周期变长时,如果不刻意去寻找特定的声音特征,根本察觉不到重复。在自然聆听状态下能被识别为重复的最长片段大约是一秒钟。研究团队据此估算出“听觉记忆”的持续时间。
北师大心理学院的研究团队用了另一种巧妙的方法研究回声存储,叫做“刺激后提示法”。参与者需要在嘈杂环境中识别说出的词语,事先知道这些词来自一个较大的词汇库。
每次声音刺激结束后,参与者立即看到一个小范围的备选词汇表,目标词就在其中。关键在于提示出现的时机。研究数据显示一条持续下降的曲线,但有个有趣的发现:大约四秒钟后,参与者的识别准确率就稳定下来了。
清华大学心理系的研究提供了测量回声记忆时长的另一个角度。参与者接到一个看起来很轻松的任务:花两个小时读小说。阅读期间会偶尔响起提示音,音量足够大,正常情况下很容易听到。每次声音后的短时间内,阅读灯会熄灭,研究者询问参与者是否刚才听到了声音。
这个设计很巧妙:如果专注阅读确实能排除对提示音的注意,那么参与者的回答只能依赖回声记忆。因此,随着时间延长,回答准确性的下降就反映了回声记忆的衰减。虽然这种解释不是绝对的,但实验确实观察到了预期的下降趋势。
有趣的是,即使同时进行查询,也只有一半的音调被检测到。这可能意味着缺乏注意可以阻止刺激甚至进入回声记忆;注意可以完全“过滤掉”无关的刺激。
清华研究团队的发现表明,回声记忆可能在刺激后长达十秒内仍包含有用信息。这似乎与北师大的四秒估计或中科院的一秒发现相矛盾。但仔细想想就明白了:测量出的持续时间其实取决于实验任务的难易程度。
我们已经从语音感知的刺激在时间上延展这个简单事实推断出回声记忆的必要性。同样的论证也适用于另一个特别有趣的听觉现象:节奏的感知。当连续的敲击声或鼓声被交替的长短间隔分开时(** ** ** **),我们几乎总是听到一系列成对的声音。每一对都是一个片段,一个认知单位,其功能很像语音中的音节、词语或成分。
这种分割显然需要回声记忆。它只能在几次敲击出现之后才能发生;它们的出现以及它们之间的间隔必须在一个未分割的介质中被保存足够长的时间,以便节奏被定义和检测出来。
中央音乐学院的研究人员对节奏结构做了深入研究,发现当敲击声间隔超过约两秒时,节奏感就消失了。虽然这个界限并不绝对,但正好落在其他方法测得的回声记忆时间范围内,这很令人鼓舞。
节奏现象与语音现象之间有许多惊人的相似之处。值得注意的是,节奏感知的运动理论经常被提出,并且得到许多随意观察的支持(例如,乐队音乐会期间脚打拍子的普遍性)。然而,音乐中节奏结构的复杂性和速度强烈暗示了抽象而非运动形式的分析-综合。
有趣的是,我们可以“跟随”个别的节奏,就像我们可以在鸡尾酒会上跟随个别的对话一样。如前所述,后者的能力主要依赖于听觉定位,因此也依赖于重复的时间差(两耳之间)。这本身就是一个相当重要的研究主题。
研究选择性听觉的经典方法是“追随法”,中科院声学所在上世纪50年代引入了这种技术。追随就是边听边重复,尽可能紧跟说话者的节奏。如果语速适中,追随相对容易,几乎能做到零错误。
在一系列重要实验中,研究人员让参与者追随一只耳朵听到的内容,同时另一只耳朵播放完全无关的信息。令人惊讶的是,这个看似困难的任务其实不太难完成——注意力可以成功“锁定”一个信息源,让另一个几乎完全被忽略。
假设一个这样的场景:你戴着耳机,左耳听到有人朗读《红楼梦》的片段,右耳同时听到有人在讲解微积分公式。你的任务是跟读左耳的《红楼梦》内容。令人惊奇的是,经过短暂练习后,大多数人都能相当准确地完成这个看似不可能的任务,同时对右耳的数学讲解几乎一无所知。
起初研究人员认为,区分相关和无关信息的关键就是声音来自哪只耳朵。他们以为“识别过程能随意切换到任一只耳朵”。但后来发现,选择性听觉并不是基于左右耳的区别,而是基于我们感知到的声源位置。
选择性听觉的奥秘远不止空间定位这么简单。研究发现,即使用扬声器播放两个信息源,只要空间位置略有差异,选择性听觉依然可行。中科院的后续研究证明,扬声器只需相隔十到二十度,就能实现选择性追随。更有意思的是,不同音频特性的信息也能被区别对待——比如低频信息相对于高频信息更容易被跟随,说明定位并非选择的唯一依据。
研究发现,声音的基本特征能在无意识中被察觉。那些没被追随的信息并非完全消失:当声音变成400赫兹的纯音,或男声变成女声时,参与者都能察觉到变化。更神奇的是,如果被忽略的信息与正在追随的内容相同,所有人都能注意到这种一致性,哪怕两者相差几秒钟。
这个发现直接关系到听觉记忆的问题,因为除非较早的信息至少被暂时存储了,否则就不会有一致性可以被注意到。
华东师大心理学系系统地重复了这个实验,要找出识别一致性的临界时间。参与者事先不知道两个信息可能相同,被告知无关信息只是需要忽略的干扰,会在追随开始后逐渐“淡入”。通过一系列试验,研究人员将两个信息间的时间差从6秒逐步缩短到零。在某个时间点上,每个参与者都会发现它们是相同的。
当被追随的信息“领先”时,发现一致性的平均时间是4.5秒。当无关信息领先时,只需1.4秒。研究人员意识到,这两个数值的差异反映了两种不同类型的记忆机制。
未经处理的回声存储只持续一到两秒,而经过分析的信息(被追随的内容)能保存更久。有意思的是,4.5秒的时间差大约对应12个词语,这正好接近此类材料的记忆广度。
在一个巧妙的双语实验中,研究人员把被追随信息的翻译播放给被忽略的耳朵。出人意料的是,一些参与者居然注意到了一致性。这个发现虽然没有精确说明记忆持续时间(因为翻译无法逐词对应,时间差不固定),但对理解选择性注意很有启发,值得我们深入思考。
乍看之下,选择性听觉实验提示注意力很像一个过滤器——一些信号通过并进一步处理,另一些则被拒绝。这个想法成了北京大学心理系一个颇有影响的认知理论核心。该理论的表述方式与我们这里的做法有许多相通之处,“生物体内的信息流”这个说法正好概括了认知心理学的基本理念。
这套理论认为,注意力、记忆、学习等现象都可以用信息论和过滤机制来解释。核心观点是:认知系统的信息处理容量有限——按每秒比特数衡量——要避免系统过载,就必须有过滤机制。
这在某种意义上确实是正确的,但这并不能帮助我们理解相关的机制。正如我们可能会说心脏每次搏动只能泵出大约100毫升血液,与消防车相比容量有限一样。这也是正确的,但仅凭这一点对理解心脏的生理学和“血流动力学”没有什么帮助。
这套理论假设,假想的过滤器能被观察者“调谐”到许多“通道”中的任何一个,只让调谐通道的信息通过。可能的通道包括感觉器官、听觉空间方向、特定声音质量等。只有通过过滤器的信息才能影响人的反应,或被长期记住。
声学所的选择性听觉研究完全符合这个模型。当然,被拒绝声音的一些特征显然通过了过滤器,但正如研究者指出的,“被察觉到的拒绝声音特征,正是在其他选择性听觉实验中用来区分相关和无关词汇的特征。当人们想忽略某些词汇时,声音差异很有用;同样地,即使词汇被忽略,声音差异仍会被注意到”。
也就是说,诸如声音质量和位置等特征在标记为“选择性过滤器”的盒子中被检测到,而词汇本身只在标记为“有限容量决策通道”的盒子中被识别。这个通道永远不会被具有错误音调或错误空间位置的声音到达。
过滤器理论的问题是,在某些情况下,被拒绝信息的有意义内容确实会产生影响。中山大学心理系的研究者最早发现了这个问题。他们发现,虽然对未注意耳朵的指令通常被忽略,但如果指令以参与者自己的名字开头,就会引起注意。
华东师大在严格控制条件下发现了类似现象。在实验中,参与者被要求追随左耳的散文段落,忽略右耳的信息。在某个时刻,两只耳朵的段落突然交换了!
虽然没有参与者完全依赖语境而彻底转换,但来自“错误”耳朵的几个词(延续之前被追随的段落)侵入反应很常见。举个例子:
第1行是左耳输入,参与者应该追随;第2行是右耳输入;斜线显示交换点,大写词是参与者的反应:
在这个例子中,“桌子”这个词被听到了,尽管它来自错误的耳朵,因为参与者期待着它。可以想见,当被追随的是连贯散文时,这种错误比不连贯文本时更常见。
我们之前探讨的另一个发现可能更为重要。参与者能注意到两个信息的一致性,哪怕一个相对另一个有延迟。一致性的检测不仅仅依赖简单的声学特征,因为即使被忽略的信息由不同说话者朗读,也能被察觉。一些双语参与者甚至注意到被追随信息和其翻译之间的一致性。
这些现象都暴露了过滤器理论的局限性。如果被拒绝信息中的姓名、可能的词汇和相同的含义能够强行进入参与者的注意,那说明他在某种程度上确实在“听”它。基于这些发现,一些研究者认为有必要假设:所有输入都被相当充分地分析,“过滤”或选择只在分析之后发生。
这样的解决方案是不令人满意的,因为它只是把我们从困境的一个角推向另一个角:那么为什么被拒绝信息的这么少部分会产生印象呢?
1960年,华东师大的研究团队提出了一个摆脱这种困难的理论,看起来很有道理,连北大心理系也逐渐接受了这种观点。他们建议“过滤器”是衰减信号而非完全消除,减弱的信号仍可以被特别敏感的认知系统捕获。
这套理论可以通过三个关于自己名字感知的实验来说明。第一个是我们提过的中山大学的发现:参与者在一只耳朵追随散文时,会对另一只耳朵出现的自己名字产生反应,尽管其他内容几乎听不到。这符合常见经验——即使在无关的对话中,人们对自己名字也特别敏感。
第二个实验由上海交大心理系完成。当参与者熟睡时(由脑电图确认),研究者播放一系列录制的名字。睡前告诉参与者,听到自己的名字以及另一个指定名字时要握拳。结果显示,这两个相关名字引起的睡眠握拳反应远多于无关名字,参与者自己的名字引起的反应最多。
更重要的是,两个关键名字经常导致特征性的脑电图模式(所谓的“K-复合波”),即使看不到明显的行为。这个发现并不意外;众所周知,人们可以被某些特定的声音从睡眠中唤醒,比如孩子的哭声,即使声音很微弱。
第三个实验由华中师大心理系在1961年完成。研究者用嘈杂背景中的名字作为识别实验刺激。他们发现参与者能在77%的情况下识别自己的名字,而在相同信噪比下,其他名字只能听到50%。
通过将所有数据转换为z分数,研究者比较了自己名字在这种情况下的优势与前述两个实验的结果。统计上看,三个实验的结果基本一致。
研究团队认为,睡眠只是衰减外部刺激的强度,自己的名字能在比其他词更微弱的水平上被听到。同样地,在追随实验中对一只“耳朵”(即一个感知方向)的不注意也只是减弱信号。未注意的通道不会像北大理论提出的那样被“关闭”,而是被衰减。
有了这套理论,研究者在解释选择性注意实验时就没有困难了。只需假设不同的词需要不同的信号强度才能识别。阈值机制可以这样描述:
识别词汇的一个可能系统是分层级的测试,为每个词或语言单位给出独特结果。每个测试点的判定可以看作信号检测问题——在特定维度上设一个可调节的临界点,高于该点信号被接受,低于该点被拒绝为“噪音”。
如果被语境概率、最近使用或重要性所偏爱,决定测试结果的标准会对某些结果变得更加宽松。被过滤器衰减的信息只有在标准被降低以利于它们时才会通过测试,如果没有,就不会在层次中进一步通过。
这种观点与中科院神经所的理论相关。他们的“神经元集合体”概念认为,相互连接的神经元群可以短暂地作为整体行动,通过这种行动代表特定的认知元素。在听觉注意中,神经元集合体应该代表语音感知的词汇或其他片段。
注意力通过一种内部启动机制运作:“每个集合体的活动可能被前面的集合体、感觉事件或两者共同激发。来自这些活动的中枢促进是'注意'的基础”。这种“促进”对应于前面提到的“标准放宽”。
当然,过滤器-振幅理论有一定的合理性。确实,我们倾向于听大声的信息而不是微弱的信息,即使微弱的信息如果我们准备好了它们的内容也能被听到。从这些事实来看,提出注意和未注意信息之间的差异是“衰减”(即响度)的差异似乎是容易的一步。
然而,我认为这个假设不可能是正确的。选择性注意肯定不只是选择性衰减的问题。在鸡尾酒会上,无关的声音并不显得微弱。无论我们多么专注于伙伴的对话,其他声音都大声存在。我们忽略它们的内容,但它们在这种情况下似乎并不不那么响亮。
早期心理学家很清楚“生动性”或主观清晰度与主观强度是两回事。有学者提醒说:“小心别混淆生动性和强度:当你专心听一个很微弱的声音时,声音出现时是你最生动的体验,尽管它接近强度下限...”
到目前为止,还没有人要求实验对象判断在追随实验中呈现给未注意耳朵的刺激的响度。根据过滤器-衰减理论,这些判断应该不难做出,并且应该显示出对被追随信息的很大差异。然而,我怀疑它们会被证明是非常困难的,只会出现小的差异。
在这种联系中,一个信息可以仅基于强度而优先于另一个信息被选择这一事实也很重要。如果选择行为本身改变了两个信息的相对响度,很难看出这如何可能。
如果注意力不是使一个信息比其他信息更响亮的方式,那它是什么?这个问题可以通过语音感知的基本过程来有益地考虑。前一章节通过识别语音感知中的两个假想阶段结束。在一个层面上,词汇和其他认知单位的初步识别由相对被动的过滤系统执行,这确实可能类似于特雷斯曼的“测试层次”。 但这个初步系统并不能完成整个工作;它通常由分析-综合的主动过程补充,在这个过程中听者产生“内在语音”(在某种抽象层面上)以匹配输入。我建议这个构造过程本身就是听觉注意的机制。
根据这个假设,“跟随”一个对话而不是其他对话就是综合一系列成功匹配它的语言单位。无关的、未注意的语音流既不被“过滤掉”也不被“衰减”;它们没有享受分析-综合的好处。结果,它们只被被动机制分析,这可以通过与视觉的相应阶段类比称为“前注意过程”。 像它们的视觉对应物一样,这些过程可以建立定位,形成粗略的片段,并指导对某些简单情况的反应。然而,它们的细节能力是严格有限的。
构造性注意理论除了与早期提出的视觉感知理论一致之外,还有很多值得推荐的地方。它在解释大多数选择性听觉现象方面几乎没有困难。
这个理论可以解释许多现象:
由于分析-综合通常由前注意提取的语境线索控制,我们可以理解为什么语境有时在特雷斯曼的转换实验中胜过定位。因为未注意的语音没有被系统地分割,它只存储在回声记忆中。它只在回声仍然有用的一到两秒内保持可用;与被追随输入相同的特征必须在这个时间内出现,如果要注意到一致性的话。
奥斯瓦尔德等人关于睡眠中名字感知的结果需要稍多的考虑。很容易假设前注意机制本质上是被动的,处于24小时值班状态。但假设听觉注意(合成过程)在整个夜晚完全不活跃是不安全的。
在梦中,视觉意象被归因于视觉合成。实际上,这意味着人们在梦中付出注意。如果做梦的睡眠允许视觉构造,为什么不允许听觉合成呢?
在非做梦睡眠期间(脑电图第2、3、4阶段),人们大概只能检测到简单的片段,如自己的名字或孩子的哭声,这些激活前注意机制。
这些机制的活动只能导致简单形式的行为——粗略的身体运动、拳头紧握,特别是醒来。如果唤醒过程比回声记忆的持续时间更长,睡眠者甚至可能不知道是什么唤醒了他。
在第1阶段(“REM-睡眠”)期间,分析-综合显然可以发生,睡眠者可能能够听到和理解甚至整个句子。然而,所听到的可能不会唤起他行动;相反,它可能被纳入他的梦中。
这个解释是推测性的,但其一般主题得到几个最近实验的支持。反应阈值经常报告在“REM-睡眠”中比在非做梦睡眠中更高,这起初似乎是矛盾的,因为那个状态最接近清醒。矛盾的解决可能是梦的纳入阻止了对刺激的反应。
同样,在聚会上从远程对话中听到自己的名字通常会引起警觉反应,而听到它被自己的对话伙伴说出可能根本不会产生特定的反应,名字被直接纳入正在进行的合成中。
假设听觉注意是合成过程也解释了注意力如何能够从每个外部通道撤回并专注于主体自己的思路。这种常见体验似乎对布罗德本特的过滤器理论造成严重困难,对特雷斯曼的过滤器-振幅理论造成不可克服的困难;内在语音肯定不比外部刺激更响亮!
现在的理论认为内在语音必然是注意力强迫的,因为它是由合成机制产生的。因为构造的序列完全在这种情况下由存储的记忆指导,它不匹配当前输入。结果,后者保持“未听到”,就像追随实验中的无关信息一样。
以这种方式沉浸在自己思想中的人很像梦者,也可以通过叫他们的名字被唤醒。当然,内在语音不是思想本身,这可以通过许多方式显示:考虑一个人多么经常努力将思想付诸言语!但当思维不是言语的时,它不能控制听觉注意。因此,它特别容易受到分心。
听觉分心的麻烦不是它们无法抵抗,而是为了抵抗它们,我们必须将我们的思想引导到熟悉的言语轨道上。
前注意分析的结果在注意合成不接管的情况下是否有任何长期影响?它们是否被记住?在考虑视觉前注意过程的类似问题时,我们得出了暂定的否定结论。听觉的答案似乎也是如此。 例如,你在嘈杂的咖啡厅里专心看书,朋友在旁边聊天但你完全没有听进去。事后朋友问你刚才聊了什么,你完全回忆不起来任何内容。这就像莫雷的实验结果一样,那些进入“未注意耳朵”的信息似乎没有留下任何记忆痕迹。 不过,这种“完全没听到”的结论可能过于绝对。就像你在专心看书时,虽然没有刻意听朋友聊天,但如果他们突然提到你的名字或者讨论你感兴趣的话题,你可能会下意识地有所察觉。这些未被注意的信息可能以某种微妙的方式影响着我们的潜意识思维,只是在常规的记忆测试中无法被检测出来。
有些研究者试图证明未注意信息的潜意识影响,但这些研究结果往往存在方法学问题。可能实验者无意识地提供了鼓励被试继续对测试卡片作出适当反应系列的线索。此外,故事中的趋势很可能代表对焦点文章的负面反应,而不是对偶然文章的积极纳入。
在结束这一章时,我们必须考虑几个使到目前为止呈现的图画复杂化的发现。首先,我可能过于草率地否定了过滤器理论及其特雷斯曼的修订。在某些情况下,确实有真正关闭感觉输入的证据。毕竟,即使对未注意刺激的阈值在睡眠时也比清醒时更高。 此外,一些内省报告表明,人可能如此深入思考,以至于声音确实似乎被衰减,无论这是否发生在普通的选择性注意中。
一个意外发现给这里提出的观点带来了另一个问题。注意到在未注意耳朵存在信息使追随更加困难,特雷斯曼设计了一个有三个空间上不同信息的情况。一个出现在左耳,一个在右耳,一个在两边——最后一个被主观定位在头部中央。 实验对象总是要追随右耳的语音,忽略其他的。在这种条件下,追随效率比只呈现单个无关信息时低得多。此外,当相同的一对无关信息被叠加在单个“通道”上(无论是左边还是中央)而不是保持空间上不同时,它们造成的困难要少得多。
虽然过滤器理论可能相当舒适地容纳这个结果,但我不会从分析-综合的考虑预测它。如果未注意的信息只是保持未合成,为什么它们之间的空间分离会有任何差异并不明显。
某些其他观察引入了不同类型的复杂性。在讨论语音感知的分析-综合方法时,我们区分了“运动理论”(强调真实的虽然隐蔽的发音运动)和更抽象的观点(其中合成只是语言形式的)。同样的区别必须在这里做出。 虽然追随实验和迄今为止引用的其他工作与严格的注意运动理论兼容,但一些现象无法与这种观点reconcile。人们可以注意他们不能字面模仿的声音。人们可以选择性地听交响乐团中的特定乐器、发动机中的异常响声或漏水龙头的无情滴水。实际上,龙头的滴水可能会不由自主地强加到人的注意上。
在这种情况下正在被合成什么?在某些情况下,即使注意的机制不能是语言分析-综合,它仍然可能是另一种运动模式。特别是,节奏暗示自己作为一个合理的媒介。“节奏感知的运动理论”提出了对这种情况的可能解释。听者可以被认为是积极地“跟随”注意声音的节奏。 但这种扩展并不完全充分,因为我们也可以注意输入的非节奏方面。旋律可以像节奏一样被跟随。旋律肯定有结构,但它似乎没有运动类比。因此,听觉合成可以发展抽象类型的“结构”,完全没有运动参与。
要证明无论是“注意的运动理论”还是“语音感知的运动理论”都站不住脚,我们只需要考虑同声传译这种非凡活动。这种技能在外交部和央视的国际会议中已经广为人知,翻译者可以将外语实时转换为中文,甚至在说话者还在讲述时,翻译者也能基本跟上。 从某种意义上说,同声传译是一种“追随”形式。然而,被追随的不是词汇或发音运动。明显正在注意和理解传入语音流的翻译者不可能在模仿说话者的发音。他自己的声道连续被完全不同的输出占据。
因此,运动模仿不能是注意或理解的必要条件,至少对成人而言。听觉合成可以在完全抽象的层面进行。
听觉认知的分析-综合理论揭示了记忆系统的双重结构。这个理论不仅解释了我们如何处理声音信息,更重要的是,它展现了人类记忆系统的精妙设计。
我们首先需要一个临时存储空间——回声记忆。就像录音设备的缓冲区,它短暂保存刚听到的声音信息,为后续分析处理争取时间。但这只是记忆系统的第一层。
当分析-综合过程完成后,那些经过认知加工的信息片段需要更稳定的存储环境。这就像从临时草稿箱转移到正式文件柜。这种长期存储不再是简单的声音回放,而是经过组织和编码的认知单元。
经过处理的信息具有了全新特性。它们不再是转瞬即逝的声波,而是可以被大脑灵活操作的认知材料。我们可以重新排列这些信息,将它们与其他知识结合,甚至进行复杂的思维运算。这正是人类高级认知能力的基础。