在我们日常生活中,听懂别人说话似乎是件轻而易举的事情。但是,当我们深入探究这个看似简单的过程时,会发现其中蕴含着令人惊叹的复杂机制。就像看东西需要视觉认知一样,听懂语音也需要一套精密的听觉认知系统。 当朋友对你说“你能来吗”这句话时,空气中的分子开始跳起复杂的舞蹈。这些分子的振动传到你的耳朵,经过一系列神奇的转换,最终在你的大脑中变成了有意义的信息。这个过程就是听觉认知的核心——我们如何理解语音。
所有对世界的认识都是间接的,而非直接的。就像视觉认知一样,听觉认知也需要对输入信息进行分析处理,没有什么捷径可以绕过这个复杂的解析过程。
当我们听到语音时,那些我们以为听到的“单词”实际上在声波信号中并不存在独立而清晰的界限。一句话的意思也不能直接从说话者的大脑跳跃到听者的大脑中。但是,在关键时刻,所有要传递的信息都会短暂地体现在物理声波本身中。构成听觉“近端刺激”的空气分子舞蹈,是整个交流过程中最容易接触到的阶段,因此也是研究听觉认知最合适的起点。
要理解语音感知,我们首先需要了解声音的基本物理特性。就像建房子需要先了解建筑材料的性质一样,研究听觉认知也需要从声音的物理基础开始。
空气中的声波是一连串的压缩和扩张过程。这种连续的变化会使我们的鼓膜产生来回运动。鼓膜的运动通过中耳的小骨头传递到一个叫做耳蜗的器官,在那里进行初步的信号转换。
听觉输入的本质是时间上的事件序列。所有信息都通过连续压力变化的强度和时间间隔来携带。
描述听觉输入最直接的方法是绘制压力随时间变化的图表。最简单的声波形式是正弦波,就像音叉发出的纯音。但是,我们平时听到的大多数声音,即使是音乐声,都有更复杂的波形。
复杂的声波可以分解为多个同时存在的正弦波的组合,只要合适地选择这些正弦波的频率、强度和相位关系即可。这种等价性让我们能够用完全不同的方式来描述听觉刺激。 如果把复杂声音比作一道菜,那么频谱分析就像是告诉你这道菜用了哪些调料,每种调料用了多少。通过显示声音的“成分”及其强度,我们就能几乎完整地描述任何声音。 这种将复杂声音分解为频率成分的分析不仅仅是数学技巧,还能通过被称为“滤波器”的物理设备来实现。滤波器就像筛子一样,只让符合特定条件的信号通过,而阻挡其他类型的信号。
对于像语音这样随时间变化的复杂声音,我们需要三维描述:显示不同频率成分的强度如何随时间变化。这就产生了所谓的“语音频谱图”。 在频谱图中,频率显示在垂直轴上,强度用灰度深浅表示,时间显示在水平轴上。比如说“你”这个音,在开始时高频占主导,到结束时低频占主导。频谱图中向下倾斜的暗带就代表了这种频率变化。
有趣的是,聋人可以学会“读”频谱图来理解语音,计算机程序也能通过频谱图识别spoken数字。频谱图甚至能反映说话者的个人特征,有时被用于法庭上的身份识别。
我们的听觉系统就像一台精密的生物机器,能够处理复杂的声音信息。了解这台“机器”的工作原理,有助于我们理解语音感知的奥秘。
听觉输入的第一个重要转换是由内耳的耳蜗完成的,它就像一个天然的“频率分析器”。压力的快速变化在耳蜗内的液体介质中产生行进波,这些波到达峰值的位置取决于输入频率。 听觉神经的末梢分布在耳蜗内一条贯穿其长度的膜上,不同频率实际上刺激不同的神经末梢。当呈现复杂音调时,会激发一整排末梢,对应于其各个成分。
耳蜗执行的功能虽然在中枢神经系统之外,但本质上是一种认知分析。它以压力序列作为输入,产生类似神经表征频谱图的输出。
这就像是把复杂的音乐分解成不同的乐器声部,每个神经末梢负责“听”特定频率范围的声音。
在安静环境中完全可听的信号,在嘈杂环境中可能变得无法察觉或至少听不清楚。噪音对语音的掩蔽现象得到了广泛研究,部分原因是它对电话传输和其他实际问题有明显影响。 但语音也可能被除了白噪声以外的其他声音掩蔽。特别是,另一个无关的语音流可以相当有效地产生掩蔽效应,尤其是当两个声音通过同一副耳机或同一台录音机混合播放时。
奇怪的是,在日常生活中,一种声音被另一种声音掩蔽的现象并不太困扰我们。即使在人群中,我们也很少有困难跟随感兴趣的对话而忽略所有其他对话。这就是著名的“鸡尾酒会现象”。
鸡尾酒会现象的基础主要不是依赖于所说内容的意义,也不主要依赖于声音质量。即使闭上眼睛,我们仍然可以跟随选择的对话。然而,如果只通过单个麦克风和录音带来听同一个鸡尾酒会,同样的对话就会变得难以理解得多。 听觉选择的主要基础是不同声音来自我们环境中的不同地方。听觉定位是一种原始的人类技能,至少部分是先天的,因为新生儿会把头转向突然声响的来源。 听觉定位主要可能是因为我们有两只耳朵,分别安装在头部的两侧。来自特定来源的声音不会在完全相同的瞬间到达两耳,强度也不会完全相同。此外,当听者移动头部时,耳间差异的模式必须改变,这为声源位置提供了进一步的信息。
声音首先到达离声源较近的耳朵
两耳接收到的声音强度会有微小差别
头部移动时这些差异会发生规律性变化
大脑综合这些信息确定声源位置
神经系统利用这些微小时间和强度差异的机制尚不清楚。但毫无疑问,它在克服掩蔽效应方面发挥着重要作用。当我们在人群中跟随单个人的对话时,本质上是在跟随来自特定地方的声音,即具有特定耳间到达模式的声音。
当我们用频谱图显示语音流时,会看到一种令人困惑的连续性。我们认为语音是由连续的单词组成的,而单词又是由连续的“声音”组成的,但在频谱图中这样的部分并不总是明显的。要理解语音具有组成成分的直觉感受,我们必须从另一种分析开始——语言学早在频谱图出现之前就发展起来的分析。
对语言学家来说,语音的基本单位是“音素”,有时被认为对听觉认知来说,就像轮廓和形状对视觉一样基础。每种语言的说话者都倾向于认同,单词是由更基本的“声音”序列组成的,这些声音似乎以各种组合重复出现。 比如“拧”这个音,很容易分析成三个连续单位。改变其中任何一个元素都可以产生不同的词。但把这些元素称为“声音”并不完全准确。对应于同一个音素的频谱图,对于不同的说话者可能相当不同,对同一个说话者在不同场合也会不同。
音素符号实际上代表一整类声音,这些声音在声学上相似,并且在语言使用中或多或少可以互换。
音素类别在不同语言中标准不同。西班牙人不区分我们在“热”和“设”中的差异;我们不注意“酷”中的音和“吉”中的音之间的差别,但这在阿拉伯语中很重要。虽然音素用于区分不同意义的词,但它们本身没有意义。
音素可以进一步分解,因为它们自然地归入几个类别。比如浊辅音和清辅音的区分。显然这些是不同的音素,声学上的差别在这两对中是相同的:第一个音素具有第二个所缺乏的某种音调性。 这样的考虑表明,音素是基于某些区别特征彼此区分的,这些特征是语音的基本组成部分。雅各布森(Roman Jakobson)和他的同事们将区别特征理论发展得相当完善。 根据这些学者的观点,几乎所有区别特征都是二元的:每个语音要么是浊音要么是清音,要么鼻化要么非鼻化,要么紧张要么松弛,等等。而且,每个特征都有发音和声学两种定义。也就是说,每个特征的产生是因为语音机制处于两种状态之一,并导致语音波具有两种特征之一。
在传递给听者的消息中,每个特征都面临着一个是非决定。听者必须在同一类别的两个极端数量之间做出选择,比如重音与轻音,或者在某种品质的存在与缺失之间做出选择,比如浊音与清音。
区别特征假说很有吸引力,但它也有自己的复杂性。理想情况下,人们可能认为每个特征都会被声学刺激的确定特性规律地表示。但情况并非如此。即使是这种对口语的微小解剖,也未能揭示出不变的单位。 每个特征只有在与其对立面的关系中,并且在它出现的特定上下文中才能被定义。如果我们根据区别特征来识别单词,那么我们也能根据它们出现的单词来识别区别特征,这就形成了一个认知循环。 这就像用拼图游戏的方式理解语音:每一小块拼图(区别特征)只有在整个图案(单词或音节)的背景下才能被正确理解,而整个图案又依赖于各个小块的正确识别。
这种复杂性使得语音的机械识别变得如此困难。尽管经过多年的深入研究,并在限制词汇方面取得了一些有限成功,但仍然没有能够识别普通语音中单词的设备或程序。
一代人以前,当火星和月球之旅还在幻想领域时,所谓的“语音打字机”似乎就在眼前。结果证明,词间的空隙比行星间的空间更顽固。
这个现象告诉我们,理解语音远比我们想象的复杂。那些看似简单的日常交流,实际上涉及着极其精密的认知处理过程。
认为语音是以音素为单位理解的观点,令人不舒服地让人想起阅读是由识别字母组成的命题。我们在阅读研究中发现,必须放弃逐字母假设,转而支持更灵活的观点。阅读中认知单元的大小取决于读者如何部署注意力。
语音感知也具有类似的灵活性特征。音素、音节、单词、语素、短语和语言成分在适当的情况下都可能充当功能片段。就像阅读可以是字母级别的、单词级别的,甚至是意义级别的,语音理解的单元也是变化的。 利伯曼(Liberman)和他在哈斯金斯实验室的同事们进行了一项经常被引用来证明音素心理学现实性的实验。他们用能够“读取”声音频谱图的设备制作实验材料,产生出大致符合频谱图描述的声音。 当听者被要求区分这些声音时,区分不同音素类别的实例比区分属于同一音素类别的两个声音要容易得多。但这个实验被解释为听觉装置是以音素为单位调节的证明,实际上受试者接受的是音节而不是音素,结果对那些音节可能由什么构成并无任何暗示。
区别特征的身份和顺序对准确识别都很重要。关键声音可能只持续20到30毫秒,这些短间隔危险地接近时间顺序感知的测量最小值。
儿童在发音中经常出现基于连续辅音甚至音节倒置的错误。研究表明,不熟悉特定声音的人通常无法完成时间顺序判断任务,即使间隔相当长。然而,训练有素的观察者能够达到预期的时间分辨率。 有趣的是,训练有素的观察者报告说,“声音是基于质量差异而不是通常所说的感知顺序差异类型来区分的。”听者似乎并不是分离出各个音素然后检查它们的顺序,而是逐渐获得区分不同音节的能力。
天真的现实主义者认为语音声音必须由一系列被停顿分隔的单词组成,因为这就是他们听到的。然而,真正仔细的聆听会显示他们是错误的。印刷单词之间的空白在口语中没有系统的对等物。 比如在说“他的狡猾让我怀疑”时,你可能在“狡-猾”中间停顿的时间比在大多数连续单词对之间停顿的时间更长。
日常语音中单词的分离性不是在刺激中给出的,而是由听者提供的。这就是为什么我们无法在不熟悉的语言中进行这种构建,使得外国人似乎说话非常快。
掌握语言能力较差的人,如新移民和幼儿,在词语分割方面有特殊困难。我们经常通过在说话时在单词之间引入人为间隙来让他们更容易理解。我们也在单词之间停顿以避免某些歧义:“夜费”与“硝酸盐”仅通过无声间隔来区分。
米勒(Miller)为存在比音节大得多的单元给出了有趣的论证。他指出,认知单元涉及决策,反应时间研究表明,人们在几百毫秒内无法在选择中做出决定。这样的研究涉及在理想条件下高度专注的受试者,在普通随意对话中可能期望更慢的速率。 每秒一个决策的速率表明,典型的认知单元大约是三个单词,即一个“短语”。每个这样的决策必须在大量备选短语中做出,但我们知道,当备选方案高度熟悉时,反应时间不依赖于备选方案的数量。
福多(Fodor)和贝弗(Bever)以及加勒特(Garrett)的巧妙实验为这种观点提供了支持。他们的工作基于一个最初由拉德福吉德(Ladefoged)给出的演示。在这个演示中,一个简短的咔嗒声或嘶嘶声叠加在录音句子上,受试者必须识别它发生的确切位置。 研究发现,受试者经常错误几百毫秒和几个音素。这表明他们正在以相当大的块处理或构建句子,这些块很难被中断。
更重要的是,语法结构本身能够决定中断被听到的位置。即使当句子的最后部分在声学上相同时,不同的语法开头也会导致点击被感知在不同的位置——接近每种情况下最深的语法断裂。
这个结果表明,仅语法结构就足以确定中断被听到的位置,以及句子大概是如何分割的。片段不一定被刺激中的任何标记分开。它们依赖于听者的建构过程,而且是依赖于语法的过程。
语音感知研究是一个丰富而复杂的领域,很难在几页内进行全面调查。但是,一些基本原理值得我们关注。利克莱德(Licklider)将语音感知理论分为三种类型:相关、滤波和分析-合成。 这三种可能性的出现表明,模式识别的问题非常普遍,跨越了各种感觉形态。它们与视觉感知中考虑的选择完全相同:模板、特征和图形合成。
在“相关”理论中,假设听者提前准备好每个可能语音片段的详细存储模板。给定新输入时,他计算新输入与每个存储描述之间的相关性(即统计交叉乘积)。识别由这些相关中的最高值确定。
这种机制有些难以置信,因为它需要两个波形之间的精确时间对齐。就像视觉的模板理论一样,相关理论只有在输入与模板完美对齐时才能工作。
反对模板理论的其他论证在这里同样适用。特别是,相关理论似乎无法解释不明确定义类别的识别。而在语音感知中,每个片段似乎都是不明确定义的——这正是为什么机械识别如此困难。 假设试图用这种方法理解带外国口音的人说话——你需要为每种可能的口音变化存储无数个模板,这显然是不现实的。
滤波方法假设耳蜗的输出去到一组“滤波器”,类似于某些视觉理论中的“恶魔”或“分析器”。滤波器对某些强度-频率-时间模式(如频谱图上记录的那些)有选择性敏感。 滤波器的线性组合激活更深层的分析器,这些分析器代表听者识别的音节和单词。任意数量的滤波器可以并行检查输入,同时,不需要消耗能量。 虽然比模板模型强大得多,并且适用于许多种类的模式识别,但它在面对真正的复杂性时会失败。就像在视觉认知讨论中建议的那样,并行分析必须由聚焦注意力的能力和图形合成的主动过程来补充。
分析-合成方法中的一个特殊版本是运动理论,它强调发音肌肉的初期运动。柏格森(Bergson)早在1911年就为这种方法辩护,他的措辞看起来非常现代。 他指出,当我们听两个人用我们不懂的语言说话时,我们只感知到混乱的噪音。但说话者却能区分辅音、元音和音节。区别在哪里?柏格森认为,听觉印象组织了初期运动,能够扫描听到的短语并强调其主要关节。
运动理论认为,语音感知依赖于对发音的参考——即发音运动及其感觉后果在听觉刺激和我们称为感知的事件之间起中介作用。
利伯曼(Liberman)为这一观点提出了一些相当巧妙的论证。他指出,某些音节可以排列成对听者来说似乎是连续系列的形式。这种音节的主观连续性在相应的语音频谱图中绝不明显,也许是因为它在说各种音节所涉及的肌肉运动中也不存在。
尽管运动理论有一定吸引力,但我们必须谨慎地接受它。幻觉现象确实暗示某种构造性或“合成性”的听觉解释,但合成不必由有形的肌肉运动组成。 运动理论可以通过证明所讨论的反应实际上不是必要的来反驳。即使这些肌肉被移除或麻醉,语音仍然可以理解;即使是从不说话的人,如某些神经缺陷患者,也能理解语音。
人们可能在掌握某种外语音素的产生之前就能够区分它们,就像儿童经常能在开始使用成人音素之前就区分它们一样。
理论的支持者意识到这些困难,因此求助于“分数”或“隐性”运动的假设。这使得理论难以测试,但不比其他认知理论更难测试。此外,它使运动理论明显更接近更灵活的语音感知模型。
即使我们承认语音感知依赖于发音运动的中间阶段,我们仍然需要解释听者如何知道要做什么运动以及如何来做这些运动。我们需要一个语音合成理论来解释要合成项目的选择。
想象我们有一个能够产生语音的机制,我们如何指导它?我们需要指定实际的连续调整吗?还是只需要列出音节或音素的序列?或者单词和短语的序列?甚至只是句子本身?或者仅仅是要说的内容要点? 显然,这取决于机制本身。每个更复杂的机器都必须以某种方式包含前面的所有机器。也就是说,一个可以简单地被告知说特定单词的装置,必须配备能够适当地编程其“发音管”的规则。
任何产生口语的“装置”,包括人类本身,都必须有一套层次化的规则,用于从预期信息到实际发音信号。
如果它必须包含这些规则,这样的“装置”也可以应用它们从猜测信息到假设信号。然后,给定一种生成猜测的方法和比较假设信号与真实信号的手段,我们的“装置”就能够理解语音以及产生语音!
这种理解模式就是哈勒(Halle)和史蒂文斯(Stevens)意义上的“分析-合成”。作为心理学理论,它非常类似于布鲁纳(Bruner)的“假设检验”,当然也符合本书的一般方法。 这种方法超越了运动理论,因为它更抽象,允许在除肌肉活动以外的许多其他层面上进行构建。正如哈勒和史蒂文斯所说,“它不把感知看作隐蔽的运动行为形式;相反,它把感知看作一种无声计算的变体,一种人类特别擅长的计算类型。”
对原始信息做出假设
应用规则确定如果假设为真输入会是什么样子
检查输入是否真的是那样
根据匹配结果调整或确认假设
听觉合成像其视觉对应物一样,显然可以产生各种大小的单位。听者可以问自己“发出了什么声音?”或“说了什么单词?”或“意思是什么?”并相应地进行合成。在每种情况下,他必须有一套规则:语音、音韵、句法、语义等等。 正是这些规则的使用使分析-合成比相关或滤波等方法更强大。史蒂文斯在这一点上很明确:虽然其他方法需要听者存储所有可能的声学输入,但在分析-合成中,“存储的是产生频谱模式的规则而不是模式本身的整个目录,从而在存储容量上节省了很多。”
分析-合成方法最有力的论证也许是它提供了对听者如何使用上下文信息的一致解释。我们不能假设上下文线索只是“补充”感知的次要方式。上下文信息在语音识别中起着根本性作用。 米勒(Miller), 海瑟(Heise)和利希滕(Lichten)的早期重要演示显示了上下文的重要性。他们的受试者要在嘈杂背景中识别单词和无意义音节。简单地知道期待什么就产生了巨大差异:在几乎没有无意义音节被正确报告的信噪比下,几乎所有数字都被正确传达。
当呈现整个句子时,可理解性比单独单词要高得多。如果受试者事先知道要从中选择口语单词的受限词汇表,也会出现类似的提升。
米勒发现,形成语法句子的单词串比非语法串更准确地被报告,即使受试者对实验中使用的受限单词集及其可能出现的顺序极其熟悉。显然,合成过程部分受语法组织原则控制。 这种结果很容易用分析-合成来解释。听到一个话语时,听者试图构建自己的话语来匹配它。这种匹配可能在“几个层面”上进行——即以不同的片段大小。
如果没有输入,就无法进行这种检查。在这些条件下,合成可能产生或多或少生动的听觉意象,就像在类似的视觉情况下一样。在听觉梦境中,以及在精神分裂症患者听到的“声音”中,合成的产品被认为是真实的。
沃伦(Warren)和格雷戈里(Gregory)报告的现象生动地说明了分析-合成,这就是“言语转换效应”。当单个单词或短句被一遍遍重复时,如通过磁带循环,听者可能听到一些相当惊人的变化。 如果录制的声音在说“休息,休息,休息……”,它可能突然变成“压力,压力,压力……”或“树,树,树……”甚至“埃斯特,埃斯特,埃斯特……”变化似乎是突然的,像立体图的反转。
这种转换告诉我们,听觉是一个构建性过程。只要使用正常清醒受试者,刺激输入通常是构建过程的主要决定因素。除了真正的意象情况,听觉合成受到信号的约束。
必须有一种滤波,一种特征检测,先于细节的主动构建。聆听既有被动模式也有主动模式。这种区别将在我们转向下一章和选择性聆听问题时证明非常有用。 就像视觉认知一样,听觉认知也不是简单的信息接收过程,而是一个复杂的构建过程。我们不仅仅是被动地“听到”声音,而是主动地“理解”语音。这种理解涉及我们的知识、经验、期望,以及复杂的认知机制的相互作用。
通过分析-合成模型,我们可以更好地理解为什么人类能够如此成功地进行语音交流,尽管这个过程在技术上极其复杂。我们的大脑不仅仅是一台接收器,更是一台智能的分析和合成机器,能够在不完整和模糊的输入基础上构建出完整的意义。
从声波的物理特性到复杂的语音理解,我们的听觉认知系统展现出了令人叹服的精密与智慧。这个看似简单的“听懂话”过程,实际上涉及了多个层次的复杂处理。 我们看到,声音首先被耳蜗这个天然的频率分析器分解;然后通过音素和区别特征的组合来识别语音单元;接着通过灵活的认知分割来理解单词和句子;最终通过分析-合成的智能过程来构建完整的意义。
人类的听觉认知系统不仅仅是被动的信息接收器,更是主动的意义建构者。我们能够在嘈杂环境中准确定位并理解感兴趣的对话,能够根据上下文补全缺失的信息,能够理解带有口音或不完整的语音。
这种认知能力的复杂性解释了为什么自动语音识别技术直到今天仍然面临巨大挑战。单纯的模板匹配和滤波方法无法处理语音的变异性和复杂性,只有类似人类的分析-合成过程才能真正理解语言的精妙。 听觉认知研究告诉我们,认知不是简单的感官输入处理,而是一个涉及知识、经验、期望和智能推理的主动建构过程。这种理解不仅有助于我们更好地认识人类心智的奇妙,也为人工智能和语音技术的发展提供了重要启示。
在日常生活中,我们每时每刻都在进行着这种复杂而精妙的听觉认知活动,却很少意识到其中的奥秘。现在,当我们再次听到他人说话时,或许会更加感叹这个看似平凡却实际上极其不凡的认知奇迹。