日常生活中,我们常听到“这孩子真聪明”或“他数学天赋不错”这样的评价。那么,如何科学地评估和理解人类智能差异?智能评估作为心理学重要分支,不仅帮助我们理解个体差异,更深刻影响教育、就业和社会政策制定。
心理评估如同精确的量尺,测量人们在能力、行为和个人品质方面的差异。了解学生学习能力时,仅凭老师主观印象远不够,需要标准化工具进行客观测量。 心理评估是运用特定测试程序来评估人们能力、行为和个人品质的科学方法,被称为个体差异测量,旨在说明个体在特定维度上与他人的差异或相似之处。
虽然现代西方心理学中的正式测试和评估程序相对较新,直到20世纪初才开始广泛应用,但评估技术在古代中国早已成为常见做法。

早在4000多年前,中国就采用了复杂的公务员考试制度。官员们需要每三年参加一次口试来证明自己的能力。2000年后的汉代,开始使用书面考试来测试在法律、军事、农业和地理等领域的能力。到了明代,公务员选拔采用了三个阶段的客观选择程序:首先是地方考试,只有4%的考生能够通过;然后是为期9天9夜的经典著作论文考试,通过率仅为5%;最后是在京城举行的最终阶段考试。
中国古代的科举制度实际上是世界上最早的标准化考试体系,它强调公平竞争和客观评估,这一理念对后来西方的考试制度产生了深远影响。
19世纪初,英国外交官和传教士观察并描述了中国的选拔程序。不久,英国人修改并采用了中国的制度,后来美国也采用了类似的方法来选拔公务员。
西方智能测试发展的关键人物是英国上流社会人士弗朗西斯·高尔顿爵士。他在1869年出版的《遗传天才》一书极大地影响了后来测试方法、理论和实践的发展。作为查尔斯·达尔文的表弟,高尔顿试图将达尔文的进化论应用于人类能力的研究。

高尔顿提出了关于智能评估的四个重要观点,这些观点至今仍有价值:
优秀的评估工具必须满足三个基本要求:可靠性、有效性和标准化。就如同制造精良的测量仪器,必须每次测量都给出一致结果(可靠性),测量的确实是目标内容(有效性),且每个人都用相同方式使用(标准化)。
可靠性是指评估工具能够给出一致分数的程度。如果体重秤在同一早上三次称重都显示不同读数,这个秤就不可靠。心理测试同样如此,可靠的测试应该在不同时间给出相似结果。
测试-重测可靠性是检验测试可靠性的一种直接方法,即让同一组人在不同时间参加同一测试,计算两次分数之间的相关性。完全可靠的测试相关系数为1.00,表示两次测试的分数模式完全相同;完全不可靠的测试相关系数为0.00,表示第一次和第二次分数之间没有关系。
内部一致性是可靠性的另一种测量方法,比如我们可以比较一个人在测试奇数题目上的得分与偶数题目上的得分。可靠的测试在两个部分上会产生相同的分数。
有效性是指测试实际测量目标内容的程度。有效的智能测试应该测量智能特质,并能预测在需要智能的情境中的表现。有效性分为三种类型:
内容有效性要求测试涵盖感兴趣领域的全部范围。评估生活满意度时,仅关注学业成功远不够,还需要广泛涉及工作、人际关系等生活各个领域。
标准关联有效性是将测试分数与外部标准比较。如果测试旨在预测大学成功,大学成绩就是合适的标准。测试分数与大学成绩高度相关,测试就具有标准关联有效性。
结构有效性指测试充分测量潜在结构的程度。对于抑郁、焦虑等抽象品质,心理学家有相关理论结构。新的抑郁量表如果与有效的抑郁特征量表高度相关,就具有结构有效性。
即使有了可靠有效的测试,仍需要标准来解释分数。假设某人抑郁测试得18分,这意味着什么?是轻度抑郁、正常还是平均水平? 要回答这个问题,需要将分数与典型分数或统计标准比较,了解通常分数范围和同年龄、同性别人群的平均分数。
标准化是指在相同条件下,以相同方式对所有人进行测试管理。实践中并非总是如此,有些人可能被允许更多时间、得到更详细指导,或被激励表现更好。 当程序缺乏关于如何管理测试或计分的明确指示时,很难解释测试分数的含义,或其与比较群体的关系。 标准化的实施包括:制定统一程序、建立标准样本、计算标准分数、提供解释指南。这样确保每个人在相同条件下接受评估,使测试结果具有可比性和意义。
有些心理学家认为人类智能可以量化并简化为单一分数,而另一些人则认为智能有多个组成部分,应该分别评估。还有一些人说实际上存在几种不同的智能类型,跨越不同的体验领域。在这一部分,我们将了解智能测试如何与这些不同的智能概念相互融合。
1905年标志着第一个实用智能测试的发表。阿尔弗雷德·比奈响应了法国公共教育部长的呼吁,要求为发育障碍儿童创建更有效的教学方法。比奈和他的同事西奥多·西蒙认为,测量儿童的智能能力对于制定教学计划是必要的。 比奈试图设计一个客观的智能表现测试,可以用来对发育障碍儿童和正常学龄儿童进行分类和区分。他希望这样的测试能够减少学校对教师更主观、也许有偏见的评估的依赖。
比奈测试了不同年龄的儿童,并计算了每个年龄正常儿童的平均分数。然后将每个儿童的表现与其年龄组其他儿童的平均值进行比较。测试结果用心理年龄来表示,即正常儿童达到特定分数的平均年龄。例如,当一个儿童的分数等于一组5岁儿童的平均分数时,无论其实际的生理年龄如何,都说这个儿童具有5岁的心理年龄。
虽然比奈在法国开始了标准化智能能力评估,但美国心理学家很快就领先了。他们也发展了智商这一数字化的标准智能测量方法。
斯坦福大学的刘易斯·特曼是一名前公立学校管理员,他认识到比奈方法评估智能的重要性。他为美国学童改编了比奈的测试题目,标准化了测试的实施,并通过对数千名儿童进行测试制定了年龄水平标准。1916年,他发表了《比奈测试的斯坦福修订版》,通常被称为斯坦福-比奈智能量表。
特曼通过他的新测试为智商概念提供了基础。智商是心理年龄与生理年龄的比值乘以100(以消除小数):
智商 = (心理年龄 ÷ 生理年龄)× 100
一个生理年龄为8岁、测试分数显示心理年龄为10岁的儿童智商为125(10 ÷ 8 × 100 = 125),而同样生理年龄但表现处于6岁水平的儿童智商为75(6 ÷ 8 × 100 = 75)。心理年龄等于生理年龄的个体智商为100,因此100分被认为是平均智商。
纽约贝尔维尤医院的戴维·韦克斯勒着手纠正成人智能评估中过度依赖语言项目的问题。1939年,他发表了韦克斯勒-贝尔维尤智能量表,该量表将语言子测试与非语言或操作性子测试相结合。因此,除了整体智商分数外,人们还获得了语言智商和非语言智商的单独估计。
经过几次修改后,该测试在1955年被重新命名为韦克斯勒成人智能量表。今天使用的是第四版韦克斯勒成人智能量表(WAIS-IV),它有10个核心子测试和5个补充子测试,涵盖智商的几个方面。
WAIS-IV将子测试组织成四个量表,测量语言理解、知觉推理、工作记忆和处理速度。如果你参加WAIS-IV,你可以得到一个总体或全量表智商,以及四个量表的单独测量。
现在智商分数不再通过心理年龄除以生理年龄计算,而是将分数与同年龄人群直接比较。智商100为平均水平,表示50%的同龄人得分较低。智商分数遵循正态分布曲线,大多数分数聚集在中间,极值较少出现。
当18岁以下的个体获得的有效智商分数大约比智能测试平均分低两个标准差时,他们符合智力障碍分类的一个标准。对于WAIS,该标准代表智商70分。然而,要被认为有智力障碍,个体还必须表现出适应行为的局限性。
智力障碍可能由多种遗传和环境因素引起。例如:
遗传因素:唐氏综合症(21号染色体上额外的遗传物质引起的疾病)患者通常智商较低。苯丙酮尿症是另一种可能对智商产生负面影响的遗传疾病,但通过严格遵守特殊饮食,如果在婴儿期诊断,人们可以控制其负面影响。
环境因素:怀孕期间的环境往往对智力障碍至关重要。患有风疹和梅毒等疾病的孕妇有生智力障碍儿童的风险。此外,怀孕期间饮酒或服用其他药物的孕妇,特别是在怀孕早期,也会增加生认知缺陷儿童的可能性。
当智商分数和实际表现不匹配时,可能存在学习障碍。在诊断学习障碍之前,临床医生需要排除可能导致表现不佳的其他因素,如低动机、教学水平一般或身体问题(如视觉缺陷)。许多学校为被诊断患有学习障碍的学生提供特殊帮助。
智商在130以上的个体最有可能被标记为有天赋。然而,与智力障碍的定义一样,研究人员建议仅仅用智商并不能充分概括天赋的概念。
约瑟夫·伦祖利提出了天赋的“三环”概念,该概念从能力、创造力和任务承诺三个维度来描述天赋。在这种观点下,智商在平均水平以上但不一定优秀的个体,如果表现出高水平的创造力并对特定问题或表现领域付出高水平的承诺,就可以被认为是有天赋的。 这种天赋的扩展定义解释了为什么人们通常不是在整个学术范围内都有天赋。能力、创造力和任务承诺在语言和数学领域之间可能都不同。
正如爱因斯坦曾经说过:“每个人都是天才,但如果你用爬树的能力来判断一条鱼,它将终其一生都觉得自己很愚蠢。”
对天才儿童的长期研究
天才儿童的正式研究始于1921年,当时刘易斯·特曼开始了一项对1500多名在学校人口中测试成绩排名前1%的男孩和女孩的长期研究。这组个体一直被跟踪到他们80多岁。特曼和他的继任者想要了解这些孩子在人生道路上的表现如何。 特曼探索了天才儿童在社会和情感调节方面存在问题的神话。特曼得出了相反的结论:他发现他的样本比智力较低的同龄人调节得更好。当代研究比较天才和非天才学生的人格特质继续反驳天才学生比同龄人调节能力差的刻板印象。事实上,天才学生可能有一些优势,比如焦虑水平较低。
智商分数提供了关于人们如何能够表现的一般信息,相对于年龄适当的标准,在各种语言和非语言任务上。理解智能的极值情况帮助我们更好地为不同能力水平的个体提供适当的教育和支持环境。
到目前为止,我们已经了解了智能测量的一些方式。现在你可以问自己:这些测试是否涵盖了“智能”这个词所意味的一切?这些测试是否捕捉到了你认为构成自己智能的所有能力?为了帮助你思考这些问题,我们现在回顾智能理论。
心理测量学智能理论起源于与智商测试相同的哲学氛围中。心理测量学是专门研究心理测试各个方面的心理学领域,包括人格评估、智能评价和能力测量。因此,心理测量学方法与测试方法密切相关。 这些理论检查不同能力测量之间的统计关系,然后根据这些关系对人类智能的本质做出推论。最常用的技术被称为因子分析,这是一种统计程序,在更大的独立变量集合中检测更少数量的维度、聚类或因子。
查尔斯·斯皮尔曼在智能领域进行了早期且有影响力的因子分析应用。斯皮尔曼发现个体在各种智能测试上的表现高度相关。从这种模式中,他得出结论,存在一个潜在于所有智能表现的一般智能因子,称为“g”。每个个体领域也有与之相关的特定技能,斯皮尔曼称之为“s”。 例如,一个人在词汇或算术测试上的表现既取决于他或她的一般智能,也取决于特定领域的能力。这就像是一个人的整体体能素质加上特定运动的专项技能一样。
雷蒙德·卡特尔使用更先进的因子分析技术,确定一般智能可以分解为两个相对独立的组成部分:晶体智能和流体智能。
晶体智能涉及一个人已经获得的知识和获得该知识的能力;它通过词汇、算术和一般信息测试来测量。晶体智能帮助你很好地应对生活中反复出现的具体挑战。
参加中文成语接龙比赛时,主要需要晶体智能(已学过的成语知识)。而玩全新益智游戏时,更需要流体智能(理解规则并找出解决策略的能力)。 自卡特尔以来,许多心理学家已经扩大了他们对智能的概念,包括远超传统智商测试的内容。让我们现在检查两种超越智商的理论类型。
罗伯特·斯滕伯格也强调认知过程在问题解决中的重要性,作为他更一般的智能理论的一部分。斯滕伯格概述了一个三元理论——三部分理论。他的三种智能类型:分析型智能、创造型智能和实用型智能,都代表了描述有效表现的不同方式。
分析型智能提供人们应用于生活中许多熟悉任务的基本信息处理技能。这种智能由构成思维和问题解决基础的成分定义,包括三种类型:
以字谜游戏为例,解决“学而时习之”的重新排列,表现成分让你在头脑中操纵汉字;元认知成分提供解决策略,如尝试常见词组搭配。选择策略需要元认知成分,执行策略需要表现成分。
分析型智能在传统学术环境中最受重视,体现在解决数学问题、分析文学作品或进行科学实验时的能力。这种智能与传统智商测试关系最为密切。
创造型智能捕捉人们处理新颖问题的能力,涉及创造、发明、发现、想象、假设或构想的技能。 一群人在自然灾害后被困,团队中能最快找到脱困方案的人具有创造型智能。这种智能不是记忆已知解决方案,而是在面对前所未有情况时产生新的有效解决方案。 在中国教育背景下,创造型智能体现在学生用全新方法解决数学问题,或在作文中展现独特观点和表达方式。这种能力越来越被认为是21世纪人才的重要特征。
实用型智能反映在日常事务的管理中,涉及适应新环境、选择合适环境、有效塑造环境的能力。实用型智能与特定背景相关。 研究人员评估互联网企业高管的实用型智能时,开发了包含行业相关情景的测量方法(如用户增长停滞)。参与者需要将10个可能的行动按重要性排序。研究显示,实用型智能较高的领导者,其企业在评估后四年中表现出更高增长。 真正的智能不仅是测试高分,更重要的是在现实世界中有效运作和成功。这种智能在中国商业环境中尤为重要,因为它涉及文化背景、人际关系和实际操作的深刻理解。
霍华德·加德纳也提出了一个扩展智能定义的理论,超越了智商测试涵盖的技能。加德纳识别出涵盖人类经验范围的众多智能。任何能力的价值在人类社会中都不同,根据特定社会所需要、有用和珍视的东西而定。
加德纳最初识别了八种不同的智能类型:
加德纳论证西方社会重视逻辑-数学和语言智能,而不同文化往往重视其他类型的智能。
在中国传统文化中,围棋高手需要运用空间智能和逻辑推理能力进行复杂的战略思考,这种能力比单纯的记忆能力更受重视。在京剧表演中,演员需要综合运用音乐智能、身体-运动智能和人际智能,这些才能在传统艺术领域受到高度重视。
许多人拥抱加德纳的理论,因为它表明人们可以在传统智能概念未认识到的领域中表现出色。然而,加德纳的理论也不乏批评者。
多元智能理论的争议
研究表明,加德纳认为是独立智能类型的功能之间存在重叠。例如,语言、逻辑/数学、空间、自然主义和人际智能的测量都显示与“g”(一般智能)的强相关性。这些相关性表明加德纳可能只是在重新标记传统智能概念的不同方面。
其他批评集中在特定的智能上。例如,研究证据反对语言学习能力反映先天才能的想法。通过将各种任务分解为其组成部分,研究人员可以确定区分不同智商个体表现结果的过程。
情绪管理能力有四个主要组成部分:
这种定义反映了情绪在智力功能中的积极作用——情绪可以使思维更智能,人们可以智能地思考自己和他人的情绪。
研究证明情绪管理能力对日常生活具有重要意义。以运动员为例,研究人员招募了30名男子乒乓球运动员并测量其情绪管理能力。为了提供压力体验,让运动员听20分钟音频录音,包含负面陈述和观众嘘声。通过测量心率变化评估压力影响。

低情绪管理能力的运动员显示出明显心率变化,表明录音使他们承受压力。相比之下,高情绪管理能力的运动员心率几乎没有受到影响。这说明高情绪管理能力的运动员能够有效利用理解和调节情绪的能力来应对压力,这种能力在激烈竞争中尤为重要。
这些智能理论的回顾为我们讨论使智能话题如此争议的社会环境奠定了基础。接下来,我们将探讨智能评估如何与社会、政治和文化因素交织在一起。
我们已经看到,当代对智能的理解拒绝将智商测试分数与一个人的智能狭隘地联系起来。即便如此,智商测试仍然是西方社会中最常见的“智能”测量方法。由于智商测试的普及性和智商分数的可获得性,很容易根据不同群体的“平均”智商来比较他们。在美国,这种族裔和种族群体比较经常被用作少数群体成员天生遗传劣势的证据。
20世纪初,心理学家亨利·戈达德主张对所有移民进行智力测试,并选择性地排除那些被发现“智力缺陷”的人。这种观点可能对某些移民群体的国家敌对氛围产生了影响。
1924年,国会通过了《移民限制法》,将对抵达埃利斯岛的移民进行智力测试定为国家政策。大量的犹太人、意大利人、俄国人和其他民族的移民在智商测试基础上被归类为“白痴”。一些心理学家将这些统计发现解释为来自南欧和东欧的移民在遗传上劣于来自坚韧的北欧和西欧血统的证据。
戈达德和其他人提出的遗传劣势论点通过第一次世界大战陆军智力测试得到了加强,在这些测试中,非洲裔美国人和其他少数族裔的得分低于白人多数群体。刘易斯·特曼以非科学的方式评论他帮助收集的关于美国少数族裔的数据:
“他们的愚钝似乎是种族性的。目前似乎没有可能说服社会不应该允许他们繁殖,尽管从优生学的角度来看,由于他们异常多产的繁殖,他们构成了严重的问题。”(特曼,1916年)
当代的群体差异现象
今天在美国,非洲裔美国人和拉美裔美国人在标准化智力测试上的平均得分低于亚裔美国人和白人。当然,在所有群体中都有个体在智商量表的最高(和最低)极端得分。如何解释这些群体在智商分数上的差异呢? 一种传统观点是将这些差异归因于遗传劣势(先天因素)。在这一部分讨论遗传差异在智商中的证据后,我们将考虑第二种可能性,即环境差异(后天培养)对智商产生重大影响。
研究人员如何评估智能在多大程度上是遗传决定的?要回答这个问题,研究人员必须选择某种测量作为智能的指标。因此,问题不是抽象的“智能”是否受到遗传影响,而是在大多数情况下,家族树内的智商是否相似。 要回答这个更有限的问题,研究人员需要分离共享基因和共享环境的影响。一种方法是比较同卵双胞胎(单卵)、异卵双胞胎(双卵)和其他具有不同遗传重叠程度的亲属的功能。
遗传相似性与智商相关性
研究显示,遗传相似性越大,智商相似性也越大。同卵双胞胎的智商相关性最高,异卵双胞胎次之,其他兄弟姐妹相关性更低。这种模式表明遗传因素确实对智商有影响。 但环境影响也很明显。那些一起成长的双胞胎和兄弟姐妹比分开成长的有更高的智商相似性,这表明了环境的影响。
遗传力的概念与误解
研究人员使用这些结果来估计智商的遗传力。智商的遗传力估计是基于测试分数在该特质上可追溯到遗传因素的变异比例。通过比较具有不同遗传重叠程度的个体来计算该估计。审查了各种遗传力研究的研究人员得出结论,智商分数变异的约30%到80%是由于遗传构成造成的。 遗传力估计范围的产生部分原因是遗传力在生命周期中增加。一项研究跟踪209对5岁双胞胎到18岁,发现语言智商的遗传力估计从5岁时的46%增加到18岁时的84%。
群体差异的遗传解释困境
现在让我们回到遗传分析变得有争议的地方:非洲裔美国人和白人美国人之间的测试分数差异。几十年前,白人和黑人之间的差距大约是15个智商点。然而,研究人员估计这个差距在1972年到2002年的30年间缩小了4到7个点。 即使智商高度遗传,这种差异是否反映了得分较低群体的遗传劣势?答案是否定的。遗传力基于一个给定群体内的估计。遗传力估计只适用于给定个体群体中的平均值。
由于遗传力估计小于1.0,我们知道遗传遗传并不是任何人智商的唯一负责因素。环境也必须影响智商。但我们如何评估环境的哪些方面是智商的重要影响因素呢?
社会经济地位的影响
研究人员最常关注环境的更全面测量,比如家庭的社会经济地位。来自更特权、高社会经济地位背景的儿童比他们不太特权、低社会经济地位的同龄人更可能有更高的智商。
为什么社会经济地位影响智商?财富与贫困可以在许多方面影响智力功能,健康和教育资源是两个最明显的方面:
基因与环境的交互作用
研究人员越来越多地关注基因和环境的相互作用。一项研究跟踪了750对从10个月到2岁的双胞胎。在10个月时,来自高社会经济地位和低社会经济地位家庭的儿童的智力能力都很少显示基因的影响。
但到了2岁时,出现了不同的模式:
这种模式表明,低社会经济地位儿童成长的环境不允许他们体验其全部遗传潜力。
早期干预的积极效果
研究人员花费了过去40年开发旨在抵消贫困环境影响的项目。“启蒙计划”于1965年首次由联邦政府资助,旨在满足“低收入儿童的身体健康、发育、社会、教育和情感需求,并增加家庭照顾儿童的能力”。
早期干预项目的效果
以中国贫困地区的学前教育项目为例,针对3至4岁的留守儿童,项目提供参与式教育环境——鼓励儿童主动学习和规划活动。通过家访和家长培训让家长参与儿童教育。长期跟踪研究显示,参与项目的学生智商明显提高,升学率和就业质量都显著优于对照组。
人们对智商分数的关注程度可能会降低,如果它们不能实现如此有用的预测的话。大量研究表明,智商分数是从小学到大学的学校成绩、职业地位以及许多工作表现的有效预测指标。 然而,许多观察者仍然质疑智商测试在不同文化和种族群体之间比较的有效性。要进行有意义的比较,研究人员必须使用已为每个单独群体验证的测试。
文化偏见的系统性问题
批评者经常争论智商测试存在系统性偏见,使得它们在跨文化方面无效。例如,评估语言理解的智商测试题目预设某些类型的知识对所有测试者都是可获得的。实际上,来自不同文化的人往往有截然不同的背景知识,这影响了这些问题的难度。 此外,测试形式和内容可能不符合文化对智能或适当行为的概念。考虑课堂中负面评价的案例:
“当农村孩子进入城市学校时,对理解而非表达的强调,对尊重教师权威而非表达个人观点的强调导致负面的学术评估。因此,一种文化中受重视的交流模式——尊重地倾听——成为学校环境中负面评估的基础,而学校环境更重视自信的表达。”
刻板印象威胁的影响
虽然关于跨文化比较的担忧经常集中在测试内容上,但主要问题也在于智能测试的背景中。克劳德·斯蒂尔论证人们在能力测试上的表现受到刻板印象威胁的影响——面临确认对自己群体负面刻板印象风险的威胁。
一项研究关注来自农村的第一代和在城市长大的第二代学生。研究人员假设第一代农村学生通常没有足够的城市教育经验来获得关于农村学生智能能力的负面刻板印象。相比之下,在城市长大的第二代学生会拥有这些刻板印象。

当两类学生完成标准化考试语言部分的问题时,研究人员让一半学生相信他们的表现能诊断语言能力,告诉另一半他们只是协助测试开发。对于拥有负面刻板印象的城市学生,在诊断条件下表现受损:当情况使刻板印象相关时,刻板印象威胁产生了负面影响。
智商较高的人往往寿命更长,这种关系可能通过多个方面解释:环境因素影响大脑发挥潜力、整体生理系统的协调性、更好的教育和职业选择、更健康的生活方式选择。 无论智能如何定义和分类,最重要的是认识到每个人都有独特优势和需要发展的领域,社会应该致力于为每个个体提供充分发挥潜力的机会。
心理评估的主要目标是对人进行尽可能准确的评估,避免评估者判断的错误。这个目标通过用经过精心构建且开放接受批判性评价的更客观的测量来替代教师、雇主和其他评估者的主观判断来实现。这是激励阿尔弗雷德·比奈开创性工作的目标。 比奈和其他人希望测试能够帮助民主化社会,最小化基于性别、种族、国籍、特权或外表等任意标准的决策。然而,尽管有这些崇高的目标,心理学中没有比评估更具争议性的领域了。
争议的核心是三个伦理关切:基于测试的决策的公平性、测试在教育评估中的效用,以及使用测试分数作为标签对个体进行分类的影响。
关注测试实践公平性的批评者认为,对于一些测试者来说,成本或负面后果可能更高。例如,当少数群体得分较低的测试被用来阻止他们获得某些工作时,成本就相当高。有时,少数群体成员测试表现不佳是因为他们的分数是相对于不合适的标准进行评估的。 为了解决这些问题,研究人员研究了结合认知和非认知技能评估的人员选择方法。目标是用复合测量来预测工作成功,这些测量认识到测试分数上的群体差异。
第二个伦理关切是测试不仅帮助评估学生;它也可能在教育塑造中发挥作用。学校系统的质量和教师的效果经常基于他们的学生在标准化成就测试上的表现好坏来判断。 对学校的当地支持、甚至个别教师的薪水都可能依赖于测试分数。与测试分数相关的高风险可能导致作弊。例如,一项研究分析了芝加哥公立小学的标准化测试分数。研究人员估计,至少4%到5%的教室发生了严重的管理者或教师作弊案例。
第三个伦理关切是测试结果可能具有不可改变标签的地位。人们过于经常将自己视为智商110或B等学生,好像分数是印在他们额头上的标签。这样的标签可能成为进步的障碍,因为人们开始相信他们的心理和个人品质是固定和不可改变的——他们无法改善自己的生活状况。
150年来,心理测量学家一直在测量智能差异。当代成像技术使研究人员能够检查这些差异的大脑基础,得出关于不同大脑结构和功能的结论。
研究指向“越大越好”的结论。研究中,个体完成韦克斯勒成人智能量表后进行核磁共振成像扫描。大脑扫描显示,一般智能较高的人比智能较低的人在多个区域拥有更多大脑组织。 然而,这个“越大越好”结论是大脑发展的产物。研究评估了7到19岁儿童智商与皮质厚度的关系。对于年幼儿童,智商和皮质厚度呈负相关(智商最高的儿童皮质厚度可能最低)。但在青春期期间,相关性逆转,智商较高儿童最终皮质更厚。
关于大脑功能的基本结论是,更聪明的人执行认知任务时更高效地使用大脑资源。特别是,他们可能在前额皮质活动较少的情况下表现更好。
研究证明前额皮质在解决空间类比时的重要性。研究人员将参与者分为流体智能高组和平均组。流体智能平均的参与者任务准确性较低。功能性磁共振成像扫描显示,流体智能平均的人随问题难度增加显示前额活动增加,而流体智能高的人没有显示类似增加。
这种模式支持结论:高流体智能的人更高效使用前额皮质,用较少活动获得更好结果。 当任务特别困难时,出现例外。这种情况下,更聪明的人往往投入更多大脑资源,而不太聪明的人往往放弃任务。 当代研究开始解释智能差异的大脑基础。这些发现不仅增进对智能的科学理解,也提醒每个人的大脑都有独特的工作方式和潜力。
智能评估领域既有巨大潜力,也面临重大挑战。智能评估可以帮助我们更好理解人类认知能力的丰富性和多样性,为教育和职业发展提供科学依据。
同时,必须谨慎对待评估结果的解释和应用。重要原则包括:
在快速变化的时代,我们对智能的理解不断深化。未来的智能评估将更加全面、公平和有用,真正服务于人类发展需要。作为社会成员,我们都有责任确保智能评估的科学性、公正性和建设性,让它成为促进人类潜能充分发挥的有力工具。