数据可视化不是简单的“画图”,而是一门建立在多个学科理论基础上的综合性学科。要创作出优秀的可视化作品,我们需要深入理解支撑数据可视化的理论基础。这些理论帮助我们理解人类如何感知视觉信息,如何从图形中提取信息,以及如何设计出更有效的可视化。

我们的视觉系统经过数百万年的进化,已经发展出了一套高效的信息处理机制。了解这套机制,可以帮助我们更好地利用视觉通道来传递信息。
人眼是一个复杂的光学系统。光线通过角膜和晶状体的折射,在视网膜上形成倒立的图像。视网膜上有两种感光细胞:视杆细胞和视锥细胞。视杆细胞对光线非常敏感,主要负责在暗光环境下的视觉,但不能分辨颜色。视锥细胞对颜色敏感,主要负责在明亮环境下的视觉和颜色识别。
人类有三种类型的视锥细胞,分别对红、绿、蓝三种波长的光最敏感。这三种颜色的组合,让我们能够感知到数百万种不同的颜色。这种三色视觉系统,为我们在数据可视化中使用颜色编码提供了生理基础。
视觉信息从眼睛传递到大脑,需要经过多个处理阶段。首先,视网膜上的感光细胞将光信号转换为神经信号。这些信号经过视神经传递到大脑的视觉皮层。在视觉皮层中,不同的区域负责处理不同类型的视觉信息,如形状、颜色、运动、深度等。
视觉皮层的信息处理是分层次的。初级视觉皮层主要处理基本的视觉特征,如边缘、方向、颜色等。高级视觉皮层则将这些基本特征组合起来,识别出更复杂的模式,如物体、面孔、场景等。这种层次化的处理方式,使得我们能够快速识别和理解复杂的视觉信息。
人类的视觉系统有一个重要的特点:我们无法同时关注视野中的所有信息。视觉注意机制帮助我们选择性地关注某些信息,忽略其他信息。这种机制在数据可视化中非常重要,因为我们可以通过设计来引导观众的注意力,让他们关注到最重要的信息。
视觉注意可以分为两种类型:自下而上的注意和自上而下的注意。自下而上的注意是由刺激本身的特征驱动的,比如鲜艳的颜色、大的尺寸、突然的运动等,这些特征会自动吸引我们的注意力。自上而下的注意是由我们的目标和意图驱动的,比如当我们寻找某个特定的信息时,会主动地将注意力集中在相关的区域。
在数据可视化设计中,我们可以利用这两种注意机制。通过使用醒目的颜色、加粗的字体、动画效果等,可以引导观众关注到关键信息。同时,通过合理的布局和层次结构,可以帮助观众按照我们设计的路径来浏览信息。
场景:在销售仪表板中,需要突出显示最重要的指标。
设计步骤:
效果:观众会首先注意到总销售额,然后才关注其他指标。
场景:在报告中,需要引导观众按照特定顺序阅读。
设计步骤:
效果:观众会自然地按照设计的路径浏览信息。
场景:在交互式仪表板中,需要吸引用户注意重要变化。
设计步骤:
效果:用户会立即注意到重要的变化和异常。
格式塔心理学(Gestalt Psychology)是20世纪初在德国兴起的一个心理学流派。格式塔心理学认为,人类感知不是简单地接收和处理单个刺激,而是将多个刺激组织成有意义的整体。

接近性原则(Principle of Proximity)指出,在空间上接近的元素会被感知为一个整体。在数据可视化中,我们可以利用这个原则来组织相关的信息。比如,在分组柱状图中,同一组的不同柱子应该靠得更近,不同组之间应该有更明显的间距。这样,观众可以更容易地识别出哪些数据属于同一组。
在表格设计中,相关的行或列应该靠得更近。在仪表板设计中,相关的指标应该放在一起。这种空间上的组织,可以帮助观众更快地理解信息的结构。
相似性原则(Principle of Similarity)指出,具有相似特征的元素会被感知为一个整体。这些特征包括颜色、形状、大小、方向等。在数据可视化中,我们可以通过使用相同的颜色、形状等来表示相同类型的数据。
比如,在折线图中,我们可以用相同的颜色来表示同一系列的数据点。在散点图中,我们可以用相同的形状来表示同一类别的数据。这种视觉上的一致性,可以帮助观众快速识别和比较相关的数据。
连续性原则(Principle of Continuity)指出,我们倾向于将连续的元素感知为一个整体。在数据可视化中,连续的线条、曲线等会被自然地感知为一个整体。这就是为什么折线图能够有效地展示趋势,因为我们的视觉系统会自动将点连接成线,形成连续的感知。
在设计中,我们可以利用连续性原则来引导观众的视线。比如,在流程图或时间线中,连续的线条可以引导观众按照特定的顺序浏览信息。
封闭性原则(Principle of Closure)指出,我们倾向于将不完整的图形补充完整,感知为一个完整的形状。这个原则在图标设计、符号设计等方面特别有用。即使一个图形是不完整的,只要它足够接近一个熟悉的形状,我们的大脑就会自动补充缺失的部分。
在数据可视化中,我们可以利用这个原则来简化设计。比如,我们可以用简单的线条轮廓来表示复杂的形状,观众会自动补充完整的图像。
图形-背景原则(Figure-Ground Principle)指出,我们倾向于将视觉场景分为图形(前景)和背景两部分。图形是我们关注的主要对象,背景是次要的、衬托性的。在数据可视化中,我们需要明确什么是图形,什么是背景。
数据本身应该是图形,应该突出显示。坐标轴、网格线、标签等辅助元素应该是背景,应该相对弱化。如果背景过于突出,会干扰对主要数据的感知。这就是为什么在专业的数据可视化中,网格线通常使用浅色,坐标轴使用细线,而数据使用醒目的颜色和粗线。
共同命运原则(Principle of Common Fate)指出,朝同一方向运动的元素会被感知为一个整体。这个原则在动态可视化中特别重要。在动画或交互式可视化中,同时运动的元素会被自然地感知为相关的。
比如,在展示数据变化过程的动画中,同时变化的数据点会被感知为一个整体。在交互式可视化中,同时响应用户操作的元素也会被感知为相关的。
目标:创建一个展示不同产品在不同地区销售额的仪表板。
应用格式塔原理的设计步骤:
步骤1:应用接近性原则
步骤2:应用相似性原则
步骤3:应用连续性原则
步骤4:应用图形-背景原则
步骤5:应用共同命运原则
最终效果:观众能够快速理解产品与地区的关系,识别关键模式。
颜色是数据可视化中最常用的视觉通道之一。从上面的案例中,我们看到了颜色在吸引注意力、区分数据、表达情感等方面的重要作用。下面我们将深入探讨颜色理论,帮助你设计出既美观又有效的可视化。

色彩空间是描述颜色的数学模型。不同的色彩空间有不同的用途和特点。在数据可视化中,我们最常用的是RGB色彩空间和HSL色彩空间。
RGB色彩空间基于红(Red)、绿(Green)、蓝(Blue)三种原色的组合。这是计算机显示和数字图像处理中最常用的色彩空间。RGB色彩空间的优点是直观,容易理解,但缺点是对于人类感知来说不够直观。在RGB色彩空间中,两个颜色在数值上接近,并不意味着它们在视觉上接近。
HSL色彩空间基于色相(Hue)、饱和度(Saturation)、亮度(Lightness)三个维度。这个色彩空间更符合人类对颜色的感知。色相决定了颜色的种类(红、橙、黄、绿、蓝、紫等),饱和度决定了颜色的鲜艳程度,亮度决定了颜色的明暗程度。
在数据可视化中,选择不同的色彩空间会产生不同的效果。如果我们要表示有序的数据(如温度、高度等),应该使用HSL色彩空间,通过调整亮度或色相来创建有序的颜色序列。如果我们要表示分类的数据,可以使用RGB色彩空间,选择在视觉上差异明显的颜色。
颜色对比度是指两个颜色在视觉上的差异程度。足够的对比度对于可读性至关重要。如果文字颜色和背景颜色的对比度不够,文字就会难以阅读。
对比度可以用数值来表示。Web内容无障碍指南(WCAG)建议,正常文字与背景的对比度至少应该达到4.5:1,大号文字至少应该达到3:1。在数据可视化中,我们也应该遵循这些标准,确保图表中的文字、数据点等元素与背景有足够的对比度。
对比度不仅影响可读性,还影响信息的传达。如果两个数据系列的颜色对比度不够,观众就难以区分它们。在设计中,我们应该确保不同数据系列之间有足够的颜色对比度。
色盲(Color Blindness)是一种常见的视觉缺陷,大约8%的男性和0.5%的女性患有某种形式的色盲。最常见的色盲类型是红绿色盲,患者难以区分红色和绿色。在数据可视化中,如果我们只使用红色和绿色来区分数据,色盲用户就无法正确理解图表。
色盲友好设计有几种策略。第一种是避免使用红绿组合。可以使用其他颜色组合,如蓝橙、紫黄等。第二种是不仅使用颜色,还使用其他视觉特征来区分数据,如形状、纹理、标签等。第三种是使用专门为色盲设计的颜色方案,如ColorBrewer提供的色盲友好调色板。
在设计中,我们应该始终考虑色盲用户的需求。这不仅是一个可访问性问题,也是一个设计质量问题。一个真正优秀的可视化作品,应该能够让所有用户都能正确理解。
下面是我们提供的一个颜色选择工具:
顺序色方案(Sequential):适合有序数据
发散色方案(Diverging):适合有正负值的数据
分类色方案(Qualitative):适合分类数据
实践1:避免红绿组合
实践2:使用多种视觉特征
不仅使用颜色,还结合:

位置是最精确的视觉通道。人类视觉系统对位置的感知非常准确,我们能够精确地比较两个元素的位置关系。在数据可视化中,位置编码是最常用的编码方式之一。
在散点图中,我们使用位置来编码两个数值变量。在柱状图中,我们使用位置来编码分类变量,使用高度来编码数值变量。在折线图中,我们使用位置来编码时间和数值的关系。
位置编码的优势在于精确性和直观性。观众可以准确地读取数值,也可以直观地比较不同数据的大小关系。位置编码的局限性在于,它只能同时编码有限数量的维度。在二维平面上,我们最多只能同时编码两个位置维度。
长度是另一个精确的视觉通道。我们能够准确地比较两个元素的长度。在柱状图和条形图中,我们使用长度来编码数值。长度编码的优势在于直观性和精确性,观众可以很容易地比较不同数据的大小。
长度编码需要注意方向。水平长度和垂直长度的感知略有不同。一般来说,垂直长度(高度)在比较时更容易,因为我们可以直接比较顶部的位置。水平长度(宽度)在比较时相对困难一些,因为我们需要比较右端的位置。
角度编码主要用于饼图和环形图。我们使用角度的大小来编码数值的比例。角度编码的优势在于能够直观地展示部分与整体的关系。观众可以很容易地看出哪个部分最大,哪个部分最小。
角度编码的局限性在于,人类对角度的感知不如对长度和位置的感知准确。特别是当角度接近时,我们很难准确地区分它们。因此,当需要精确比较数值时,应该优先使用长度编码而不是角度编码。

面积编码使用图形的大小来编码数值。在气泡图中,我们使用圆的大小来编码第三个维度。面积编码的优势在于能够同时编码多个维度,在同一个图表中展示更多的信息。
面积编码的局限性在于,人类对面积的感知不如对长度的感知准确。特别是当面积差异较大时,我们往往会低估大面积的相对大小。比如,一个面积是另一个面积两倍的圆,在视觉上可能看起来只大了一点点。这是因为面积是长度的平方,所以面积翻倍只需要长度增加约41%。
颜色编码是数据可视化中最常用的编码方式之一。颜色可以编码多种类型的信息:分类信息、有序信息、数值信息等。
对于分类数据,我们使用不同的色相来区分不同的类别。对于有序数据,我们使用亮度的变化或色相的变化来创建有序的颜色序列。对于数值数据,我们使用连续的颜色渐变来编码数值的大小。
颜色编码的优势在于能够同时编码多个维度,而且颜色具有很强的视觉吸引力。颜色编码的局限性在于,颜色的选择需要谨慎,需要考虑对比度、色盲友好性等因素。
形状编码使用不同的形状来区分不同的类别。在散点图中,我们可以使用不同的形状来编码分类变量。形状编码的优势在于,它不依赖于颜色,可以与颜色编码结合使用,创建更丰富的视觉区分。
形状编码的局限性在于,形状的种类有限,而且有些形状在视觉上过于相似,难以区分。在选择形状时,应该选择在视觉上差异明显的形状,如圆形、方形、三角形等。
在选择视觉通道时,我们需要考虑数据的类型、精度要求、编码效率等因素。一般来说,对于需要精确比较的数值数据,应该优先使用位置和长度编码。对于分类数据,可以使用颜色和形状编码。对于需要展示多个维度的数据,可以组合使用多个视觉通道。
视觉通道有不同的精度等级。位置和长度是最精确的,适合编码需要精确比较的数据。角度和面积是中等精度的,适合编码需要大致比较的数据。颜色和形状的精度相对较低,适合编码分类数据或作为辅助编码。
在实际设计中,我们可以按照以下流程来选择视觉编码:
问题:数据是什么类型?
问题:需要多精确的比较?
问题:需要编码几个维度?
数据:产品、销售额、利润、地区
编码方案:
可视化类型:分组柱状图,颜色表示产品,形状表示地区,高度表示销售额,颜色深度表示利润。
数据:时间、销售额、产品类别
编码方案:
可视化类型:多线图,X轴时间,Y轴销售额,不同颜色的线表示不同产品。
数据:GDP、人均收入、人口、国家
编码方案:
可视化类型:气泡图,位置编码GDP和人均收入,大小编码人口,颜色编码国家。
在数据可视化中,不同的信息具有不同的重要性。我们需要通过视觉设计来建立清晰的层次结构,让观众能够按照重要性顺序来浏览信息。
信息层次是指信息在重要性上的分层。在数据可视化中,主要数据是最重要的,应该最突出。辅助信息如坐标轴、标签、图例等是次要的,应该相对弱化。背景信息如网格线、背景色等是最不重要的,应该最弱化。
建立清晰的信息层次,可以帮助观众快速找到最重要的信息,避免被次要信息干扰。如果所有信息都同样突出,观众就会感到困惑,不知道应该关注什么。

视觉层次可以通过多种方式来建立。最常用的方法包括:大小、颜色、位置、对比度等。
大小是建立层次最直接的方法。重要的信息应该更大,次要的信息应该更小。在图表中,主要数据应该使用较大的标记、较粗的线条,辅助元素应该使用较小的字体、较细的线条。
颜色也是建立层次的有效方法。重要的信息应该使用醒目的颜色,次要的信息应该使用相对柔和的颜色。在图表中,数据应该使用饱和度高、对比度强的颜色,背景应该使用饱和度低、对比度弱的颜色。
位置也可以用来建立层次。重要的信息应该放在视觉中心或上方,次要的信息应该放在边缘或下方。在仪表板设计中,最重要的指标应该放在左上角,因为这是观众首先看到的位置。
对比度是建立层次的另一个重要方法。重要的信息应该与背景有强烈的对比,次要的信息应该与背景有较弱的对比。通过调整对比度,我们可以控制信息的突出程度。
在建立视觉层次时,要避免过度设计。过多的视觉强调会让设计变得混乱,反而影响信息的传达。简洁明了的设计往往更有效。
认知负荷理论(Cognitive Load Theory)是教育心理学中的一个重要理论,它也可以应用到数据可视化设计中。认知负荷是指人在处理信息时大脑需要消耗的认知资源。
认知负荷可以分为三种类型:内在认知负荷、外在认知负荷和有效认知负荷。内在认知负荷是由学习材料本身的复杂性决定的,是不可避免的。外在认知负荷是由不当的教学设计引起的,是可以避免的。有效认知负荷是指用于理解和学习新知识的认知资源。
在数据可视化中,我们也需要考虑这些认知负荷。数据本身的复杂性决定了内在认知负荷,这是不可避免的。但我们可以通过好的设计来减少外在认知负荷,增加有效认知负荷。
外在认知负荷是由不当的设计引起的。在数据可视化中,常见的外在认知负荷来源包括:混乱的布局、不一致的设计、不必要的装饰、难以理解的符号等。
为了减少外在认知负荷,我们应该:保持设计的一致性,使用清晰的布局,去除不必要的装饰,使用直观的符号和标签。一个简洁、清晰、一致的设计,可以让观众将更多的认知资源用于理解数据本身,而不是理解设计。
有效认知负荷是指用于理解和学习新知识的认知资源。在数据可视化中,我们可以通过好的设计来引导观众进行深度的思考和分析。
比如,通过合理的交互设计,可以让观众主动探索数据,发现数据中的规律。通过适当的标注和说明,可以帮助观众理解数据的含义和背景。通过故事化的叙述,可以引导观众按照逻辑顺序来理解数据。
问题:仪表板信息过多,用户难以理解。
应用认知负荷理论的设计步骤:
步骤1:减少外在认知负荷
步骤2:优化信息组织
步骤3:增加有效认知负荷
效果:用户能够更快理解仪表板,减少认知负担。
数据可视化的理论基础涉及多个学科,包括视觉感知、认知心理学、色彩理论等。理解这些理论基础,可以帮助我们设计出更有效、更美观、更易理解的可视化作品。 在实际设计中,我们需要综合考虑这些理论,根据具体的数据和场景,选择最合适的设计方案。理论是指导,实践是检验。只有通过大量的实践,我们才能真正掌握这些理论,创作出优秀的可视化作品。
在接下来的课程中,我们将学习如何将这些理论应用到实际的可视化设计中,学习不同类型的数据应该使用什么样的可视化方法,学习如何使用各种工具来创建可视化作品。
根据以上分析,选择最合适的编码方式。