在数据分析中,了解数据的分布特征是非常重要的。数据的分布告诉我们数据是如何分散的,是否存在异常值,是否符合某种理论分布等。分布类图表专门用于展示数据的分布特征,帮助我们理解数据的本质。

直方图(Histogram)是最常用的分布类图表之一。它通过将数据分成若干个区间(称为"箱"或"bin"),统计每个区间内数据的频数,然后用柱状图来展示。直方图可以直观地展示数据的分布形状,帮助我们了解数据的中心趋势、离散程度、偏度等特征。
直方图的核心是将连续数据离散化。我们将数据的取值范围分成若干个等宽的区间,然后统计每个区间内有多少个数据点。每个区间用一个柱子来表示,柱子的高度表示该区间内数据的频数(或频率)。
区间宽度的选择对直方图的形状有很大影响。如果区间太宽,会丢失细节,分布的形状不够清晰。如果区间太窄,会产生很多噪声,分布的形状也不够清晰。通常,我们可以使用一些经验公式来选择区间宽度,如Sturges公式、Scott公式、Freedman-Diaconis公式等。
直方图适合以下场景:数据是连续的,需要了解数据的分布形状,需要识别异常值,需要判断数据是否符合某种理论分布。
比如,在分析学生成绩时,我们可以用直方图来展示成绩的分布,看看成绩是正态分布还是偏态分布,是否存在异常的低分或高分。在分析产品质量时,我们可以用直方图来展示产品尺寸的分布,看看是否符合规格要求。
下面是一个直方图的示例,展示了某班级学生数学成绩的分布:
从图中可以清楚地看到,成绩分布大致呈正态分布,大部分学生的成绩集中在70-90分之间,两端的学生较少。这种分布形状是教育数据中常见的。
在解读直方图时,我们需要注意以下几个方面:
直方图和柱状图在视觉上很相似,但它们在本质上是不同的。柱状图用于比较不同类别的数值,类别之间是独立的,没有顺序关系。直方图用于展示连续数据的分布,区间之间是连续的,有顺序关系。
在柱状图中,柱子之间通常有间隙,表示类别之间的独立性。在直方图中,柱子之间通常没有间隙,或者间隙很小,表示数据的连续性。
箱线图(Box Plot),也称为盒须图(Box-and-Whisker Plot),是一种用于展示数据分布和识别异常值的图表。 箱线图用简洁的方式展示了数据的五个关键统计量:最小值、第一四分位数(Q1)、中位数(Q2)、第三四分位数(Q3)、最大值。
箱线图由一个箱子和两条须线组成。箱子的下边界是第一四分位数(Q1),上边界是第三四分位数(Q3),箱子中间有一条线表示中位数(Q2)。箱子的高度是四分位距(IQR = Q3 - Q1),表示数据的离散程度。
须线从箱子的上下边界延伸出去,通常延伸到1.5倍IQR的范围。如果数据点超出这个范围,会被标记为异常值(Outlier),用点来表示。
箱线图适合以下场景:需要比较多个组的分布,需要识别异常值,需要了解数据的离散程度,数据量较大。
比如,在比较不同班级的成绩分布时,我们可以用箱线图来展示每个班级的成绩分布,比较它们的中位数、四分位距、异常值等。在分析产品质量时,我们可以用箱线图来比较不同生产线的产品尺寸分布。
箱线图的优势在于,它能够在有限的空间内展示丰富的信息,特别适合比较多个组的分布。箱线图的局限性在于,它不展示分布的详细形状,只展示关键的统计量。
在解读箱线图时,我们需要注意以下几个方面:
下面是一个箱线图的示例,展示了三个班级数学成绩的分布对比:
从图中可以清楚地看到,班级A的成绩中位数最高,但离散程度也最大,有较多的异常值。班级B的成绩中位数居中,离散程度适中。班级C的成绩中位数最低,但离散程度最小,数据比较集中。
当我们需要比较多个组的分布时,可以使用分组箱线图。分组箱线图将多个箱线图并排显示,让我们能够直观地比较不同组的分布特征。
分组箱线图适合以下场景:需要比较多个组的分布,组的数量不太多(通常不超过10个),需要识别组间的差异。
小提琴图(Violin Plot)是箱线图和密度图的结合。它既展示了数据的统计量(如中位数、四分位数),又展示了数据的分布密度。小提琴图的形状像小提琴,因此得名。
小提琴图由两部分组成:中间的箱线图部分和两侧的密度图部分。中间的箱线图展示了数据的统计量,两侧的密度图展示了数据的分布密度。密度图是通过核密度估计(Kernel Density Estimation)生成的,展示了数据在不同值上的密度。
小提琴图的宽度表示该值附近数据的密度。宽度越大,表示该值附近的数据越多。宽度越小,表示该值附近的数据越少。
小提琴图适合以下场景:需要同时了解统计量和分布形状,需要比较多个组的分布,数据量较大。
小提琴图的优势在于,它结合了箱线图和密度图的优点,既展示了统计量,又展示了分布形状。小提琴图的局限性在于,当数据量较小时,密度估计可能不够准确,小提琴的形状可能不够平滑。
在解读小提琴图时,我们需要注意以下几个方面:
下面是一个小提琴图的示例,展示了三个班级数学成绩的分布:
从图中可以清楚地看到,班级A的成绩分布是双峰的,可能表示学生分为两个群体。班级B的成绩分布大致对称,呈正态分布。班级C的成绩分布是左偏的,大部分学生的成绩较低。
散点图(Scatter Plot)使用点来表示两个变量的关系。每个点代表一个观测值,点的横坐标表示一个变量的值,点的纵坐标表示另一个变量的值。散点图可以直观地展示两个变量之间的关系,如正相关、负相关、非线性关系等。
散点图的核心是将两个变量的值映射到二维平面上。如果两个变量之间存在关系,点会呈现出某种模式。如果两个变量之间没有关系,点会随机分布。
散点图可以展示多种关系类型:正相关(一个变量增加,另一个变量也增加)、负相关(一个变量增加,另一个变量减少)、非线性关系(关系不是线性的)、无关系(点随机分布)。
散点图适合以下场景:需要探索两个变量之间的关系,数据是数值型的,数据量不太大(通常不超过1000个点)。
比如,在分析身高和体重的关系时,我们可以用散点图来展示它们之间的关系,看看是否存在线性关系。在分析广告投入和销售额的关系时,我们可以用散点图来探索它们之间的关系,看看是否存在相关性。
下面是一个散点图的示例,展示了身高和体重的关系:
从图中可以清楚地看到,身高和体重之间存在正相关关系,身高越高,体重越重。点的分布大致呈线性,但存在一定的离散性。
在解读散点图时,我们需要注意以下几个方面:
当我们需要比较不同组的关系时,可以使用分组散点图。分组散点图使用不同的颜色或形状来区分不同的组,让我们能够同时比较多个组的关系。
分组散点图适合以下场景:需要比较多个组的关系,组的数量不太多(通常不超过5个),需要识别组间的差异。
密度图(Density Plot)通过估计数据的概率密度函数来展示数据的分布。密度图类似于直方图,但它是连续的、平滑的,更适合展示分布的详细形状。
密度图使用核密度估计(Kernel Density Estimation, KDE)来估计数据的概率密度函数。核密度估计是一种非参数方法,它不需要假设数据符合某种理论分布,而是直接从数据中估计密度函数。
核密度估计的基本思想是:在每个数据点周围放置一个核函数(通常是高斯函数),然后将所有核函数叠加起来,得到密度估计。核函数的带宽(bandwidth)决定了估计的平滑程度。带宽越大,估计越平滑,但可能丢失细节。带宽越小,估计越详细,但可能产生噪声。
密度图适合以下场景:需要展示分布的详细形状,需要比较多个组的分布,数据是连续的。
密度图的优势在于,它是连续的、平滑的,能够清晰地展示分布的详细形状,包括多峰、偏态等特征。密度图的局限性在于,它依赖于核密度估计的参数选择,不同的参数可能产生不同的结果。
在解读密度图时,我们需要注意以下几个方面:
下面是一个密度图的示例,展示了三个班级数学成绩的分布密度:
从图中可以清楚地看到,班级A的成绩分布是双峰的,可能表示学生分为两个群体。班级B的成绩分布大致对称,呈正态分布。班级C的成绩分布是左偏的,大部分学生的成绩较低。
当我们需要比较多个组的分布时,可以使用分组密度图。分组密度图将多个密度曲线叠加显示,让我们能够直观地比较不同组的分布特征。
分组密度图适合以下场景:需要比较多个组的分布,组的数量不太多(通常不超过5个),需要识别组间的差异。
分布类图表是数据可视化中的重要工具,它们帮助我们理解数据的本质特征。掌握直方图、箱线图、小提琴图、散点图、密度图等图表的特点和使用场景,能够帮助我们更好地分析数据,发现数据中的规律和异常。
在接下来的学习中,我们将学习关系类图表,了解如何展示变量之间的复杂关系。