10 / 10

数据可视化 | 自在学

数据可视化

在数据科学和分析领域，原始的数字往往难以直接传达其中蕴含的信息和规律。数据可视化就像是一座桥梁，将抽象的数据转化为直观的图形表现，让我们能够快速洞察数据的趋势、模式和异常。在这一部分，我们将学习如何使用Python强大的可视化工具，将枯燥的数字变成生动的图表，让数据真正“说话”。

数据可视化

数据可视化的基本理念

数据可视化不仅仅是制作漂亮的图表，更是一门将信息有效传达给观众的艺术与科学。当我们面对大量的数据时，人类的大脑更擅长处理视觉信息而非数字列表。一个精心设计的图表能够在几秒钟内传达出需要阅读大量文字才能理解的信息。

在现代社会中，数据可视化的应用无处不在。新闻媒体使用图表来解释复杂的社会现象，企业通过仪表板监控业务指标，科研工作者用图形展示实验结果，教育工作者通过可视化让抽象概念变得具体。无论是简单的柱状图还是复杂的热力图，每种图表类型都有其独特的表达方式和适用场景。

Python生态系统为数据可视化提供了丰富的工具选择。其中，matplotlib作为最基础也是最灵活的可视化库，为我们提供了完整的绘图功能；seaborn在matplotlib的基础上，提供了更加优雅的统计图表接口；而plotly等库则专注于交互式可视化。掌握这些工具，能够让我们针对不同的数据类型和展示需求，选择最合适的可视化方案。

matplotlib基础架构

matplotlib是Python数据可视化生态系统的基石，几乎所有其他可视化库都建立在它的基础之上。理解matplotlib的基本架构和使用方式，是掌握Python数据可视化的关键第一步。

matplotlib的导入和基本设置

在开始创建图表之前，我们需要正确导入matplotlib并进行一些基础配置。matplotlib的pyplot模块提供了类似MATLAB的绘图接口，是最常用的绘图入口。

|
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
 
# 设置图表风格
plt.style.use('default')  # 也可以选择 'seaborn', 'ggplot' 等风格
 
# 设置中文字体支持
plt.rcParams['font.sans-serif'] = ['SimHei', 'Arial Unicode MS', 'DejaVu Sans']
plt.rcParams['axes.unicode_minus'] = False  # 解决负号显示问题
 
# 生成一些示例数据
np.random.seed(42)  # 确保结果可重复
dates = pd.date_range('2024-01-01', periods=30, freq='D')
temperatures = 15 + 10 * np.sin(np.arange(30) * 2 * np.pi / 30) + np.random.normal(0, 2, 30)
 
print("matplotlib环境配置完成")
print(f"示例数据：30天的温度记录")
print(f"温度范围：{temperatures.min():.1f}°C 到 {temperatures.max():.1f}°C")

在这个基础配置中，我们不仅导入了必要的库，还解决了中文显示问题。中文字体的设置对于创建面向中文用户的图表至关重要，因为matplotlib默认不支持中文字符。通过设置字体参数，我们确保了图表中的中文标题、标签和说明都能正确显示。

图表的基本结构理解

matplotlib的图表由多个层次的组件构成，理解这种层次结构有助于我们更好地控制图表的各个方面。最顶层是Figure，相当于整个画布；在Figure中可以包含一个或多个Axes，每个Axes就是一个具体的绘图区域；在Axes中，我们可以添加各种图形元素，如线条、文字、图例等。

|
# 创建一个基本的图表来理解matplotlib的结构
fig, ax = plt.subplots(figsize=(10, 6))
 
# 绘制温度变化曲线
line = ax.plot(dates, temperatures, linewidth=2, color='steelblue', label='日平均温度')
 
# 添加图表标题和轴标签
ax.set_title('2024年1月份气温变化趋势', fontsize=16, fontweight='bold', pad

这个例子展示了matplotlib图表的基本组成要素。Figure对象管理整个图表的大小和布局， Axes对象负责具体的绘图操作和坐标系管理。通过分别设置标题、坐标轴标签、网格和图例，我们创建了一个信息完整、外观专业的图表。

图表的保存和输出

创建图表后，我们通常需要将其保存为文件或在不同的环境中显示。matplotlib提供了灵活的输出选项，支持多种图片格式和显示方式。

|
# 创建一个更复杂的图表用于保存演示
fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(12, 8))
 
# 上图：温度趋势
ax1.plot(dates, temperatures, 'o-', linewidth=2, markersize=4, 
         color='crimson', alpha=0.8, label='实际温度')
 
# 添加趋势线

图表的保存功能让我们能够将可视化结果用于报告、演示或网页展示。不同的文件格式有其特定的用途： PNG格式支持透明背景，适合网页使用；PDF格式是矢量图，可以无损缩放，适合印刷； SVG格式也是矢量图，适合网页中的交互应用。

Matplotlib 架构可视化模拟器

基础图表类型

不同的数据类型和分析目的需要使用不同的图表类型。掌握各种基础图表的特点和适用场景，是进行有效数据可视化的前提。每种图表类型都有其独特的信息传达方式和视觉效果。

基础图表类型

折线图的深度应用

折线图是展示数据随时间或其他连续变量变化趋势的最佳选择。它不仅能显示数据的整体走势，还能突出变化的速度和波动性。在金融分析、科学研究、业务监控等领域，折线图都是不可或缺的工具。

|
# 创建多条线的折线图，展示不同城市的气温对比
np.random.seed(42)
days = np.arange(1, 31)
 
# 模拟三个城市的温度数据
beijing_temp = 5 + 8 * np.sin(days * 2 * np.pi / 30) + np.random.normal(0, 1.5, 30)
shanghai_temp = 12 + 6 * np.sin(days

这个例子展示了折线图的高级用法。通过使用不同的标记样式和颜色，我们可以在同一个图表中比较多个数据系列。添加平均线有助于观众理解数据的整体水平，而网格的使用让数值读取更加精确。

柱状图的多样化表现

柱状图是比较不同类别数据的理想选择。它能够清晰地展示各个类别之间的差异，并且支持多种样式来适应不同的展示需求。无论是简单的类别比较还是复杂的分组数据，柱状图都能提供直观的视觉表现。

|
# 创建一个展示学生成绩分布的柱状图
subjects = ['语文', '数学', '英语', '物理', '化学', '生物']
class_a_scores = [85, 92, 78, 88, 91, 86]
class_b_scores = [82, 89, 85, 84, 87,

这个柱状图例子展示了如何处理分组数据的可视化。通过并列放置不同组的柱子，我们可以轻松比较各组在不同类别上的表现。数值标签的添加让观众能够获得精确的数值信息，而参考线的使用有助于理解数据相对于整体水平的位置。

散点图的关系分析

散点图是探索两个变量之间关系的强大工具。它不仅能显示变量间的相关性，还能帮助我们识别异常值、聚类模式和非线性关系。在数据分析的初步探索阶段，散点图往往是第一选择。

|
# 创建一个分析学习时间与考试成绩关系的散点图
np.random.seed(42)
n_students = 120
 
# 生成学习时间数据（小时/天）
study_hours = np.random.normal(4, 1.5, n_students)
study_hours = np.clip(study_hours, 1, 8)  # 限制在合理范围内
 
# 生成考试成绩，与学习时间相关但有噪声
base_score = 40 + study_hours * 8
noise = np.random.normal(0, 8, n_students)

散点图的这个例子展示了如何通过可视化探索变量间的关系。通过使用不同颜色表示不同的分类，添加趋势线显示整体关系，标识异常值突出特殊情况，我们创建了一个信息丰富的分析图表。统计信息文本框的添加让观众能够快速获得关键的数值指标。

饼图的有效使用

饼图适合展示部分与整体的关系，特别是当我们需要强调某个类别占总体的比例时。虽然饼图在某些情况下不如柱状图精确，但它在展示构成比例方面具有独特优势。

|
# 创建一个展示学校预算分配的饼图
budget_categories = ['教学设备', '师资培训', '基础设施', '学生活动', '图书采购', '其他费用']
budget_amounts = [380, 200, 150, 120, 100, 50]
total_budget = sum(budget_amounts)
 
# 计算百分比
percentages = [amount/total_budget

饼图的例子展示了如何有效地展示预算分配等比例数据。通过使用爆炸效果突出重点，添加阴影增强立体感，以及创建对比图表展示年度变化，我们创建了既美观又信息丰富的可视化。

Matplotlib 图表画廊

高级图表定制

掌握基础图表类型后，我们需要学习如何深度定制图表的外观和行为，以满足特定的展示需求和美学要求。高级定制不仅能提升图表的专业度，还能更好地传达数据背后的信息。

图表样式和主题

matplotlib提供了多种预设样式，同时也支持完全自定义的主题设计。选择合适的样式可以让图表在不同的使用场景中发挥最佳效果。

|
# 展示不同样式的效果对比
np.random.seed(42)
x = np.linspace(0, 10, 100)
y1 = np.sin(x) + 0.1 * np.random.randn(100)
y2 = np.cos(x) + 0.1 * np.random.randn(100)
 
# 可用的样式列表
available_styles = ['default', 'seaborn-v0_8', 'ggplot',

注释和标记的高级应用

在复杂的数据图表中，适当的注释和标记能够引导观众的注意力，突出关键信息，并提供必要的解释说明。

|
# 创建一个带有详细注释的股价分析图
np.random.seed(42)
dates = pd.date_range('2024-01-01', periods=120, freq='D')
 
# 模拟股价数据
price_start = 100
returns = np.random.normal(0.001, 0.02, 120)  # 日收益率
prices = [price_start]
for ret in returns:
    prices.append(prices[

多子图布局的艺术

当需要在一个图表中展示多个相关的数据视角时，合理的子图布局设计至关重要。好的布局不仅能有效利用空间，还能引导观众的阅读顺序和理解逻辑。

|
# 创建一个综合的数据分析仪表板
np.random.seed(42)
 
# 生成模拟数据
months = ['1月', '2月', '3月', '4月', '5月', '6月']
revenue = [120, 135, 150, 145, 170, 185]  # 营收
cost = [80, 85

这个复杂的多子图例子展示了如何将不同类型的图表组合在一起，创建一个信息丰富的业务仪表板。通过合理的布局设计和一致的视觉风格，我们能够在有限的空间内展示多个维度的数据分析结果。

统计图表与seaborn

虽然matplotlib提供了强大的底层绘图功能，但在进行统计分析和数据探索时， seaborn提供了更加便捷和美观的高级接口。seaborn专门为统计可视化而设计，能够自动处理许多复杂的统计计算和美化工作。

seaborn的优势与基础使用

seaborn建立在matplotlib之上，但提供了更高层次的抽象和更美观的默认样式。它特别擅长处理pandas DataFrame，并且内置了许多统计图表类型。

|
import seaborn as sns
import pandas as pd
 
# 设置seaborn样式
sns.set_style("whitegrid")
sns.set_palette("husl")
 
# 创建模拟的学生数据集
np.random.seed(42)
n_students = 200
 
# 生成学生数据
student_data = {
    'name': [f'学生{i:03d}' for i in

高级统计可视化

seaborn的真正威力在于其统计可视化功能。它能够自动计算和展示各种统计指标，帮助我们深入理解数据的分布特征和变量间的关系。

|
# 创建高级统计可视化分析
plt.figure(figsize=(20, 15))
 
# 使用subplot_mosaic创建复杂布局
mosaic = """
    AABBCC
    AABBCC
    DDDEEF
    DDDEEF
    GGHHII
"""
 
fig, axes = plt.subplot_mosaic(mosaic, figsize=(20, 15))
 
# A. 分布图与核密度估计
sns.histplot(data=df, x='total_score'

习题

下面哪个库是Python数据可视化的基础库？

下面哪个函数用于创建折线图？

散点图最适合用于什么场景？

下面哪个方法用于显示创建的图表？

下面哪种方式可以创建图表？

6. matplotlib基本绘图

编写一个程序，绘制正弦函数的折线图，并添加标题和坐标轴标签。

|
import matplotlib.pyplot as plt
import numpy as np
 
# 生成数据
x = np.linspace(0, 10, 100)
y = np.sin(x)
 
# 绘制折线图
plt.plot(x, y)
plt.title('正弦函数图')
plt.xlabel('x')
plt.ylabel('sin(x)')
plt.show()

说明：

np.linspace(0, 10, 100)生成0到10之间的100个等间距数值
np.sin(x)计算正弦值
plt.plot(x, y)绘制折线图
添加图表标题

7. 柱状图绘制

编写一个程序，绘制类别数据的柱状图。

|
import matplotlib.pyplot as plt
 
categories = ['A', 'B', 'C', 'D']
values = [23, 45, 56, 78]
 
# 绘制柱状图
plt.bar(categories, values)
plt.title('类别数据对比')
plt.xlabel('类别')
plt.ylabel('数值')
plt.show()

8. 散点图绘制

编写一个程序，绘制散点图展示两个变量之间的关系。

|
import matplotlib.pyplot as plt
import numpy as np
 
# 生成模拟数据
np.random.seed(42)
height = np.random.normal(170, 10, 100)  # 身高数据
weight = height * 0.5 + np.random.normal(0, 5, 100)  # 体重数据（与身高相关）
 
# 绘制散点图
plt.scatter(height, weight, alpha

plt.title()