2 / 12

数据探索

当我们面对一张陌生的数据表时，第一个问题往往是"这张表里到底有什么？"。数据探索（Data Exploration）就像是探险家在未知领域中的第一次探索，我们需要仔细观察、仔细分析，才能发现数据中隐藏的规律和价值。这一节课，我们将学习如何系统地探索数据，从单列的基本统计到多列之间的关系，从SQL查询到Excel可视化，逐步建立起对数据的全面理解。

数据探索

数据探索是数据分析的第一步，也是最重要的一步。在开始任何深入的分析之前，我们都需要先了解数据的基本情况。这就像是在做菜之前，我们需要先看看冰箱里有什么食材，了解它们的品质和特点，才能决定做什么菜、怎么做。

数据探索的目的不仅仅是了解数据的基本信息，更重要的是发现数据中的异常、识别数据质量问题、理解数据的分布特征，以及初步发现数据中可能存在的规律。这些发现将指导我们后续的分析方向，帮助我们避免在错误的方向上浪费时间。

数据探索不是一次性的工作，而是一个迭代的过程。随着我们对数据的理解不断深入，我们可能会发现新的问题，需要回到探索阶段重新审视数据。

在实际工作中，数据探索往往能够揭示一些意想不到的发现。比如，我们可能会发现某些字段中存在大量的缺失值，某些数值明显超出了合理范围，或者某些类别字段的分布极不均匀。这些发现虽然看起来像是"问题"，但实际上它们本身就是有价值的信息，能够帮助我们更好地理解业务现状。

从SQL开始：探索列的基本信息

在开始使用Excel进行可视化之前，我们先用SQL来获取数据的基本信息。SQL查询能够快速告诉我们数据的规模、结构以及基本的统计特征。

测试数据如下：

|
-- 创建订单表
CREATE TABLE 订单表 (
    订单ID SERIAL PRIMARY KEY,
    订单金额 DECIMAL(10, 2) NOT NULL,
    订单状态 VARCHAR

|
SELECT 
    COUNT(*) AS 订单数量,
    MIN(订单金额) AS 最小金额,
    MAX(订单金额) AS 最大金额,
    AVG(订单金额) AS 平均金额,
    SUM(订单金额) AS 总金额
FROM 订单表;

|
Output:
 
+--------------+--------------+--------------+--------------+-----------+
| 订单数量     | 最小金额     | 最大金额     | 平均金额     | 总金额    |
+--------------+--------------+--------------+--------------+-----------+
|          100 |        45.30 |      1234.90 |   402.341000 |  40234.10 |
+--------------+--------------+--------------+--------------+-----------+

|
SELECT 
    PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY 订单金额) AS 中位数,
    PERCENTILE_CONT(0.25) WITHIN GROUP (ORDER BY 订单金额) AS 第一四分位数,
    PERCENTILE_CONT(0.75) WITHIN GROUP (ORDER BY 订单金额) AS 第三四分位数
FROM

|
Output:
 
+--------------+--------+-----------+
| 订单状态     | 数量   | 百分比    |
+--------------+--------+-----------+
| 已完成       |     76 |     76.00 |
| 待处理       |     16 |     16.00 |
| 已取消       |      8 |      8.00 |
+--------------+--------+-----------+

|
SELECT 
    COUNT(*) AS 总记录数,
    SUM(CASE WHEN 邮箱 LIKE '%@%' THEN 1 ELSE 0 END) AS 有效邮箱数,
    SUM(CASE WHEN 邮箱 NOT LIKE '%@%' THEN 1 ELSE 0 END) AS 无效邮箱数
FROM 客户表;

|
SELECT 
    商品数量,
    COUNT(*) AS 订单数,
    AVG(订单金额) AS 平均金额,
    MIN(订单金额) AS 最小金额,
    MAX(订单金额) AS 最大金额
FROM 订单表
GROUP BY 商品数量
ORDER BY 商品数量;

|
SELECT 
    地区,
    产品类别,
    COUNT(*) AS 订单数,
    AVG(订单金额) AS 平均金额,
    SUM(订单金额) AS 总金额
FROM 订单表
GROUP BY 地区, 产品类别
ORDER BY 地区, 总金额 DESC;

|
SELECT 
    '订单金额' AS 列名,
    COUNT(*) AS 记录数,
    COUNT(DISTINCT 订单金额) AS 不同值数,
    MIN(订单金额) AS 最小值,
    MAX(订单金额) AS 最大值,
    AVG(订单金额) AS 平均值,
    SUM(CASE WHEN 订单金额 IS NULL THEN 1 ELSE 0 END

|
SELECT 
    '缺失值检查' AS 检查类型,
    SUM(CASE WHEN 订单金额 IS NULL THEN 1 ELSE 0 END) AS 订单金额缺失数,
    SUM(CASE WHEN 客户ID IS NULL THEN 1 ELSE 0 END) AS 客户ID缺失数,
    SUM(CASE WHEN 订单日期 IS NULL THEN

数据探索 | 自在学

数据探索

从SQL开始：探索列的基本信息

了解表的整体结构

探索数值列：基本统计量

使用分位数理解数据分布

探索类别列：频率统计

探索字符串列：发现隐藏的模式

检查字符串长度分布

查找重复和相似值

检查字符串格式

探索列之间的关系

数值列之间的相关性

类别列和数值列的关系

交叉分析：多维度探索

使用Excel进行数据可视化

准备数据：从SQL到Excel

创建基本图表：柱状图和折线图

使用散点图探索变量关系

Sparklines：单元格内的迷你图表

数据透视表：快速汇总和分析

从单列汇总到全表汇总

构建全面的数据概览

识别数据质量问题

构建数据探索报告

课程小结