1 / 12

数据挖掘者眼中的SQL | 自在学

数据挖掘者眼中的SQL

当我们站在数据挖掘的角度审视SQL时，会发现这门语言远不止是简单的数据查询工具。SQL（Structured Query Language，结构化查询语言）是我们与数据库对话的桥梁，也是我们从海量数据中挖掘价值的关键工具。那么这节课，我们将一起探索数据库、SQL与大数据之间的深层关系，学习如何用SQL进行高效的数据分析，并掌握那些能够让我们在数据分析道路上走得更远的高级技巧。

数据挖掘者眼中的SQL

在数据驱动的时代，我们每天都会产生海量的数据。从电商平台的每一次点击，到社交媒体的每一条动态，再到物联网设备的每一次传感器读数，这些数据都在不断地被收集、存储和分析。数据库作为这些数据的“家”，承担着存储和管理的重要职责。

SQL作为与数据库沟通的标准语言，它的价值在于能够让我们用相对简单的方式，从复杂的数据结构中提取出我们需要的信息。如果没有SQL，我们要从一张包含百万条记录的表中找出特定的数据，可能需要编写复杂的程序，遍历每一条记录。而有了SQL，我们只需要一行查询语句，就能精准地定位到我们想要的数据。

大数据时代的到来，并没有让SQL变得过时，反而让它的重要性更加凸显。虽然现在有了Hadoop、Spark等大数据处理框架，但SQL仍然是数据分析师最常用的工具之一。这是因为SQL的语法相对简单，学习曲线平缓，而且大多数数据分析任务都可以通过SQL来完成。更重要的是，SQL查询的结果可以轻松地导出到Excel等工具中，进行进一步的可视化和分析。

SQL不仅仅是一种查询语言，它更是一种思维方式。当我们用SQL思考问题时，我们实际上是在用集合论的方式处理数据，这种思维方式能够帮助我们更清晰地理解数据之间的关系。

数据结构的可视化

在开始深入学习SQL之前，我们需要先理解数据在数据库中是如何组织的。数据结构的可视化能够帮助我们更直观地理解数据之间的关系，这对于后续的数据分析至关重要。

数据库的层次结构

数据库就像一个大型的图书馆，而表（Table）就像是图书馆中的书架。每个书架（表）都有特定的主题，比如“用户信息”、“订单记录”、“商品目录”等。书架上的每一本书（行，Row）都记录着一条完整的信息，而书中的每一页（列，Column）则记录着信息的某个方面。

让我们用一个简单的例子来说明。假设我们有一个电商数据库，其中包含用户表、订单表和商品表。用户表记录了每个用户的基本信息，订单表记录了每一笔订单的详情，商品表记录了所有商品的信息。这三个表之间通过特定的字段（比如用户ID、订单ID、商品ID）建立联系，形成了一个完整的数据网络。

这种关系图帮助我们理解数据是如何相互关联的。当我们想要分析"某个用户购买了哪些商品"时，我们需要从用户表开始，通过用户ID找到订单表，再通过订单ID找到订单详情表，最后通过商品ID找到商品表。这个过程在SQL中可以通过JOIN操作来实现。

数据流的概念

在数据分析中，我们经常需要理解数据是如何流动的。数据流（Dataflow）描述了数据从源头到最终结果的转换过程。比如，原始的交易数据经过清洗和转换，变成了可以用于分析的干净数据，再经过聚合和计算，最终生成我们需要的报表。

理解数据流有助于我们设计更高效的SQL查询。当我们知道数据是如何组织的，以及我们需要经过哪些步骤才能得到最终结果时，我们就能写出更优化的查询语句。这不仅能够提高查询效率，还能让我们的代码更加清晰易懂。

SQL基本查询

SQL查询的核心是SELECT语句，它就像是我们向数据库提出的问题。让我们从最简单的查询开始，逐步深入到更复杂的场景。

最简单的查询

假设我们有一张名为"员工"的表，记录了公司所有员工的信息。如果我们想要查看所有员工的信息，我们可以这样写：


SELECT * FROM 员工;

这行代码虽然简单，但包含了SQL查询的基本结构。SELECT关键字告诉数据库我们要"选择"数据，*表示选择所有列，FROM关键字指定了我们要从哪张表中查询数据，员工是表名。

虽然使用SELECT *很方便，但在实际工作中，我们应该尽量避免使用它。明确指定需要的列名不仅能够提高查询效率，还能让代码更加清晰。

选择特定的列

在实际工作中，我们通常不需要查看所有列，只需要关注我们感兴趣的部分。比如，如果我们只想知道每个员工的姓名和工资，我们可以这样写：


SELECT 姓名, 工资 FROM 员工;

这里，我们明确指定了要查询的列名：姓名和工资。数据库只会返回这两列的数据。

添加条件：WHERE子句

很多时候，我们并不是要查看所有数据，而是要找出满足特定条件的记录。比如，我们想要找出工资高于5000元的员工，这时候就需要用到WHERE子句：


SELECT 姓名, 工资 
FROM 员工 
WHERE 工资 > 5000;

WHERE子句就像是一个筛选器，它只保留满足条件的行。在这个例子中，工资 > 5000就是筛选条件，只有工资大于5000的员工才会出现在结果中。

WHERE子句可以包含多个条件，我们可以使用AND、OR等逻辑运算符来组合条件。比如，如果我们想要找出工资在5000到10000之间的员工，可以这样写：


SELECT 姓名, 工资 
FROM 员工 
WHERE 工资 >= 5000 AND 工资 <= 10000;

排序：ORDER BY子句

查询结果默认是按照数据在表中的存储顺序返回的，但很多时候我们希望结果按照某种特定的顺序排列。比如，我们想要按照工资从高到低查看员工信息，可以使用ORDER BY子句：


SELECT 姓名, 工资 
FROM 员工 
WHERE 工资 > 5000 
ORDER BY 工资 DESC;

ORDER BY 工资 DESC表示按照工资列降序排列（从高到低）。如果我们想要升序排列（从低到高），可以使用ASC，或者直接省略，因为ASC是默认值。

聚合函数：统计数据

在数据分析中，我们经常需要统计信息，比如计算平均值、总和、最大值、最小值等。SQL提供了聚合函数来完成这些任务。让我们先看一个简单的例子，计算所有员工的平均工资：


SELECT AVG(工资) AS 平均工资 
FROM 员工;

AVG()是计算平均值的函数，AS 平均工资给结果列起了一个别名，这样结果会更加清晰易读。除了AVG，SQL还提供了其他常用的聚合函数，比如SUM()（求和）、MAX()（最大值）、MIN()（最小值）、COUNT()（计数）等。

如果我们想要按照部门统计平均工资，就需要用到GROUP BY子句：


SELECT 部门, AVG(工资) AS 平均工资 
FROM 员工 
GROUP BY 部门;

GROUP BY 部门表示按照部门分组，然后对每个组分别计算平均工资。这样我们就能看到每个部门的平均工资水平了。

子查询

随着数据分析需求的复杂化，我们经常需要在查询中嵌套另一个查询，这就是子查询（Subquery）。子查询就像是在解决一个大问题时，先解决其中的一个小问题，然后用这个小问题的结果来解决大问题。

简单的子查询示例

假设我们想要找出工资高于公司平均工资的员工。这个需求可以分解为两个步骤：首先计算公司的平均工资，然后找出工资高于这个平均值的员工。用子查询可以这样实现：


SELECT 姓名, 工资 
FROM 员工 
WHERE 工资 > (SELECT AVG(工资) FROM 员工);

在这个查询中，(SELECT AVG(工资) FROM 员工)是一个子查询，它先计算出平均工资，然后外层查询使用这个结果来筛选员工。子查询的结果是一个单一的值（平均工资），所以可以直接用在WHERE子句的比较中。

子查询作为数据源

子查询不仅可以用于WHERE子句，还可以作为数据源使用。比如，我们想要找出每个部门中工资最高的员工，可以这样写：


SELECT 部门, 姓名, 工资 
FROM 员工 e1
WHERE 工资 = (
    SELECT MAX(工资) 
    FROM 员工 e2 
    WHERE e2.部门 = e1.部门
);

这个查询稍微复杂一些。外层查询遍历每个员工，对于每个员工，子查询找出该员工所在部门的最高工资。如果当前员工的工资等于该部门的最高工资，那么他就被选中了。注意这里使用了表的别名（e1和e2），这样可以区分外层查询和子查询中的表。

多行子查询：IN和EXISTS

有时候子查询会返回多行结果，这时候我们需要使用IN或EXISTS关键字。比如，我们想要找出所有在"销售部"或"市场部"工作的员工：


SELECT 姓名, 部门 
FROM 员工 
WHERE 部门 IN ('销售部', '市场部');

如果我们想要找出所有有订单的客户，可以使用EXISTS：


SELECT 客户姓名 
FROM 客户 c
WHERE EXISTS (
    SELECT 1 
    FROM 订单 o 
    WHERE o.客户ID = c.客户ID
);

EXISTS检查子查询是否返回至少一行结果。如果子查询返回了结果，EXISTS就返回TRUE，否则返回FALSE。在这个例子中，我们只关心客户是否有订单，不关心订单的具体内容，所以子查询中使用SELECT 1就足够了。

公用表表达式

当查询变得非常复杂时，嵌套的子查询会让代码变得难以阅读和维护。公用表表达式（CTE，Common Table Expression）提供了一种更清晰的方式来组织复杂的查询。

CTE的基本语法

CTE使用WITH关键字定义，可以把它理解为一个临时的视图，只在当前查询中有效。让我们看一个简单的例子：


WITH 高薪员工 AS (
    SELECT 姓名, 工资, 部门 
    FROM 员工 
    WHERE 工资 > 5000
)
SELECT 部门, AVG(工资) AS 平均工资 
FROM 高薪员工 
GROUP BY 部门;

在这个例子中，我们首先定义了一个CTE叫做"高薪员工"，它包含了所有工资高于5000的员工。然后在主查询中，我们可以像使用普通表一样使用这个CTE。这样代码的结构更加清晰，也更容易理解。

多个CTE的组合

CTE的强大之处在于可以定义多个CTE，并且后面的CTE可以引用前面的CTE。比如，我们想要分析每个部门的工资分布情况：


WITH 部门统计 AS (
    SELECT 部门, AVG(工资) AS 平均工资, COUNT(*) AS 员工数 
    FROM 员工 
    GROUP BY 部门
),
高薪部门 AS (
    SELECT 部门 
    FROM 部门统计 
    WHERE 平均工资 > 8000
)
SELECT e.姓名, e.

这个查询定义了两个CTE。第一个"部门统计"计算了每个部门的平均工资和员工数，第二个"高薪部门"从第一个CTE中筛选出平均工资高于8000的部门。最后的主查询找出这些高薪部门中的所有员工，并按工资降序排列。

递归CTE

CTE还支持递归，这对于处理树形结构的数据非常有用。比如，我们有一个员工表，其中包含了上下级关系，我们想要找出某个员工的所有下属（包括下属的下属）：


WITH 递归下属 AS (
    -- 基础查询：直接下属
    SELECT 员工ID, 姓名, 上级ID, 1 AS 层级 
    FROM 员工 
    WHERE 上级ID = 1001
    
    UNION ALL
    
    -- 递归查询：下属的下属
    SELECT e.员工ID, e.姓名, e.上级ID, r.层级 + 1 
    FROM

递归CTE由两部分组成：基础查询（Anchor）和递归查询（Recursive）。基础查询定义了起始点，递归查询定义了如何从当前结果生成下一层结果。在这个例子中，我们从员工ID为1001的员工开始，找出他的所有直接下属，然后递归地找出这些下属的下属，直到没有更多的下属为止。

JOIN操作：连接多个表

在实际的数据分析中，我们经常需要从多个表中获取数据，并将它们组合在一起。JOIN操作就是用来实现这个功能的。

内连接

内连接（INNER JOIN）是最常用的连接方式，它只返回两个表中都有匹配的记录。比如，我们想要查看每个订单的详细信息，包括客户姓名：


SELECT o.订单ID, o.订单日期, c.客户姓名, o.订单金额 
FROM 订单 o
INNER JOIN 客户 c ON o.客户ID = c.客户ID;

这个查询将订单表和客户表连接起来，通过客户ID这个共同的字段。ON o.客户ID = c.客户ID指定了连接条件，只有客户ID匹配的记录才会出现在结果中。

左连接

有时候我们希望保留左表的所有记录，即使右表中没有匹配的记录。这时候可以使用左连接（LEFT JOIN）。比如，我们想要查看所有客户及其订单信息，即使某些客户还没有下过订单：


SELECT c.客户姓名, o.订单ID, o.订单金额 
FROM 客户 c
LEFT JOIN 订单 o ON c.客户ID = o.客户ID;

左连接会返回左表（客户表）中的所有记录，如果右表（订单表）中有匹配的记录，就显示订单信息；如果没有匹配的记录，订单相关的列就会显示为NULL。

多表连接

在实际场景中，我们经常需要连接多个表。比如，我们想要查看每个订单的详细信息，包括客户姓名、商品名称和商品价格：


SELECT o.订单ID, c.客户姓名, p.商品名称, od.数量, od.单价 
FROM 订单 o
INNER JOIN 客户 c ON o.客户ID = c.客户ID
INNER JOIN 订单详情 od ON o.订单ID = od.订单ID
INNER JOIN

这个查询连接了四个表：订单表、客户表、订单详情表和商品表。通过多个INNER JOIN，我们将这些表按照它们之间的关系连接起来，最终得到了包含所有需要信息的完整结果。

窗口函数

窗口函数（Window Function）是SQL中非常强大的功能，它允许我们在不减少结果集行数的情况下，对数据进行聚合计算。这对于排名、累计求和、移动平均等分析任务非常有用。

排名函数：ROW_NUMBER、RANK、DENSE_RANK

假设我们想要找出每个部门中工资最高的前三名员工。使用窗口函数可以这样实现：


SELECT 部门, 姓名, 工资,
    ROW_NUMBER() OVER (PARTITION BY 部门 ORDER BY 工资 DESC) AS 排名
FROM 员工
WHERE ROW_NUMBER() OVER (PARTITION BY 部门 ORDER BY 工资 DESC) <= 3;

不过，由于WHERE子句不能直接使用窗口函数，我们需要使用子查询或CTE：


WITH 排名员工 AS (
    SELECT 部门, 姓名, 工资,
        ROW_NUMBER() OVER (PARTITION BY 部门 ORDER BY 工资 DESC) AS 排名
    FROM 员工
)
SELECT 部门, 姓名, 工资, 排名
FROM 排名员工
WHERE 排名 <= 3;

ROW_NUMBER()为每一行分配一个唯一的序号。PARTITION BY 部门表示在每个部门内部进行排名，ORDER BY 工资 DESC表示按照工资降序排列。

除了ROW_NUMBER，还有RANK和DENSE_RANK函数。它们的区别在于处理相同值的方式：ROW_NUMBER会给相同值分配不同的序号，RANK会给相同值分配相同的序号但会跳过后续序号，DENSE_RANK会给相同值分配相同的序号但不会跳过后续序号。

累计计算：SUM和AVG窗口函数

窗口函数还可以用于累计计算。比如，我们想要计算每个员工的累计工资（从入职时间最早到当前员工）：


SELECT 姓名, 入职日期, 工资,
    SUM(工资) OVER (ORDER BY 入职日期) AS 累计工资
FROM 员工
ORDER BY 入职日期;

SUM(工资) OVER (ORDER BY 入职日期)会计算从第一行到当前行的工资总和。这样我们就能看到随着时间推移，累计工资是如何增长的。

移动平均：分析趋势

移动平均是时间序列分析中常用的方法，可以帮助我们识别数据的趋势。使用窗口函数可以轻松计算移动平均：


SELECT 日期, 销售额,
    AVG(销售额) OVER (
        ORDER BY 日期 
        ROWS BETWEEN 2 PRECEDING AND CURRENT ROW
    ) AS 三日移动平均
FROM 销售数据
ORDER BY 日期;

ROWS BETWEEN 2 PRECEDING AND CURRENT ROW定义了窗口的范围：从当前行往前2行到当前行，也就是最近3天的数据。这样我们就能计算出三日移动平均，更好地观察销售趋势。

课程小结

这节课，我们用数据挖掘者的视角，全面认识了SQL在数据分析中的作用。SQL不只是查询工具，更是一种处理数据关系和分析问题的思维方式。通过理解数据结构、熟练运用如子查询、CTE、JOIN和窗口函数等技巧，我们能够高效地提取、整理和分析复杂数据库中的信息。

实际工作里，写SQL既要关注性能和可读性，也要考虑与Excel等工具的结合，让分析结果更直观易用。只有不断练习与实践，把各种语法和方法灵活组合起来，才能真正提升自己的数据分析能力。那么接下来，我们将带你利用Excel继续深化数据探索，体验SQL和表格工具的无缝衔接。