mysql中distinct语句如何去重

来源:这里教程网 时间:2026-02-28 20:09:20 作者:

在MySQL中,

DISTINCT
语句的核心作用就是从查询结果集中移除重复的行,确保你看到的每一行数据都是唯一的。它不是针对某个特定列去重,而是将你
SELECT
语句中所有指定的列作为一个整体来判断是否重复。

解决方案

要使用

DISTINCT
进行去重,你只需在
SELECT
关键字后紧跟着
DISTINCT
,然后列出你想要查询的列。MySQL 会检查这些列的组合值,如果发现有完全相同的组合,则只保留其中一行。

举个例子,假设你有一个

orders
表,里面有
order_id
,
customer_id
,
product_id
order_date
等字段,而你只想知道有哪些不同的客户下了订单。

SELECT DISTINCT customer_id FROM orders;

这条语句会遍历

orders
表,找出所有
customer_id
的值,然后只返回其中不重复的那些。如果一个客户下了多笔订单,他的
customer_id
只会出现一次。

更复杂一点,如果你想知道哪些客户在哪些日期下过订单,并且这个“客户-日期”组合是唯一的:

SELECT DISTINCT customer_id, order_date FROM orders;

这里,MySQL 会把

customer_id
order_date
的组合作为一个整体来判断唯一性。比如,
(101, '2023-01-01')
(101, '2023-01-02')
会被认为是两行不同的结果,因为它们的
order_date
不同。只有当
customer_id
order_date
都完全相同的时候,才会被视为重复并被移除。

DISTINCT
GROUP BY
在去重上有何异同?何时选择哪个?

这是一个在实际工作中经常遇到的选择题,

DISTINCT
GROUP BY
都能实现去重效果,但它们的侧重点和使用场景略有不同。我个人理解,
DISTINCT
更像是对结果集的一种“过滤”,它只关心最终输出的行是否唯一;而
GROUP BY
则是一种“分组聚合”操作,它在去重的基础上,还允许你对每个分组进行统计计算。

DISTINCT
的特点:

目的直接: 它的主要目的就是获取唯一的行组合。 语法简洁:
SELECT DISTINCT column1, column2 FROM table;
简单明了。
应用场景: 当你只需要一份不重复的列表时,比如获取所有唯一的商品类别、所有下过订单的客户ID等,
DISTINCT
是最直观的选择。

GROUP BY
的特点:

目的多样: 除了去重,它更常用于对分组后的数据进行聚合计算(如
COUNT()
,
SUM()
,
AVG()
,
MAX()
,
MIN()
等)。
功能强大: 允许你基于一个或多个列进行分组,并对每个分组执行聚合函数。 应用场景: 统计每个客户的订单数量:
SELECT customer_id, COUNT(order_id) FROM orders GROUP BY customer_id;
获取每个产品类别的平均价格:
SELECT category, AVG(price) FROM products GROUP BY category;
如果你只是想实现简单的去重,比如获取所有唯一的
customer_id
GROUP BY customer_id
也能达到同样的效果,因为它会将所有相同的
customer_id
分到一组,然后返回每组的代表行(通常是第一行,但这不是保证的,具体取决于数据库实现)。但从语义上讲,
DISTINCT
更明确地表达了“去重”意图。

何时选择哪个?

只求唯一列表,不涉及聚合:
DISTINCT
。它更清晰,通常也更符合直觉。
需要对去重后的数据进行统计分析:
GROUP BY
。这是它的强项。
性能考量: 对于非常大的数据集,在某些情况下,
GROUP BY
可能会比
DISTINCT
表现更好,尤其是在有索引支持分组列的情况下。但这不是绝对的,具体需要通过
EXPLAIN
来分析。我倾向于先用语义最清晰的,如果性能有问题再考虑优化。

DISTINCT
在多列查询中是如何判断重复的?

这是一个我一开始接触SQL时也曾困惑的地方,但一旦理解了,就觉得非常合理。

DISTINCT
在多列查询中,是把所有你
SELECT
出来的列作为一个整体元组(tuple)来判断唯一性的。

简单来说,如果你写

SELECT DISTINCT col1, col2, col3 FROM table;
,那么MySQL会把
(col1的值, col2的值, col3的值)
这一串组合看作一个“指纹”。只有当这个“指纹”在结果集中是独一无二的时候,它才会被保留。哪怕
col1
col2
都一样,只要
col3
不同,那么这两行就会被认为是不同的。

举个例子: 假设有如下数据:

id name city
1 Alice NYC
2 Bob LA
3 Alice LA
4 Bob NYC
5 Alice NYC

执行

SELECT DISTINCT name, city FROM my_table;

结果会是:

name city
Alice NYC
Bob LA
Alice LA
Bob NYC

可以看到,原始数据中的

(Alice, NYC)
出现了两次(id=1和id=5),但
DISTINCT
只保留了其中一个。而
(Alice, LA)
尽管
name
字段和
(Alice, NYC)
name
字段相同,但因为
city
字段不同,所以被认为是不同的行。

关于

NULL
值:
NULL
DISTINCT
判断中被视为一个特定的值。这意味着如果有多行数据的某个或所有
DISTINCT
列都为
NULL
,它们也会被视为相同的“指纹”而被去重。例如,
('A', NULL)
('A', NULL)
会被去重为一行。而
('A', NULL)
('B', NULL)
则被视为两行不同的结果。

使用
DISTINCT
时有哪些性能考量和优化建议?

DISTINCT
并不是一个免费的操作,尤其是在处理大量数据时,它可能会带来显著的性能开销。理解这些开销的来源,并采取适当的优化措施,对于构建高效的数据库应用至关重要。

性能开销的来源:

临时表: MySQL 在执行
DISTINCT
操作时,通常需要在内存或磁盘上创建一个临时表来存储中间结果。这个临时表用于去重判断。
排序: 为了有效地找出重复项,MySQL 往往需要对结果集进行排序。排序操作,尤其是对大数据集,是 CPU 和 I/O 密集型的。 全表扫描: 如果
DISTINCT
的列没有合适的索引覆盖,或者查询条件复杂,MySQL 可能需要进行全表扫描来获取所有数据,然后再进行去重。

优化建议:

    只选择必要的列: 这是最基本的优化。

    DISTINCT
    操作的开销与需要处理的数据量成正比。如果你只需要
    customer_id
    去重,就不要
    SELECT DISTINCT customer_id, order_date, product_id
    。列越多,需要比较的数据就越多,临时表占用的空间也越大。

    DISTINCT
    列建立索引(部分帮助): 虽然索引不能直接加速
    DISTINCT
    的去重逻辑(因为它仍然需要检查所有符合条件的行),但它可以极大地加速数据的检索和排序过程。

    如果你
    SELECT DISTINCT columnA
    ,在
    columnA
    上建立索引可以帮助快速获取这些值,并且索引本身就是有序的,可能减少额外的排序开销。
    如果你
    SELECT DISTINCT columnA, columnB
    ,可以考虑在
    (columnA, columnB)
    上建立复合索引。这有助于MySQL更快地获取
    (columnA, columnB)
    的组合,并可能利用索引的有序性来减少排序时间。

    考虑

    GROUP BY
    作为替代: 在某些情况下,如果
    GROUP BY
    的列有很好的索引覆盖,或者你需要进行聚合操作,
    GROUP BY
    可能会比
    DISTINCT
    更高效。例如,
    SELECT customer_id FROM orders GROUP BY customer_id;
    可能会比
    SELECT DISTINCT customer_id FROM orders;
    在特定场景下表现更好,尤其是在
    customer_id
    上有索引时。

    使用

    EXPLAIN
    分析查询: 这是任何SQL优化都不可或缺的一步。
    EXPLAIN SELECT DISTINCT ...
    可以帮助你理解MySQL是如何执行你的
    DISTINCT
    查询的。

    关注
    Extra
    列中的
    Using temporary
    Using filesort
    。这些通常是性能瓶颈的信号。如果看到这些,就说明MySQL正在创建临时表和进行文件排序,这正是需要优化的地方。
    通过分析
    EXPLAIN
    的输出,你可以判断索引是否被有效利用,以及是否存在其他可以改进的地方。

    数据量过大时考虑预处理: 如果你的数据量非常大,且去重操作非常频繁,可以考虑在数据写入时就保持唯一性(例如通过

    UNIQUE
    索引或应用程序逻辑),或者定期将去重后的结果存储到一张新的汇总表或物化视图中,这样查询时直接读取汇总表即可。

总之,

DISTINCT
是一个非常有用的工具,但使用时需要注意其潜在的性能影响。通过合理的设计、索引和分析,可以确保它在你的应用中高效运行。

相关推荐