mysql中distinct语句如何去重

来源：这里教程网时间：2026-02-28 20:09:20 作者：

在MySQL中，

DISTINCT

语句的核心作用就是从查询结果集中移除重复的行，确保你看到的每一行数据都是唯一的。它不是针对某个特定列去重，而是将你

SELECT

语句中所有指定的列作为一个整体来判断是否重复。

解决方案

要使用

DISTINCT

进行去重，你只需在

SELECT

关键字后紧跟着

DISTINCT

，然后列出你想要查询的列。MySQL 会检查这些列的组合值，如果发现有完全相同的组合，则只保留其中一行。

举个例子，假设你有一个

orders

表，里面有

order_id

customer_id

product_id

和

order_date

等字段，而你只想知道有哪些不同的客户下了订单。

SELECT DISTINCT customer_id FROM orders;

这条语句会遍历

orders

表，找出所有

customer_id

的值，然后只返回其中不重复的那些。如果一个客户下了多笔订单，他的

customer_id

只会出现一次。

更复杂一点，如果你想知道哪些客户在哪些日期下过订单，并且这个“客户-日期”组合是唯一的：

SELECT DISTINCT customer_id, order_date FROM orders;

这里，MySQL 会把

customer_id

和

order_date

的组合作为一个整体来判断唯一性。比如，

(101, '2023-01-01')

和

(101, '2023-01-02')

会被认为是两行不同的结果，因为它们的

order_date

不同。只有当

customer_id

和

order_date

都完全相同的时候，才会被视为重复并被移除。

DISTINCT

和

GROUP BY

在去重上有何异同？何时选择哪个？

这是一个在实际工作中经常遇到的选择题，

DISTINCT

和

GROUP BY

都能实现去重效果，但它们的侧重点和使用场景略有不同。我个人理解，

DISTINCT

更像是对结果集的一种“过滤”，它只关心最终输出的行是否唯一；而

GROUP BY

则是一种“分组聚合”操作，它在去重的基础上，还允许你对每个分组进行统计计算。

DISTINCT

的特点：

目的直接： 它的主要目的就是获取唯一的行组合。 语法简洁：
SELECT DISTINCT column1, column2 FROM table;
简单明了。 应用场景： 当你只需要一份不重复的列表时，比如获取所有唯一的商品类别、所有下过订单的客户ID等，
DISTINCT
是最直观的选择。

GROUP BY

的特点：

目的多样： 除了去重，它更常用于对分组后的数据进行聚合计算（如
COUNT()
,
SUM()
,
AVG()
,
MAX()
,
MIN()
等）。 功能强大： 允许你基于一个或多个列进行分组，并对每个分组执行聚合函数。 应用场景： 统计每个客户的订单数量：
SELECT customer_id, COUNT(order_id) FROM orders GROUP BY customer_id;
获取每个产品类别的平均价格：
SELECT category, AVG(price) FROM products GROUP BY category;
如果你只是想实现简单的去重，比如获取所有唯一的
customer_id
，
GROUP BY customer_id
也能达到同样的效果，因为它会将所有相同的
customer_id
分到一组，然后返回每组的代表行（通常是第一行，但这不是保证的，具体取决于数据库实现）。但从语义上讲，
DISTINCT
更明确地表达了“去重”意图。

何时选择哪个？

只求唯一列表，不涉及聚合： 用
DISTINCT
。它更清晰，通常也更符合直觉。 需要对去重后的数据进行统计分析： 用
GROUP BY
。这是它的强项。 性能考量： 对于非常大的数据集，在某些情况下，
GROUP BY
可能会比
DISTINCT
表现更好，尤其是在有索引支持分组列的情况下。但这不是绝对的，具体需要通过
EXPLAIN
来分析。我倾向于先用语义最清晰的，如果性能有问题再考虑优化。

DISTINCT

在多列查询中是如何判断重复的？

这是一个我一开始接触SQL时也曾困惑的地方，但一旦理解了，就觉得非常合理。

DISTINCT

在多列查询中，是把所有你

SELECT

出来的列作为一个整体元组（tuple）来判断唯一性的。

简单来说，如果你写

SELECT DISTINCT col1, col2, col3 FROM table;

，那么MySQL会把

(col1的值, col2的值, col3的值)

这一串组合看作一个“指纹”。只有当这个“指纹”在结果集中是独一无二的时候，它才会被保留。哪怕

col1

和

col2

都一样，只要

col3

不同，那么这两行就会被认为是不同的。

举个例子： 假设有如下数据：

id	name	city
1	Alice	NYC
2	Bob	LA
3	Alice	LA
4	Bob	NYC
5	Alice	NYC

执行

SELECT DISTINCT name, city FROM my_table;

结果会是：

name	city
Alice	NYC
Bob	LA
Alice	LA
Bob	NYC

可以看到，原始数据中的

(Alice, NYC)

出现了两次（id=1和id=5），但

DISTINCT

只保留了其中一个。而

(Alice, LA)

尽管

name

字段和

(Alice, NYC)

的

name

字段相同，但因为

city

字段不同，所以被认为是不同的行。

关于

NULL

值：

NULL

在

DISTINCT

判断中被视为一个特定的值。这意味着如果有多行数据的某个或所有

DISTINCT

列都为

NULL

，它们也会被视为相同的“指纹”而被去重。例如，

('A', NULL)

和

('A', NULL)

会被去重为一行。而

('A', NULL)

和

('B', NULL)

则被视为两行不同的结果。

使用

DISTINCT

时有哪些性能考量和优化建议？

DISTINCT

并不是一个免费的操作，尤其是在处理大量数据时，它可能会带来显著的性能开销。理解这些开销的来源，并采取适当的优化措施，对于构建高效的数据库应用至关重要。

性能开销的来源：

临时表： MySQL 在执行
DISTINCT
操作时，通常需要在内存或磁盘上创建一个临时表来存储中间结果。这个临时表用于去重判断。 排序： 为了有效地找出重复项，MySQL 往往需要对结果集进行排序。排序操作，尤其是对大数据集，是 CPU 和 I/O 密集型的。 全表扫描： 如果
DISTINCT
的列没有合适的索引覆盖，或者查询条件复杂，MySQL 可能需要进行全表扫描来获取所有数据，然后再进行去重。

优化建议：

只选择必要的列： 这是最基本的优化。
DISTINCT
操作的开销与需要处理的数据量成正比。如果你只需要
customer_id
去重，就不要
SELECT DISTINCT customer_id, order_date, product_id
。列越多，需要比较的数据就越多，临时表占用的空间也越大。

为
DISTINCT
列建立索引（部分帮助）： 虽然索引不能直接加速
DISTINCT
的去重逻辑（因为它仍然需要检查所有符合条件的行），但它可以极大地加速数据的检索和排序过程。
如果你
SELECT DISTINCT columnA
，在
columnA
上建立索引可以帮助快速获取这些值，并且索引本身就是有序的，可能减少额外的排序开销。如果你
SELECT DISTINCT columnA, columnB
，可以考虑在
(columnA, columnB)
上建立复合索引。这有助于MySQL更快地获取
(columnA, columnB)
的组合，并可能利用索引的有序性来减少排序时间。

考虑
GROUP BY
作为替代： 在某些情况下，如果
GROUP BY
的列有很好的索引覆盖，或者你需要进行聚合操作，
GROUP BY
可能会比
DISTINCT
更高效。例如，
SELECT customer_id FROM orders GROUP BY customer_id;
可能会比
SELECT DISTINCT customer_id FROM orders;
在特定场景下表现更好，尤其是在
customer_id
上有索引时。

使用
EXPLAIN
分析查询： 这是任何SQL优化都不可或缺的一步。
EXPLAIN SELECT DISTINCT ...
可以帮助你理解MySQL是如何执行你的
DISTINCT
查询的。
关注
Extra
列中的
Using temporary
和
Using filesort
。这些通常是性能瓶颈的信号。如果看到这些，就说明MySQL正在创建临时表和进行文件排序，这正是需要优化的地方。通过分析
EXPLAIN
的输出，你可以判断索引是否被有效利用，以及是否存在其他可以改进的地方。