mysql差集查询如何写_mysql集合差异数据获取

来源:这里教程网 时间:2026-02-28 20:45:24 作者:

MySQL 用
NOT EXISTS
获取差集最可靠

直接用

LEFT JOIN ... IS NULL
NOT IN
容易出错,尤其当字段含
NULL
时。
NOT EXISTS
是语义最清晰、行为最确定的方式。它明确表达“在 A 表中存在,但在 B 表中找不到匹配行”的逻辑,不依赖空值处理规则。

常见错误现象:

NOT IN (SELECT ...)
遇到 B 表的列有任意一个
NULL
,整个条件直接返回空结果——这是 SQL 三值逻辑导致的,不是 bug,但极易被忽略。

只对主键或非空唯一字段做差集比较最安全 若需比对多列,
NOT EXISTS
子查询里必须用
AND
显式连接所有条件
确保子查询中的关联字段有索引,否则性能会断崖式下降

LEFT JOIN + IS NULL 写法及陷阱

这是直观、可读性高的写法,但必须严格满足两个前提:右表关联字段不能为

NULL
,且
ON
条件中不能混用
OR
或函数(否则索引失效)。

典型误用:

ON a.id = b.id AND b.status != 'deleted'
—— 如果
b.status
允许
NULL
IS NULL
判断会漏掉本该算作“不存在”的行。

务必在
JOIN
后加
WHERE b.id IS NULL
,而不是
WHERE b.id = NULL
(后者永远为 false)
如果右表有多个匹配行,
LEFT JOIN
会重复左表记录,需配合
DISTINCT
GROUP BY
在 MySQL 8.0+ 中,优化器对这种模式识别较好;5.7 及更早版本建议给
b.id
加索引

EXCEPT
?MySQL 不支持

MySQL 直到 8.0.31 仍不支持标准 SQL 的

EXCEPT
操作符。别在官方文档外看到别人写了
EXCEPT
就以为能用——那大概率是 PostgreSQL、SQL Server 或 SQLite 的语法混进来了。

强行模拟

EXCEPT
不仅冗长,还容易因去重逻辑(是否保留重复行)引发歧义。例如:

SELECT id, name FROM table_a
UNION ALL
SELECT id, name FROM table_b

SELECT id, name FROM table_a
UNION
SELECT id, name FROM table_b

行为完全不同,但都跟差集无关。

性能关键:别忘了加索引

差集查询本质是大量“查找不存在”的操作,没有索引时就是全表扫描嵌套,数据量过万就明显卡顿。

左表字段(如
a.user_id
)不需要单独索引,但参与
JOIN
或子查询关联的字段必须有
右表的关联字段(如
b.user_id
)强烈建议建 B+ 树索引,复合索引优先于单列索引
执行前一定用
EXPLAIN
type
是否为
ref
eq_ref
,避免出现
ALL

真正麻烦的从来不是语法怎么写,而是你查的那张表有没有被正确索引,以及你是否意识到

NULL
在集合运算里根本不算“值”。

相关推荐