MySQL数据去重是日常开发和数据库维护中常见的需求,尤其在数据导入、迁移或清洗过程中容易出现重复记录。直接删除重复数据可能影响业务,因此需要谨慎操作。下面介绍几种实用且安全的去重方法。
1. 使用DISTINCT去除查询结果中的重复
如果只是想在查询时避免重复数据,DISTINCT 是最简单的方法。
例如,表 user_info 中有重复的姓名记录:SELECT DISTINCT name, email FROM user_info;这会返回 name 和 email 的唯一组合。注意:DISTINCT 作用于所有选中的字段,只有当所有字段值完全相同时才会去重。
2. 利用GROUP BY保留一条记录并删除重复
若需要从表中真正删除重复数据,只保留一条,可结合 GROUP BY 和聚合函数(如 MIN 或 MAX)来实现。
假设表中有自增主键 id,想根据 name 和 email 去重,保留 id 最小的那条:先查看重复数据:
SELECT name, email, COUNT(*) FROM user_info GROUP BY name, email HAVING COUNT(*) > 1;
然后删除重复项,保留最小 id:
DELETE FROM user_info WHERE id NOT IN (SELECT min_id FROM (SELECT MIN(id) AS min_id FROM user_info GROUP BY name, email) AS t);注意:MySQL不允许在子查询中直接修改同一张表,所以外层再套一层 SELECT 是必要的。
3. 创建新表去重(推荐用于大数据量)
对于大表,直接删除可能效率低且风险高。可以创建一个结构相同的新表,导入去重后的数据,再替换原表。
步骤如下:
创建新表:CREATE TABLE user_info_new LIKE user_info;插入去重数据:
INSERT INTO user_info_new SELECT * FROM user_info GROUP BY name, email;重命名表:
RENAME TABLE user_info TO user_info_backup, user_info_new TO user_info;这种方式速度快,不易锁表,适合生产环境批量处理。
4. 添加唯一索引防止未来重复
去重完成后,建议添加唯一约束,避免后续重复数据写入。
ALTER TABLE user_info ADD UNIQUE INDEX idx_name_email (name, email);这样当程序尝试插入相同 name 和 email 的记录时,会报错提醒,从而保证数据唯一性。
基本上就这些常用又实用的 MySQL 去重方法。选择哪种方式取决于数据量、是否允许修改表结构以及操作场景。操作前记得备份数据,避免误删。
