大数据量下的统计查询在 MySQL 中容易变慢,主要因为全表扫描、索引失效、临时表和排序开销大等问题。优化这类查询需要从索引设计、SQL 写法、表结构和系统配置多方面入手。
合理使用索引加速聚合查询
索引是提升统计查询性能的关键。对于常见的 COUNT、SUM、AVG、MAX、MIN 等操作,确保被聚合的字段上有合适的索引。
对WHERE条件中的过滤字段建立索引,减少扫描行数 对
GROUP BY字段建立索引,避免临时表和文件排序 使用覆盖索引(Covering Index),让查询只需访问索引即可完成,无需回表
例如:
CREATE INDEX idx_status_time ON orders (status, created_at);SELECT COUNT(*) FROM orders WHERE status = 'paid' AND created_at > '2024-01-01';
这个查询可以完全走索引,极大提升效率。
避免全表扫描和大范围数据处理
当数据量达到千万级以上,全表统计会严重拖慢数据库。可以考虑以下方式:
用近似值代替精确统计,比如COUNT(*)在 InnoDB 中很慢,可借助额外计数器表维护总数 分页或分区间统计,结合时间分区表,只查最近几天的数据 对历史数据归档,减少主表体积
例如:用一张
order_stats表按天记录订单数量,查总量时只需查这张小表。
利用分区表提升查询效率
对按时间或地域等维度聚合的统计,使用 Range 分区 或 List 分区 能显著减少扫描数据量。
按月或按天对大表进行分区 查询时只访问相关分区,实现“分区裁剪”示例:
CREATE TABLE orders ( id BIGINT, created_at DATE, amount DECIMAL(10,2) ) PARTITION BY RANGE COLUMNS(created_at) ( PARTITION p202401 VALUES LESS THAN ('2024-02-01'), PARTITION p202402 VALUES LESS THAN ('2024-03-01') );查 1 月份数据时,MySQL 只扫描对应分区。
优化 SQL 写法和执行计划
有些写法会导致 MySQL 无法高效执行统计。
避免在聚合字段上使用函数,如WHERE YEAR(create_time) = 2024,应改为范围查询 少用
DISTINCT,它会触发临时表和去重排序 使用
EXPLAIN分析执行计划,确认是否走了索引、是否有 Using temporary / Using filesort
推荐写法:
-- 推荐 SELECT COUNT(*) FROM orders WHERE created_at BETWEEN '2024-01-01' AND '2024-01-31';-- 避免 SELECT COUNT(*) FROM orders WHERE MONTH(created_at) = 1 AND YEAR(created_at) = 2024;
基本上就这些。关键在于减少数据扫描量、善用索引和分区、避免不必要的计算。实际优化时结合业务场景调整策略,效果更明显。
