MySQL数据库基本概念中什么是分库分表？分片策略与水平拆分原理

来源：这里教程网时间：2026-02-28 20:48:08 作者：

分库分表不是“拆着玩”，而是为扛住真实并发和数据量

分库分表是当单库单表撑不住业务增长时，把数据**物理分散到多个数据库或多个表中**的手段。它不改变逻辑语义（比如你查

user

表，还是写那条 SQL），但背后数据已不在一个地方了——这是为解决两个硬瓶颈：一是单表超 1000 万行后查询变慢、索引失效、

ALTER TABLE

卡死；二是单库连接数打满（

Too many connections

）、CPU 或磁盘 IO 持续 90%+，主从同步延迟飙升。

水平分库 vs 水平分表：关键看压力来源在哪

两者都按「行」切，结构完全一致，区别只在切的粒度：

水平分表：同一库内建
user_0
、
user_1
… 多张结构相同的表，用
user_id % 4
路由。适合单表太大（如日志表达 200GB）、但并发不高、写入集中在少数库的场景。优点是不跨库，事务仍可用；缺点是没缓解连接数和 CPU 压力，因为还在一个 MySQL 实例里。 水平分库：把
user
表数据按
user_id
哈希后，分别存到
shard0
、
shard1
等不同 MySQL 实例。真正分摊连接、IO、CPU。但代价是跨库事务难做，
JOIN
和
GROUP BY
需中间件聚合，比如 MyCat 或 ShardingSphere。

别一上来就分库——先确认是不是真需要。用

SHOW PROCESSLIST

看有没有大量

Sending data

或

Copying to tmp table on disk

状态；用

SELECT COUNT(*)

和

EXPLAIN

验证单表是否真成瓶颈。很多团队误把慢查询归咎于数据量，其实是没加索引或写了

SELECT *

。

哈希取模最常用，但扩容时得提前想好路由规则

按

user_id % 4

分 4 个库/表，简单直接，数据也均匀。但问题来了：业务涨了，要扩到 8 个库，原来

user_id=5

在库 1（5%4=1），现在 5%8=5，得把这条数据搬过去——全量迁移成本极高。

推荐用一致性哈希（如
md5(user_id) % 1024
），新增节点只影响相邻虚拟节点的数据，迁移量可控； 或者预分片（pre-sharding）：一开始就按 1024 个逻辑分片设计，物理上先用 4 台机器各管 256 片，后续扩容只需调整映射，不动数据； Range 分片（如按时间分
order_202501
、
order_202502
）看似好扩容，但极易热点——所有新订单都写最新表，该表磁盘 IO 直接打满。

MyCat 的

rule.xml

或 ShardingSphere 的

sharding-algorithm

配置里，必须明确定义分片键（sharding key）和算法，且这个字段要在所有相关 SQL 的

WHERE

条件里出现，否则路由失败，变成全库广播查询。

垂直拆分常被忽略，但它能立刻缓解连接数和缓存压力

垂直分库是按业务切，比如把

user_info

、

user_profile

放

user_db

，把

user_order

、

user_payment

放

order_db

。它不解决单表大问题，但能：

show variables like 'max_connections'

查出默认 151 连接，拆成两个库后，每个库独立计数，总连接能力翻倍；高频访问的用户基础信息表更小，InnoDB Buffer Pool 缓存命中率上升。

拆之前先梳理依赖：原来一条
JOIN user_info ON u.id = o.user_id
的 SQL，现在得改成应用层两次查询 + 组装；字典表（如
region
、
status_type
）建议冗余到各库，避免跨库关联； 外键约束在分库后失效，得靠应用层或分布式事务（如 Seata）兜底。

真正的难点不在怎么切，而在切完之后怎么让开发不感知、DBA 不崩溃、监控不丢指标——比如分库后慢查询日志得聚合分析，