MySQL 备份文件该存在哪儿?本地磁盘 vs 网络存储 vs 对象存储
备份存错位置,等于没备。关键不是“能不能存”,而是“出事时能不能快速、完整、可信地恢复”。
本地磁盘最常用,但风险最高:和数据库同机,服务器宕机或磁盘损坏就全丢;
/backup目录若在
/var/lib/mysql所在分区,空间打满还会拖垮 MySQL 进程。
网络挂载(NFS/Samba)稍好,但依赖网络稳定性;MySQL 的
mysqldump或
mysqlpump进程写入时若遭遇 NFS 中断,可能产生截断的 SQL 文件,恢复时直接报错
ERROR 1064。
对象存储(如 S3、MinIO、阿里云 OSS)是生产首选:天然异地、版本控制、自动生命周期管理;但需用
aws s3 cp或
rclone封装备份流程,不能直接让
mysqldump输出到 S3 URL。 推荐路径组合:
/tmp/backup_$(date +\%Y\%m\%d_\%H\%M).sql.gz(临时本地压缩)→
rclone copy /tmp/backup_*.sql.gz remote:mydb-backups/→
rm /tmp/backup_*.sql.gz禁止把备份和 binlog 放同一块物理盘,尤其 SSD —— 高频写入会加速磨损,双写失败概率上升
mysqldump 和 mysqlpump 哪个更适合日常全量备份?
别只看“新旧”,要看你用的 MySQL 版本和表结构复杂度。
mysqldump兼容性极强,5.1 到 8.4 都能跑,但默认单线程导出,大库(>50GB)耗时长;加
--single-transaction可避免锁表,但要求所有表是 InnoDB,且事务中不能有 DDL 操作,否则会报
ERROR 1449(定义者权限不足)。
mysqlpump是 5.7+ 引入的并行工具,支持按库/表并发导出,速度提升明显;但它不支持
--master-data直接写入 binlog 位置,做主从搭建时得额外查
SHOW MASTER STATUS手动补;而且对视图、函数的 DEFINER 权限处理更严格,常因
Access denied for user 'xxx'@'localhost' (using password: YES)报错中断。 小库(mysqldump --single-transaction --routines --triggers --events 大库(>20GB)、MySQL ≥5.7、无复杂 DEFINER:用
mysqlpump --default-parallelism=4 --skip-definer两者都必须加
--set-gtid-purged=OFF(如果 GTID 已启用但不做主从同步),否则导出文件头部会硬编码 GTID,恢复时报
ERROR 1840
增量备份只能靠 binlog?那怎么跳过误删语句?
binlog 是唯一可靠的 MySQL 增量来源,但原生不提供“跳过某条 DELETE”的能力 —— 它记录的是事件,不是语句逻辑。
想精准回滚一条误操作,得先定位事件位置:
mysqlbinlog --base64-output=DECODE-ROWS -v mysql-bin.000012 | grep -A 5 -B 5 "DELETE FROM users WHERE id = 123",再用
--start-position和
--stop-position截取区间重放。但注意:
mysqlbinlog解析 ROW 格式时,输出的是
@1=123这类变量,不是原始 SQL,肉眼难识别。
更稳妥的做法是启用
binlog_format = ROW+
binlog_row_image = FULL(默认值),并定期用
mysqlbinlog --read-from-remote-server把新 binlog 拉到备份服务器归档,避免主库磁盘写满触发
binlog自动清理。 禁止在生产库执行
RESET MASTER—— 会清空所有 binlog,彻底断掉增量链 设置
expire_logs_days = 7(至少覆盖一次全备周期),配合定时
mysqlbinlog拉取,比单纯依赖本地保留更可靠 误删后不要慌着停库:先
FLUSH LOGS切新 binlog,防止后续操作覆盖关键事件位置
备份策略里最容易被忽略的验证环节
90% 的备份失效,不是因为没备份,而是因为没人验证过它真能恢复。
一个
.sql.gz文件躺在 S3 上,不代表它能用:可能是压缩损坏、字符集不匹配(导出用
utf8mb4,恢复库是
latin1)、或含
CREATE DATABASE但目标实例已存在同名库导致报错
ERROR 1007。
自动化验证不是“解压+导入”,而是模拟真实故障场景:在隔离环境(Docker 容器或测试 VM)里,用相同 MySQL 版本、相同
my.cnf配置项,执行
zcat backup.sql.gz | mysql -u root -p,然后立刻
SELECT COUNT(*)校验几张核心表行数,并抽查一条带中文、emoji、时间戳的数据是否完整。 每天凌晨全备后,固定在 03:00 启动一个
restore-test容器跑验证,失败立即发钉钉告警 验证脚本里必须包含
set names utf8mb4;和
SET FOREIGN_KEY_CHECKS=0;,否则外键或字符集会卡住导入 别信“上次验证成功”——MySQL 升级、配置微调、甚至 glibc 版本变化,都可能导致同样备份文件恢复失败
#!/bin/bash
# 示例:轻量级恢复验证(放入 crontab)
BACKUP_FILE=$(ls -t /backup/*.sql.gz | head -n1)
docker run --rm -v $BACKUP_FILE:/backup.sql.gz -e MYSQL_ROOT_PASSWORD=123456 mysql:8.0 \
sh -c 'mysql -uroot -p123456 -e "CREATE DATABASE IF NOT EXISTS test_restore;" && \
zcat /backup.sql.gz | mysql -uroot -p123456 test_restore && \
mysql -uroot -p123456 -e "SELECT COUNT(*) FROM test_restore.users;"'备份策略最深的坑不在技术选型,而在于“以为设了定时任务就万事大吉”。真正决定成败的,是那个没人愿意写的验证脚本,和每次发布前手动检查的 binlog 位置。
