Redis写时复制的防坑指南

来源：这里教程网时间：2026-02-26 12:12:22 作者：

COW 的本质：一场内存与时间的博弈第一个大坑：fork 不是免费午餐第二个大坑：COW 的内存膨胀第三个大坑：AOF 重写的死亡螺旋隐藏技巧：利用 COW 做零成本备份生产环境的最佳配置监控：这些指标必须盯着不同场景的 COW 策略踩坑总结：血泪教训实战案例：Spring Boot 集成 Redis COW 监控高级技巧：利用 Lua 脚本减少 COW 开销生产环境实战：处理千万级数据的 COW 优化写在最后

做了这么多高并发系统，我发现 Redis 的写时复制（COW）是最容易被误解的特性之一。很多人以为配了 BGSAVE 就万事大吉，结果生产环境内存翻倍、服务抖动、甚至 OOM 宕机。这篇文章不讲理论，只说我这些踩过的坑和总结出来的实战经验。

COW 的本质：一场内存与时间的博弈

写时复制听起来很高大上，其实原理特别朴素。想象你要复印一本书，有两种方式：

笨办法：一页一页全部复印（传统 SAVE）

聪明办法：先记下页码，谁要改哪页才复印哪页（COW）

Redis 的 BGSAVE 和 BGREWRITEAOF 都是用第二种方式。fork 出子进程时，父子进程共享同一份物理内存，只是各自有独立的页表。当父进程要修改数据时，操作系统才会真正复制那一页内存。

这个机制很巧妙，但魔鬼藏在细节里。

第一个大坑：fork 不是免费午餐

很多人以为 fork 很快，毕竟"只是复制页表"。但在大内存场景下，这个认知会害死你。

真实案例：我们有个 64GB 的 Redis 实例，存储商品数据和用户画像。每次 fork 要花 400ms，这 400ms 里：

所有客户端请求被阻塞监控显示一条直线（像死了一样）业务方疯狂报超时

解决方案一：拆分大实例

import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoolConfig; public class RedisShardingStrategy { // 原来：一个大 Redis 存所有数据 // JedisPool redisAll = new JedisPool("10.0.0.1", 6379); // 64GB // 现在：按数据特性拆分 private JedisPool redisHot; // 16GB 热数据 private JedisPool redisWarm; // 32GB 温数据 private JedisPool redisCold; // 16GB 冷数据 public void init() { JedisPoolConfig config = new JedisPoolConfig(); config.setMaxTotal(100); config.setMaxIdle(20); redisHot = new JedisPool(config, "10.0.0.2", 6379); redisWarm = new JedisPool(config, "10.0.0.3", 6379); redisCold = new JedisPool(config, "10.0.0.4", 6379); // 热数据：频繁访问，很少持久化 try (Jedis jedis = redisHot.getResource()) { jedis.configSet("save", ""); // 关闭自动保存 } // 温数据：定期持久化 try (Jedis jedis = redisWarm.getResource()) { jedis.configSet("save", "1800 1"); // 30分钟 } // 冷数据：积极持久化 try (Jedis jedis = redisCold.getResource()) { jedis.configSet("save", "300 10"); // 5分钟 } } }

解决方案二：优化页表大小

Linux 默认用 4KB 的内存页，64GB 就是 1600 万个页表项。可以开启大页（Huge Pages）：

# 查看当前透明大页设置 cat /sys/kernel/mm/transparent_hugepage/enabled # 建议设为 madvise（让 Redis 自己决定） echo madvise > /sys/kernel/mm/transparent_hugepage/enabled # 预分配大页 echo 20480 > /proc/sys/vm/nr_hugepages # 20480 * 2MB = 40GB

开启大页后，fork 时间从 400ms 降到 50ms，效果立竿见影。

第二个大坑：COW 的内存膨胀

理论上 COW 很省内存，实际上经常事与愿违。最惨的一次，32GB 的 Redis 在 BGSAVE 期间内存飙到 58GB，直接触发 OOM。

为什么会膨胀？

COW 是以内存页为单位的（通常 4KB）。假设一个页里存了 100 个 key，你改了其中 1 个，整页都要复制。如果写入很分散，大部分页都会被复制。

实测数据（32GB Redis）：

写入集中（热点 key）：COW 额外内存 2-3GB写入分散（随机 key）：COW 额外内存 15-20GB全量更新（批量写入）：COW 额外内存 25-30GB

应对策略：

import redis.clients.jedis.*; import java.util.*; import java.util.concurrent.TimeUnit; public class COWFriendlyRedis { private JedisPool jedisPool; private boolean inCow = false; public COWFriendlyRedis(String host, int port) { JedisPoolConfig config = new JedisPoolConfig(); config.setMaxTotal(100); this.jedisPool = new JedisPool(config, host, port); } public void batchWrite(Map<String, String> dataMap, boolean cowFriendly) throws InterruptedException { if (!cowFriendly) { // 传统方式：直接写 try (Jedis jedis = jedisPool.getResource()) { Pipeline pipe = jedis.pipelined(); for (Map.Entry<String, String> entry : dataMap.entrySet()) { pipe.set(entry.getKey(), entry.getValue()); } pipe.sync(); return; } } // COW 友好方式：检测并避让 try (Jedis jedis = jedisPool.getResource()) { // 1. 检查是否正在做持久化 String persistence = jedis.info("persistence"); boolean rdbInProgress = persistence.contains("rdb_bgsave_in_progress:1"); boolean aofInProgress = persistence.contains("aof_rewrite_in_progress:1"); if (rdbInProgress || aofInProgress) { System.out.println("检测到持久化进行中，降速写入..."); // 降速写入，每写入一些就休眠 int count = 0; for (Map.Entry<String, String> entry : dataMap.entrySet()) { jedis.set(entry.getKey(), entry.getValue()); if (++count % 100 == 0) { // 每100个key休眠一下 TimeUnit.MILLISECONDS.sleep(1); } } } else { // 2. 非持久化期间，集中写入 // 先关闭自动持久化 String oldSave = jedis.configGet("save").get(1); jedis.configSet("save", ""); // 3. 批量写入 Pipeline pipe = jedis.pipelined(); for (Map.Entry<String, String> entry : dataMap.entrySet()) { pipe.set(entry.getKey(), entry.getValue()); } pipe.sync(); // 4. 手动触发一次持久化 jedis.bgsave(); // 5. 恢复自动持久化配置 TimeUnit.SECONDS.sleep(1); // 等 BGSAVE 开始 jedis.configSet("save", oldSave); } } } }

第三个大坑：AOF 重写的死亡螺旋

AOF 重写也用 COW，但它比 RDB 更容易出问题。因为 AOF 重写期间，新的写入命令会同时写到：

AOF 缓冲区（给主进程用）

AOF 重写缓冲区（给子进程用）

如果写入速度太快，重写缓冲区会爆炸式增长。

真实故事：

某个黑色星期五，营销系统疯狂更新 Redis 里的库存数据。AOF 重写触发后：

重写缓冲区快速增长到 8GB内存使用率 95%重写快完成时，要把 8GB 缓冲区写回，主线程阻塞 30 秒所有服务超时，雪崩

解决方法：

# 1. 限制 AOF 重写频率 auto-aof-rewrite-percentage 200 # 文件大小翻倍才重写（默认100） auto-aof-rewrite-min-size 1gb # 最小 1GB 才考虑重写 # 2. 重写期间不做 fsync（危险但有效） no-appendfsync-on-rewrite yes # 3. 使用 RDB+AOF 混合持久化（Redis 4.0+） aof-use-rdb-preamble yes

更彻底的方案是监控加熔断：

import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import java.util.concurrent.*; import java.util.regex.*; public class AOFRewriteGuard { private final JedisPool jedisPool; private final int maxBufferMB; private final ScheduledExecutorService scheduler = Executors.newScheduledThreadPool(1); public AOFRewriteGuard(JedisPool jedisPool, int maxBufferMB) { this.jedisPool = jedisPool; this.maxBufferMB = maxBufferMB; } public void startMonitoring() { scheduler.scheduleAtFixedRate(this::checkAOFRewrite, 0, 5, TimeUnit.SECONDS); } private void checkAOFRewrite() { try (Jedis jedis = jedisPool.getResource()) { String info = jedis.info("persistence"); // 解析持久化信息 Pattern inProgressPattern = Pattern.compile("aof_rewrite_in_progress:(\\d)"); Pattern bufferLengthPattern = Pattern.compile("aof_rewrite_buffer_length:(\\d+)"); Matcher inProgressMatcher = inProgressPattern.matcher(info); if (inProgressMatcher.find() && "1".equals(inProgressMatcher.group(1))) { // 正在重写，检查缓冲区大小 Matcher bufferMatcher = bufferLengthPattern.matcher(info); if (bufferMatcher.find()) { long bufferSize = Long.parseLong(bufferMatcher.group(1)); double bufferMB = bufferSize / 1024.0 / 1024.0; if (bufferMB > maxBufferMB) { // 缓冲区过大，紧急措施 System.err.printf("AOF重写缓冲区过大: %.2fMB%n", bufferMB); // 1. 通知应用层限流 publishAlert("aof_buffer_overflow", bufferMB); // 2. 如果超过 2 倍阈值，考虑中止重写 if (bufferMB > maxBufferMB * 2) { // 这是个危险操作，记录日志 System.err.println("警告：AOF缓冲区超过2倍阈值，考虑中止重写"); // 实际生产环境中，这里应该发送告警而不是自动中止 // jedis.configSet("appendonly", "no"); // Thread.sleep(1000); // jedis.configSet("appendonly", "yes"); } } } } } catch (Exception e) { System.err.println("AOF监控异常: " + e.getMessage()); } } private void publishAlert(String type, double bufferMB) { // 实际环境中这里应该接入告警系统 System.err.printf("告警: %s, 缓冲区大小: %.2fMB%n", type, bufferMB); } }

隐藏技巧：利用 COW 做零成本备份

这是个很少人知道的技巧。既然 COW 让父子进程共享内存，那能不能利用这个特性做备份？

传统备份：

# 占用双倍内存 redis-cli --rdb /backup/dump.rdb

COW 备份：

import redis.clients.jedis.Jedis; import java.io.*; import java.util.regex.*; import java.util.concurrent.TimeUnit; public class COWBackupUtil { public static void cowBackup(Jedis jedis, String backupPath) throws Exception { // 1. 触发 BGSAVE String result = jedis.bgsave(); System.out.println("BGSAVE 触发: " + result); // 2. 等待 BGSAVE 开始（不是结束） long childPid = -1; Pattern pidPattern = Pattern.compile("rdb_last_bgsave_pid:(\\d+)"); Pattern progressPattern = Pattern.compile("rdb_bgsave_in_progress:(\\d)"); while (childPid == -1) { String info = jedis.info("persistence"); Matcher progressMatcher = progressPattern.matcher(info); if (progressMatcher.find() && "1".equals(progressMatcher.group(1))) { Matcher pidMatcher = pidPattern.matcher(info); if (pidMatcher.find()) { childPid = Long.parseLong(pidMatcher.group(1)); } } TimeUnit.MILLISECONDS.sleep(100); } System.out.println("BGSAVE 子进程 PID: " + childPid); // 3. 这时子进程已经 fork 完成，内存是 COW 共享的 // 可以慢慢导出数据，不影响主进程 // 4. 通过 /proc 读取子进程的内存映射（需要 Linux 环境） File mapsFile = new File("/proc/" + childPid + "/maps"); if (mapsFile.exists()) { try (BufferedReader reader = new BufferedReader(new FileReader(mapsFile))) { String line; System.out.println("内存映射信息:"); while ((line = reader.readLine()) != null) { // 找到堆区域（通常包含 Redis 数据） if (line.contains("[heap]")) { System.out.println("堆区域: " + line); } } } } // 5. 等待 BGSAVE 完成，然后复制 dump.rdb 文件 Pattern lastSavePattern = Pattern.compile("rdb_last_bgsave_status:ok"); while (true) { String info = jedis.info("persistence"); if (lastSavePattern.matcher(info).find()) { // BGSAVE 完成，复制文件 File sourceFile = new File(jedis.configGet("dir").get(1) + "/" + jedis.configGet("dbfilename").get(1)); File destFile = new File(backupPath); try (FileInputStream fis = new FileInputStream(sourceFile); FileOutputStream fos = new FileOutputStream(destFile)) { byte[] buffer = new byte[8192]; int bytesRead; while ((bytesRead = fis.read(buffer)) != -1) { fos.write(buffer, 0, bytesRead); } } System.out.println("COW 备份完成: " + backupPath); break; } TimeUnit.SECONDS.sleep(1); } } }

生产环境的最佳配置

经过无数次调优，这是我认为比较均衡的配置：

# ========== 内存管理 ========== maxmemory 32gb maxmemory-policy volatile-lru # 预留 25% 内存给 COW maxmemory-reserved 8gb # 仅 Redis 7.0+ # ========== RDB 配置 ========== # 分层保存策略 save 3600 1 # 1小时内至少1个键改变 save 1800 100 # 30分钟内至少100个键改变 save 300 10000 # 5分钟内至少10000个键改变 # 压缩和校验 rdbcompression yes rdbchecksum yes # BGSAVE 失败不停止写入（危险但实用） stop-writes-on-bgsave-error no # ========== AOF 配置 ========== appendonly yes appendfilename "redis.aof" # 同步策略（everysec 是最佳平衡） appendfsync everysec # AOF 重写 auto-aof-rewrite-percentage 100 auto-aof-rewrite-min-size 2gb no-appendfsync-on-rewrite yes # 混合持久化（强烈推荐） aof-use-rdb-preamble yes # ========== 系统层面 ========== # /etc/sysctl.conf vm.overcommit_memory=1 # 允许 overcommit vm.overcommit_ratio=100 # 可以用到 100% 物理内存 vm.swappiness=1 # 尽量不用 swap vm.dirty_background_ratio=5 # 后台开始刷盘的脏页比例 vm.dirty_ratio=10 # 前台强制刷盘的脏页比例 # 透明大页（THP） echo madvise > /sys/kernel/mm/transparent_hugepage/enabled echo never > /sys/kernel/mm/transparent_hugepage/defrag

监控：这些指标必须盯着

import redis.clients.jedis.Jedis; import java.io.*; import java.util.*; import java.util.regex.*; public class RedisCoWMonitor { private final Jedis redis; private final Map<String, Double> metrics = new HashMap<>(); public RedisCoWMonitor(Jedis redis) { this.redis = redis; } public Map<String, Double> collectMetrics() { String info = redis.info(); Map<String, String> infoMap = parseInfo(info); // 核心指标 metrics.put("cow_overhead", calculateCowOverhead(infoMap)); metrics.put("fork_time_ms", Double.parseDouble(infoMap.getOrDefault("latest_fork_usec", "0")) / 1000); metrics.put("fragmentation", Double.parseDouble(infoMap.getOrDefault("mem_fragmentation_ratio", "1.0"))); // 持久化相关 String persistInfo = redis.info("persistence"); Map<String, String> persistMap = parseInfo(persistInfo); metrics.put("rdb_in_progress", Double.parseDouble(persistMap.getOrDefault("rdb_bgsave_in_progress", "0"))); metrics.put("aof_rewrite_in_progress", Double.parseDouble(persistMap.getOrDefault("aof_rewrite_in_progress", "0"))); metrics.put("aof_buffer_length", Double.parseDouble(persistMap.getOrDefault("aof_rewrite_buffer_length", "0"))); // 内存使用 double usedMemory = Double.parseDouble(infoMap.getOrDefault("used_memory", "0")); double usedMemoryRss = Double.parseDouble(infoMap.getOrDefault("used_memory_rss", "0")); metrics.put("used_memory_gb", usedMemory / Math.pow(1024, 3)); metrics.put("used_memory_rss_gb", usedMemoryRss / Math.pow(1024, 3)); metrics.put("memory_available", (double) getSystemAvailableMemory()); return metrics; } private Map<String, String> parseInfo(String info) { Map<String, String> result = new HashMap<>(); String[] lines = info.split("\n"); for (String line : lines) { if (line.contains(":")) { String[] parts = line.split(":", 2); result.put(parts[0].trim(), parts[1].trim()); } } return result; } private double calculateCowOverhead(Map<String, String> infoMap) { double used = Double.parseDouble(infoMap.getOrDefault("used_memory", "0")); double rss = Double.parseDouble(infoMap.getOrDefault("used_memory_rss", "0")); double fragmentation = Double.parseDouble( infoMap.getOrDefault("mem_fragmentation_ratio", "1.0")); // RSS 包含：实际使用 + COW复制 + 内存碎片 // 减去碎片部分，剩下的主要是 COW double cowOverhead = rss - used * fragmentation; return Math.max(0, cowOverhead); // 可能是负数，取 0 } public List<String> alertIfNeeded() { List<String> alerts = new ArrayList<>(); // COW 开销超过 50% double usedMemoryBytes = metrics.get("used_memory_gb") * Math.pow(1024, 3); if (metrics.get("cow_overhead") > usedMemoryBytes * 0.5) { alerts.add("COW 内存开销过大"); } // Fork 时间超过 200ms if (metrics.get("fork_time_ms") > 200) { alerts.add(String.format("Fork 耗时过长: %.2fms", metrics.get("fork_time_ms"))); } // 内存碎片严重 if (metrics.get("fragmentation") > 1.5) { alerts.add(String.format("内存碎片率过高: %.2f", metrics.get("fragmentation"))); } // AOF 重写缓冲区过大 if (metrics.get("aof_buffer_length") > Math.pow(1024, 3)) { // 1GB double bufferGb = metrics.get("aof_buffer_length") / Math.pow(1024, 3); alerts.add(String.format("AOF 重写缓冲区过大: %.2fGB", bufferGb)); } // 可用内存不足 if (metrics.get("memory_available") < metrics.get("used_memory_gb") * 0.3 * Math.pow(1024, 3)) { alerts.add("系统可用内存不足，COW 可能失败"); } return alerts; } private long getSystemAvailableMemory() { // Linux 系统获取可用内存 try (BufferedReader reader = new BufferedReader(new FileReader("/proc/meminfo"))) { String line; while ((line = reader.readLine()) != null) { if (line.startsWith("MemAvailable:")) { String[] parts = line.split("\\s+"); return Long.parseLong(parts[1]) * 1024; // KB to Bytes } } } catch (IOException e) { System.err.println("无法读取系统内存信息: " + e.getMessage()); } return 0; } }

不同场景的 COW 策略

场景一：缓存系统（可以接受数据丢失）

# 关闭持久化，完全避免 COW save "" appendonly no # 或者只做最低限度的持久化 save 7200 1 # 2小时 appendonly no

场景二：Session 存储（需要一定持久性）

# RDB 足够，AOF 太重 save 900 1 300 10 60 10000 appendonly no # 用主从复制代替 AOF # 从节点可以更激进地做持久化

场景三：消息队列（不能丢数据）

# AOF 为主，RDB 为辅 appendonly yes appendfsync everysec save 1800 1 # 考虑使用 Redis Streams + Consumer Groups # 自带持久化和 ack 机制

场景四：实时分析（写入密集）

import redis.clients.jedis.*; import java.util.Set; import java.util.concurrent.*; // 时间窗口策略 public class TimeWindowRedis { private final JedisPool currentPool; // 当前窗口（不持久化） private final JedisPool historyPool; // 历史窗口（定期持久化） private final ScheduledExecutorService scheduler = Executors.newScheduledThreadPool(1); public TimeWindowRedis() { JedisPoolConfig config = new JedisPoolConfig(); config.setMaxTotal(50); // 双缓冲：当前窗口 + 历史窗口 this.currentPool = new JedisPool(config, "localhost", 6379); this.historyPool = new JedisPool(config, "localhost", 6380); // 配置不同的持久化策略 try (Jedis current = currentPool.getResource()) { current.configSet("save", ""); // 不持久化 } try (Jedis history = historyPool.getResource()) { history.configSet("save", "1800 1"); // 30分钟持久化 } // 每小时轮转一次窗口 scheduler.scheduleAtFixedRate(this::rotateWindow, 1, 1, TimeUnit.HOURS); } public void write(String key, String value) { // 写入当前窗口 try (Jedis jedis = currentPool.getResource()) { jedis.set(key, value); } } public void rotateWindow() { System.out.println("开始窗口轮转..."); try (Jedis current = currentPool.getResource(); Jedis history = historyPool.getResource()) { // 1. 当前窗口数据导入历史 ScanParams scanParams = new ScanParams().count(100); String cursor = "0"; do { ScanResult<String> scanResult = current.scan(cursor, scanParams); for (String key : scanResult.getResult()) { String value = current.get(key); if (value != null) { history.set(key, value); } } cursor = scanResult.getCursor(); } while (!"0".equals(cursor)); // 2. 清空当前窗口 current.flushDB(); // 3. 历史窗口做持久化 history.bgsave(); System.out.println("窗口轮转完成"); } catch (Exception e) { System.err.println("窗口轮转失败: " + e.getMessage()); } } public void shutdown() { scheduler.shutdown(); currentPool.close(); historyPool.close(); } }

踩坑总结：血泪教训

永远不要在内存使用超过 70% 时做持久化
COW 需要额外内存，留 30% 是底线实在不行，先淘汰一些 key 再持久化

fork 失败不是世界末日
准备好降级方案（比如写日志、发消息队列）监控 latest_fork_usec = -1 表示 fork 失败

不要迷信 Redis 的默认配置
默认配置是为了兼容性，不是为了性能根据实际场景调整，没有银弹

COW 不是万能的
写入越分散，COW 效果越差考虑业务层面的优化（比如批量写、按范围写）

主从复制也会触发 COW
全量同步时，主节点会 BGSAVE部分重同步失败会退化为全量同步建议：repl-backlog-size 设大一点（1GB起步）

实战案例：Spring Boot 集成 Redis COW 监控

在实际项目中，我们通常需要把 Redis COW 监控集成到 Spring Boot 应用里：

import org.springframework.stereotype.Service; import org.springframework.scheduling.annotation.Scheduled; import org.springframework.beans.factory.annotation.Autowired; import redis.clients.jedis.JedisPool; import redis.clients.jedis.Jedis; import org.slf4j.Logger; import org.slf4j.LoggerFactory; @Service public class RedisCowService { private static final Logger logger = LoggerFactory.getLogger(RedisCowService.class); @Autowired private JedisPool jedisPool; // 每分钟检查一次 COW 状态 @Scheduled(fixedDelay = 60000) public void monitorCowStatus() { try (Jedis jedis = jedisPool.getResource()) { String info = jedis.info(); // 解析关键指标 long usedMemory = parseInfoLong(info, "used_memory:"); long usedMemoryRss = parseInfoLong(info, "used_memory_rss:"); double fragRatio = parseInfoDouble(info, "mem_fragmentation_ratio:"); // 计算 COW 压力指数 double cowPressure = (usedMemoryRss - usedMemory) / (double) usedMemory; if (cowPressure > 0.3) { logger.warn("COW内存压力过高: {}%, 考虑优化写入模式", cowPressure * 100); // 动态调整策略 adjustStrategy(jedis, cowPressure); } // 记录指标到监控系统（Prometheus/Grafana） recordMetrics(usedMemory, usedMemoryRss, fragRatio, cowPressure); } } private void adjustStrategy(Jedis jedis, double cowPressure) { if (cowPressure > 0.5) { // 压力极高，临时关闭自动持久化 jedis.configSet("save", ""); logger.warn("COW压力极高，已临时关闭自动持久化"); // 通知运维人员 sendAlert("Redis COW压力超过50%，请立即检查"); } else if (cowPressure > 0.3) { // 压力较高，延长持久化间隔 jedis.configSet("save", "3600 1"); // 改为1小时 logger.info("调整持久化间隔为1小时"); } } private long parseInfoLong(String info, String key) { int start = info.indexOf(key); if (start == -1) return 0; start += key.length(); int end = info.indexOf('\r', start); if (end == -1) end = info.indexOf('\n', start); return Long.parseLong(info.substring(start, end)); } private double parseInfoDouble(String info, String key) { int start = info.indexOf(key); if (start == -1) return 0; start += key.length(); int end = info.indexOf('\r', start); if (end == -1) end = info.indexOf('\n', start); return Double.parseDouble(info.substring(start, end)); } private void recordMetrics(long usedMemory, long usedMemoryRss, double fragRatio, double cowPressure) { // 这里接入你的监控系统 // 比如 Micrometer、Prometheus 等 } private void sendAlert(String message) { // 接入告警系统：钉钉、企业微信、PagerDuty 等 logger.error("告警: " + message); } }

高级技巧：利用 Lua 脚本减少 COW 开销

很多人不知道，Lua 脚本可以显著减少 COW 期间的内存复制：

public class LuaOptimizedRedis { private final JedisPool jedisPool; // 批量更新的 Lua 脚本 private static final String BATCH_UPDATE_SCRIPT = "local count = 0\n" + "for i = 1, #KEYS do\n" + " redis.call('SET', KEYS[i], ARGV[i])\n" + " count = count + 1\n" + " -- 每100个key做一次内存整理\n" + " if count % 100 == 0 then\n" + " redis.call('MEMORY', 'PURGE')\n" + " end\n" + "end\n" + "return count"; // 条件性持久化的 Lua 脚本 private static final String CONDITIONAL_SAVE_SCRIPT = "local info = redis.call('INFO', 'memory')\n" + "local used = tonumber(string.match(info, 'used_memory:(%d+)'))\n" + "local total = tonumber(string.match(info, 'total_system_memory:(%d+)'))\n" + "if used / total < 0.7 then\n" + " redis.call('BGSAVE')\n" + " return 'BGSAVE triggered'\n" + "else\n" + " return 'Memory usage too high, skip BGSAVE'\n" + "end"; public LuaOptimizedRedis(JedisPool jedisPool) { this.jedisPool = jedisPool; } public long batchUpdate(Map<String, String> data) { try (Jedis jedis = jedisPool.getResource()) { List<String> keys = new ArrayList<>(data.keySet()); List<String> values = new ArrayList<>(); for (String key : keys) { values.add(data.get(key)); } // 执行 Lua 脚本，原子操作减少内存碎片 Object result = jedis.eval(BATCH_UPDATE_SCRIPT, keys, values); return (Long) result; } } public String conditionalSave() { try (Jedis jedis = jedisPool.getResource()) { // 只在内存使用率低于70%时触发持久化 return (String) jedis.eval(CONDITIONAL_SAVE_SCRIPT, 0); } } }

生产环境实战：处理千万级数据的 COW 优化

这是我在一个电商项目中看到的处理千万级商品缓存的方案：

import java.util.concurrent.*; import java.util.*; import redis.clients.jedis.*; public class MassiveDataCowOptimizer { private final List<JedisPool> shardPools = new ArrayList<>(); private final int SHARD_COUNT = 16; // 16个分片 private final ExecutorService executor = Executors.newFixedThreadPool(32); public MassiveDataCowOptimizer() { // 初始化16个Redis分片，每个2GB for (int i = 0; i < SHARD_COUNT; i++) { JedisPoolConfig config = new JedisPoolConfig(); config.setMaxTotal(10); config.setMaxIdle(5); JedisPool pool = new JedisPool(config, "redis-shard-" + i, 6379); shardPools.add(pool); // 每个分片不同的持久化策略 try (Jedis jedis = pool.getResource()) { if (i < 4) { // 前4个分片存热数据，不持久化 jedis.configSet("save", ""); } else if (i < 12) { // 中间8个分片，适度持久化 jedis.configSet("save", "1800 100"); } else { // 最后4个分片存冷数据，频繁持久化 jedis.configSet("save", "300 10"); } } } } // 一致性哈希分片 private int getShard(String key) { return Math.abs(key.hashCode()) % SHARD_COUNT; } // 并行批量写入，最小化COW影响 public void parallelBatchWrite(Map<String, String> bigData) throws InterruptedException { // 按分片分组数据 Map<Integer, Map<String, String>> shardedData = new HashMap<>(); for (Map.Entry<String, String> entry : bigData.entrySet()) { int shard = getShard(entry.getKey()); shardedData.computeIfAbsent(shard, k -> new HashMap<>()) .put(entry.getKey(), entry.getValue()); } // 并行写入各分片 CountDownLatch latch = new CountDownLatch(shardedData.size()); for (Map.Entry<Integer, Map<String, String>> entry : shardedData.entrySet()) { final int shardId = entry.getKey(); final Map<String, String> shardData = entry.getValue(); executor.submit(() -> { try { writeToShard(shardId, shardData); } finally { latch.countDown(); } }); } latch.await(30, TimeUnit.SECONDS); } private void writeToShard(int shardId, Map<String, String> data) { JedisPool pool = shardPools.get(shardId); try (Jedis jedis = pool.getResource()) { // 检查当前分片的内存状态 String info = jedis.info("memory"); long usedMemory = parseMemory(info, "used_memory:"); if (usedMemory > 1_500_000_000) { // 超过1.5GB // 内存过高，分批写入 Pipeline pipe = jedis.pipelined(); int count = 0; for (Map.Entry<String, String> entry : data.entrySet()) { pipe.set(entry.getKey(), entry.getValue()); if (++count % 100 == 0) { pipe.sync(); // 让COW有机会处理 Thread.sleep(1); pipe = jedis.pipelined(); } } if (count % 100 != 0) { pipe.sync(); } } else { // 内存充足，一次性写入 Pipeline pipe = jedis.pipelined(); for (Map.Entry<String, String> entry : data.entrySet()) { pipe.set(entry.getKey(), entry.getValue()); } pipe.sync(); } } catch (Exception e) { System.err.println("分片" + shardId + "写入失败: " + e.getMessage()); } } // 智能持久化调度 public void smartPersistence() { ScheduledExecutorService scheduler = Executors.newScheduledThreadPool(1); scheduler.scheduleAtFixedRate(() -> { for (int i = 0; i < SHARD_COUNT; i++) { final int shardId = i; executor.submit(() -> checkAndPersist(shardId)); } }, 0, 5, TimeUnit.MINUTES); } private void checkAndPersist(int shardId) { JedisPool pool = shardPools.get(shardId); try (Jedis jedis = pool.getResource()) { String info = jedis.info(); // 解析关键指标 boolean rdbInProgress = info.contains("rdb_bgsave_in_progress:1"); long changedKeys = parseMemory(info, "rdb_changes_since_last_save:"); // 根据变化量决定是否持久化 if (!rdbInProgress && changedKeys > 10000) { // 检查系统负载 double loadAvg = getSystemLoadAverage(); if (loadAvg < 2.0) { // 负载低时才持久化 jedis.bgsave(); System.out.println("分片" + shardId + "触发持久化，变更键数: " + changedKeys); } } } } private long parseMemory(String info, String key) { int idx = info.indexOf(key); if (idx == -1) return 0; idx += key.length(); int end = info.indexOf('\n', idx); if (end == -1) end = info.length(); return Long.parseLong(info.substring(idx, end).trim()); } private double getSystemLoadAverage() { return ManagementFactory.getOperatingSystemMXBean().getSystemLoadAverage(); } }