1 问题现象
最近,腾讯云某内部系统不定期出现数据库访问行更新慢,数据库用户线程大量堆积的现象。从slow log中观察,大量update执行时间超过10秒,甚至个别update执行时间超过百秒,这已经严重影响该系统的正常运行。 运维同学不得不采取杀死运行session的方式解决该问题,由于访问数据库的任务是离线后台批处理任务,因此会选择业务压力小的时候运行该任务,比如半夜12点,因此,运维同学必须半夜采取紧急措施,这给线上运行造成极大的负担。
2 问题分析
2.1 山重水复
2.2 峰会路转

2.3 柳暗花明


3 问题解决
阻断lock_wait_suspend_thread 对lock_wait_timeout_thread触发,如下图所示:

4 结果
|
|
|
|
|
|
|
|
|
|
|
|

