【ASK_ORACLE】因process用尽导致的rac重启的解决方法

来源:这里教程网 时间:2026-03-03 18:18:34 作者:

说明

上周末一个重要系统出现了问题导致rac重启,影响了业务,因此记录一下解决过程。

环境

搭建平台:VMware Workstation

OS:RHEL 6.10

Grid&DB:Oracle 11.2.0.4  问题描述上周末下午数据库的会话数突增,导致数据库节点一进程数满了,应用新的会话连接节点1报错,alert日志中出现大量的ORA-00020报错,直到30分钟后节点一实例重启,随后数据库恢复正常。在这期间影响了多笔重要业务。  分析过程alert日志显示最大进程数用尽,出现ORA-00020的反复报错,此时数据库已经发生阻塞,导致节点一实例process用尽。  ASH发现16:21开始1#会话突增,16:22开始2#实例突增:可以看出是1#节点先出现问题,随后导致2#实例的会话数突增。  发现16:21:02开始出现等待enq: US – contention,16:21:12  1#出现12个ens: US等待,随后出现enq: SV -contention: 注: enq: US – contention是事务出现undo segment不够时需要申请新的undo segment产生的阻塞 enq: SV – contention是获取sequence number而产生的阻塞 查看对应的SQL ID发现都是DML操作: 查看awr报告:1. 发现相关SQL和两个sequence有关,于是查看这些sequence的定义后发现了两个问题: (1)有order关键字,会导致RAC环境操作进行2个节点的同步处理 (2)Cache过小因此enq: US – contention和enq: SV – contention等待是相关关联的,enq: US 阻塞会导致包含sequence nextval的DML无法提交,导致sequence更新cache失败;而enq: SV -contention阻塞也可能导致sequence更新慢,DML操作缓慢。 2. AWR发现故障之前最大并发事务100左右,因此ONLINE的undo segment可能在100左右,但是故障时两个问题SQL的确出现了接近200的并发session,并且二节点当时也有少量并发sql。同时查看两个节点的历史最大会话数在2千多 综上分析,本次故障原因是突增的并发DML语句,导致online undo segment不够,当online扩展undo段时产生阻塞,并且相关问题SQL的sequence使用order模式,会导致顺序同步争用,跨节点操作更严重。  解决方法1、按关闭自动undo管理,并设置足够的online回滚段:alter system set "_rollback_segment_count"=3000;alter system set "_undo_autotune"=FALSE;2、 修改sequence cache到10000,取消order,减少数据字典更新频率及同步:alter sequence XXX1_SEQ_S cache 10000 noorder;alter sequence XXX2_SEQ_S cache 10000 noorder;3、为避免跨实例同步,使应用连接同一个实例

相关推荐