监听故障案例

来源:这里教程网 时间:2026-03-03 22:38:21 作者:

背景:客户的某个业务系统, 一节点监听只能注册 VIP public ip 在重启完监听后,就算可以维持一段时间,但是过一会儿就掉了。

排查流程:

1、开启pmon trace
Set PMON tracing to level 3 per the instructions.
SQL>alter system set events='immediate trace name listener_registration level 3';
重启监听
--等到出现异常之后
 
turn off pmon trace
SQL>alter system set events='immediate trace name listener_registration level 0';

但是 观察trace出来的日志,并没有什么发现。

2、互相 traceroute 对方的 public ipprivate ip

发现有不连续的情况发生,会经过好几跳,不排除网络的问题,但是网络工程师确认没有网络问题。

3、查看节点一的 gipcd日志,来确认网卡状态

根据日志显示,私网的 rank 值在大多数时候情况下是良好的,但是在下午 15 31 左右的时候有出现 rank=0 的情况,这代表集群判断网卡不可用,过一会儿变成了 80( 代表可能良好 ) ,后面变成 99 ,正常情况就是 99

4、节点一查看网络层的网卡信息

oifcfg getif

但是在节点一运行该命令的时候 hang 住了,不出结果,节点二倒是可以出结果。

kill -stop crsd.bin 进程,可以重现 oifcfg getif 挂起的现象。)

最终处理:

目前后台有两个发现:

1. kill -stop crsd.bin 进程,可以重现 oifcfg getif 挂起的现象。

2. oraagent_grid 里频繁发生 exit 的现象,说明 agent 一直在重启。

-- 重启crsd 资源理论上对其他资源不会有影响

结果:

重启完一节点的 crsd 资源后,监听最终正常, public ip 正常注册。

相关推荐