背景:客户的某个业务系统, 一节点监听只能注册 VIP , public ip 在重启完监听后,就算可以维持一段时间,但是过一会儿就掉了。
排查流程:
1、开启pmon trace Set PMON tracing to level 3 per the instructions. SQL>alter system set events='immediate trace name listener_registration level 3'; 重启监听 --等到出现异常之后 turn off pmon trace SQL>alter system set events='immediate trace name listener_registration level 0';
但是 观察trace出来的日志,并没有什么发现。
2、互相 traceroute 对方的 public ip、 private ip
发现有不连续的情况发生,会经过好几跳,不排除网络的问题,但是网络工程师确认没有网络问题。
3、查看节点一的 gipcd日志,来确认网卡状态
根据日志显示,私网的
rank
值在大多数时候情况下是良好的,但是在下午
15
:
31
左右的时候有出现
rank=0
的情况,这代表集群判断网卡不可用,过一会儿变成了
80(
代表可能良好
)
,后面变成
99
,正常情况就是
99

4、节点一查看网络层的网卡信息
oifcfg getif
但是在节点一运行该命令的时候 hang 住了,不出结果,节点二倒是可以出结果。
( kill -stop crsd.bin 进程,可以重现 oifcfg getif 挂起的现象。)
最终处理:
目前后台有两个发现:
1. kill -stop crsd.bin 进程,可以重现 oifcfg getif 挂起的现象。
2. oraagent_grid 里频繁发生 exit 的现象,说明 agent 一直在重启。
-- 重启crsd 资源理论上对其他资源不会有影响
结果:
重启完一节点的 crsd 资源后,监听最终正常, public ip 正常注册。
