监听错误
|
场景 |
Scan 监听错误 |
|
过程 |
终止监听进程 For Hp Aix linux Solaris: Ps -ef|grep tnslsnr Kill -9 <listener pid> |
|
预期结果 |
1. 已连接会话无影响 2. 新连接重定向至其他节点(与连接配置有关) 3. SCAN listener 故障被CRSD ORA AGENT自动检测并自动重启,可检查下列日志 $GI_HOME/log/<nodename>/crsd/crsd.log $GI_HOME/log/<nodename>/agent/crsd/oraagent_<GI_owner>oraagent_ <GI_owner>.log |
|
衡量标准 |
监控系统日志及集群状态,符合预期。 |
|
实际结果 |
登入会话测试(使用scan ) 已连接会话无影响 新建连接失败 检查/grid/app/11.2.0/grid/log/blcsen1p/crsd/crsd.log 可见重启监听信息 检查/grid/app/11.2.0/grid/log/blcsen1p/agent/crsd/oraagent_grid/oraagent_grid.log 可见检测并重启监听信息 重启listener 恢复正常 |
网卡错误
|
场景 |
public 网卡错误 |
|
过程 |
拔掉public 网卡网线 注意: 1. 配置了NIS需要实现NSCD以便测试顺利 2. 不建议使用ifconfig方式停用网卡 |
|
预期结果 |
1. 使用crsctl stat res -t检查 Ora.*.network,listener 资源offline Scan vips,scan listener 发生fail over Vip 发生fail over 2. 数据库实例保持存活,但退出远程监听的注册状态。 3. 服务发生fail over 4. 配置了TAF客户端会fail over 至另一可用节点。 |
|
衡量标准 |
监控系统日志及集群状态,符合预期。 |
|
实际结果 |
错误
|
场景 |
Public NIC 错误 |
|
过程 |
针对配置了网卡绑定或其他网络冗余 拔掉其中一根网线 注意:不建议使用ifconfig方式停用网卡 |
|
预期结果 |
1. 网络进行切换 2. 对数据库无影响 |
|
衡量标准 |
监控系统日志及集群状态,符合预期。 |
|
实际结果 |
内联网络错误
|
场景 |
内联网络错误11.2.0.1 注意:不建议使用ifconfig方式停用网卡 |
|
过程 |
拔掉全部内联网卡网线 |
|
预期结果 |
11.2.0.1 版本 1. CSSD 检测到脑裂并执行以下步骤 双节点集群中,最少节点数的节点存活,另一节点重启。 多节点集群中,最大的子集群存活,其他节点被重启。 2. 检查一下日志 $GI_HOME/log/<nodename>/cssd/ocssd.log $GI_HOME/log/<nodename>/alert<nodename>.log 11.2.0.2 版本 1. CSSD 检测到脑裂并执行以下步骤 双节点集群中,最少节点数的节点存活。 多节点集群中,最大的子集群存活。 2. 在被驱逐节点,集群停止将尝试: 终止IO进程并清理资源,无法成功完成则重启节点。 上一步成功完成,OHASD尝试重启堆栈。这种情况下当private网络恢复后stack会被重启。 3. 检查一下日志 $GI_HOME/log/<nodename>/cssd/ocssd.log $GI_HOME/log/<nodename>/alert<nodename>.log |
|
衡量标准 |
监控系统日志及集群状态,符合预期。 |
|
实际结果 |
内联网络 NIC 错误
|
场景 |
内联网络NIC错误 |
|
过程 |
针对内联网卡配置了OS或第三方冗余,拔掉一根网线。 |
|
预期结果 |
1. 网络切换,对数据库无影响。 |
|
衡量标准 |
监控系统日志及集群状态,符合预期。 |
|
实际结果 |
内联网络错误( oracle redundant )
|
场景 |
内联网络错误,仅使用11.2.0.2及更高版本 |
|
过程 |
针对使用oracle自己的网络redundant方式,配置了2个以上的NICs作为HAIP,拔掉一根网线。 |
|
预期结果 |
1. 网络切换 2. 集群及RAC通讯不收影响 3. 监控以下日志: $GI_HOME/log/<nodename>/cssd/ocssd.log $GI_HOME/log<nodename>/gipcd/gipcd.log 4. 重新连接网络,HAIP重新回到之前的网络接口。 |
|
衡量标准 |
监控系统日志及集群状态,符合预期。 |
|
实际结果 |
内联网络交换机错误
|
场景 |
内联网络交换机错误 |
|
过程 |
在冗余网络交换机配置环境下,关闭一台交换。 |
|
预期结果 |
1. 网络发生切换 2. 对数据库无影响 |
|
衡量标准 |
监控系统日志及集群状态,符合预期。 |
|
实际结果 |
节点丢失 voting disk 访问路径
|
场景 |
节点丢失voting disk 访问路径 |
|
过程 |
断开节点余voting disk的访问路径(断开线缆等方法) |
|
预期结果 |
11.2.0.1 版本 1. CSS 检测并驱逐该节点。检查如下日志: $GI_HOME/log/<nodename>/cssd/ocssd.log $GI_HOME/log/<nodename>/alert<nodename>.log 11.2.0.2 版本 1. css 检测并按如下步骤驱逐该节点: 关闭IO进程并清理相关资源,无法成功完成时节点重启。 内联网络恢复后,OHASD尝试重启集群堆栈。 2. 检查如下日志: $GI_HOME/log/<nodename>/cssd/ocssd.log $GI_HOME/log/<nodename>/alert<nodename>.log |
|
衡量标准 |
监控系统日志及集群状态,符合预期。 |
|
实际结果 |
节点丢失单路磁盘访问路径
|
场景 |
节点丢失单路磁盘访问路径 |
|
过程 |
断开节点与磁盘单路访问路径(断开线缆等方法) |
|
预期结果 |
1. 多路径配置显示错误信息 2. 对数据库无影响 |
|
衡量标准 |
监控系统日志及集群状态,符合预期。 |
|
实际结果 |
磁盘丢失
|
场景 |
ASM 磁盘丢失 |
|
过程 |
Normal 冗余模式下,关闭单路磁盘通路。 |
|
预期结果 |
1. 数据库实例无影响 2. ASM 进行rebalance |
|
衡量标准 |
监控系统日志及集群状态,符合预期。 |
|
实际结果 |
磁盘修复
|
场景 |
ASM 磁盘修复 |
|
过程 |
Normal 冗余模式下,恢复磁盘通路。 |
|
预期结果 |
1. 数据库实例无影响 2.ASM 进行rebalance |
|
衡量标准 |
监控系统日志及集群状态,符合预期。 |
|
实际结果 |
不可访问
|
场景 |
Voting disk 不可访问 |
|
过程 |
断开全部节点与voting disk的连接。当voting disk在normal冗余的磁盘组中,移除与其中一路盘的访问连接。 |
|
预期结果 |
1. 集群保持可用 2. 访问恢复时,voting disk自动online 3. 可以crsctl query css votedisk查询 查看以下日志: $GI_HOME/log/<nodename>/cssd/cssd.log $GI_HOME/log/<nodename>/alert<nodename>.log |
|
衡量标准 |
监控系统日志及集群状态,符合预期。 |
|
实际结果 |
丢失并恢复一个 OCR 副本
|
场景 |
丢失并恢复一个OCR副本 |
|
过程 |
1. 移除与一个OCR副本的访问连接或强制卸载ASM磁盘组(asmcmd umount <dgname> -f) 2. 使用replace disk或重新挂载ASM磁盘组 Ocrcheck 会提示OCR不同步 3. 删除问题OCR并重新添加 Ocrconfig -delete +<diskgroup> Ocrconfig -add +<diskgroup> |
|
预期结果 |
1. 对集群无影响。查看以下日志: $GI_HOME/log/<nodename>/cssd/crsd.log $GI_HOME/log/<nodename>/alert<nodename>.log |
|
衡量标准 |
监控系统日志及集群状态,符合预期。 |
|
实际结果 |
