系统测试
计划内节点重启
|
场景 |
计划内节点重启 |
|
过程 |
重启高负载的节点 For linux : Shutdown -r now |
|
预期结果 |
1. 该节点实例及其他资源offline 2. Vip 发生fail over 3. 运行在该节点的scan vip将发生fail over 4. Vip listener 发生failover 5. 另一节点执行实例恢复 6. 服务(该节点为prefered时)移至幸存节点 7. 客户连接移动/重新连接至幸存节点 8. 数据库完成重新配置后继续对外服务 |
|
衡量标准 |
监控系统日志及集群状态,符合预期。 |
|
实际结果 |
1.blcsen1p 关机前,集群状态 2.blcsen1p 关机 shutdown –r now 3.blcsen2p 上集群状态 该节点实例及其他资源offlineVip 发生fail over 运行在该节点的scan vip 将发生fail overVip listener 发生failover 另一节点执行实例恢复 服务(该节点为prefered 时)移至幸存节点 客户连接移动/ 重新连接至幸存节点 数据库完成重新配置后继续对外服务 |
非计划内OCR MASTER 节点重启
|
场景 |
非计划内OCR MASTER节点重启 |
|
过程 |
1. 识别ocr master节点: grep -i "OCR MASTER" /grid/app/11.2.0/grid/log/blcsen1p/crsd/crsd.log 2. 关闭ocr master节点 |
|
预期结果 |
1. 该节点实例及其他资源offline 2. Vip 发生fail over 3. 运行在该节点的scan vip将发生fail over 4. Vip listener 发生failover 5. 另一节点执行实例恢复 6. 服务(该节点为prefered时)移至幸存节点 7. 客户连接移动/重新连接至幸存节点 8. 数据库完成重新配置后继续对外服务 |
|
衡量标准 |
监控系统日志及集群状态,符合预期。 |
|
实际结果 |
在blcsen2p 上使用init 0 关机,观察预期结果 blcsen2p 节点实例及其他资源offline ,服务切换到blcsen1pVip 发生fail over 运行在该节点的scan vip 将发生fail overVip listener 发生failover 另一节点执行实例恢复 服务(该节点为prefered 时)移至幸存节点 客户连接移动/ 重新连接至幸存节点 数据库完成重新配置后继续对外服务 |
重启故障节点
|
场景 |
重启故障节点 |
|
过程 |
故障节点启动 |
|
预期结果 |
1. 当集群拥有3或少于3个节点时,一个scan vips 和侦听重新返回启动的节点。 2. VIP 会迁移回启动后的节点。 3. 之前发生fail over的服务不会自动relocate 4. 相关资源(asm,listener,instance,etc)将随集群重启。 |
|
衡量标准 |
监控系统日志及集群状态,符合预期。 |
|
实际结果 |
硬件节点重启,大约10分钟,重启后,crs并不随机器重启 blcsen2p 启动后, vips 和侦听重新返回启动的节点。VIP 会迁移回启动后的节点。 之前发生fail over 的服务不会自动relocate ,仍然在blcsen1p 相关资源(asm ,listener ,instance ,etc )将随集群重启。 |
同时重启全部节点
|
场景 |
同时重启全部节点 |
|
过程 |
重启全部节点 For linux : shutdown –r now |
|
预期结果 |
1. 全部实例、资源重启正常 |
|
衡量标准 |
监控系统日志及集群状态,符合预期。 |
|
实际结果 |
1. 两个节点重启 2.reboot 时间很短,大约4分钟完成重启动作 需要手工启动crs crs 无法随机器启动而启动 |
实例故障
|
场景 |
实例故障 |
|
过程 |
模拟实例故障 ps -ef|grep pmon Kill -9 pid |
|
预期结果 |
1. 集群中另一节点发生实例恢复 2. 服务(该节点prefered)移动至其他可以实例 3. 客户端连接移动或重连至其他幸存节点 4. 经过短暂hang,幸存节点继续对外服务 5. 故障节点随集群重启 |
|
衡量标准 |
监控系统日志及集群状态,符合预期。 |
|
实际结果 |
杀掉blcsen1p 上smon 进程 集群中另一节点发生实例恢复 服务(该节点prefered )移动至其他可以实例 客户端连接移动或重连至其他幸存节点 经过短暂hang ,幸存节点继续对外服务 blcsen1p 数据库实例自动重启 故障节点随集群重启 |
计划内终止实例
|
场景 |
计划内终止实例 |
|
过程 |
停止数据库实例 Shutdown abort |
|
预期结果 |
1. 其他实例执行实例恢复 2. 服务(该节点为prefered时)移至幸存节点 3. 客户连接移动/重新连接至幸存节点 4. 实例不会随集群启动(由于用户调用了shutdown) |
|
衡量标准 |
监控系统日志及集群状态,符合预期。 |
|
实际结果 |
1. 停止blcsen2p数据库shutdown abort blcsen1p 实例执行实例恢复 服务(该节点为prefered 时)移至幸存节点 客户连接移动/ 重新连接至幸存节点 实例不会随集群启动(由于用户调用了shutdown ) |
1.7 重启故障节点
|
场景 |
重启故障节点 |
|
过程 |
1. 节点异常会由集群自动启动。 2. 人工shutdown的节点需要手工启动。 3. 当关闭自动启动选项时,也需要手工启动。 |
|
预期结果 |
1. 实例重新加入RAC集群 2. 客户端连接根据配置进行load balance |
|
衡量标准 |
监控系统日志及集群状态,符合预期。 |
|
实际结果 |
计划外ASM 实例错误
|
场景 |
计划外ASM实例错误 |
|
过程 |
识别ASM实例并终止 Ps -ef|grep pmon Kill -9 <pmon pid> |
|
预期结果 |
1. 该节点下列资源(*.dg,*.acfs,*.asm,*.db)offline 2. 另一个节点执行实例恢复 3. 服务(该节点为prefered时)移至幸存节点 4. 客户端连接移动或重连至其他幸存节点 5. 数据库重新配置完成后,继续对外服务。 6. 集群日志将显示 由于不能访问ocr 导致crsd offline。 |
|
衡量标准 |
监控系统日志及集群状态,符合预期。 |
|
实际结果 |
1. 杀掉asm2上smon进程 该节点下列资源( *.dg,*.acfs,*.asm,*.db)offline asm 实例自动重启 另一个节点执行实例恢复 服务(该节点为prefered 时)移至幸存节点 客户端连接移动或重连至其他幸存节点 数据库重新配置完成后,继续对外服务。 需要重新启动 集群日志将显示 由于不能访问ocr 导致crsd offline 。 |
监听错误
|
场景 |
监听错误 |
|
过程 |
终止监听进程 For Hp Aix linux Solaris: Ps -ef|grep tnslsnr Kill -9 <listener pid> |
|
预期结果 |
1. 已连接会话无影响 2. 新连接重定向至其他节点(与连接配置有关) 3. 专用服务器模式本地实例不再接受新连接;共享服务器模式下可继续接受新客户连接。 4. listener 故障ORA AGENT自动检测并重启,可检查下列日志 $GI_HOME/log/<nodename>/crsd/crsd.log $GI_HOME/log/<nodename>/agent/crsd/oraagent_<GI_owner>oraagent_ <GI_owner>.log |
|
衡量标准 |
监控系统日志及集群状态,符合预期。 |
|
实际结果 |
初始状态 登入测试会话 杀监听会话 已连接会话未受影响 重新连接失败 检查/grid/app/11.2.0/grid/log/blcsen1p/crsd/crsd.log 可见重启监听信息 检查/grid/app/11.2.0/grid/log/blcsen1p/agent/crsd/oraagent_grid/oraagent_grid.log 可见检测并重启监听信息 重启完成恢复正常 |
