[Linux-ha-jp] インタコネクト復旧時の動作について

Back to archive index

renay****@ybb***** renay****@ybb*****
2011年 10月 2日 (日) 08:22:37 JST


宮本さん

おはようございます。山内です。

> pacemaker-1.0.10-1.4.el5 とcorosync-1.2.5-1.3.el5 で検証しています。
> 
> インタコネクトは 2 本で、rrp_mode は Active を指定しています。
> 
> 1 本目のインタコネクトを ifdown し、数秒後に ifup します。
> さらに数秒後に、2 本目のインタコネクトを ifdown すると STONITH が
> 発動しました。つまり、スプリットブレイン状態と判断された。
> 
> 期待値としては 1 本目のインタコネクトは復旧しているため、スプリット
> ブレイン状態にはならないと思っていました。

詳細なログを見てみないと何ともいえませんが、1本目がダウン→回復した時点で1本目が回復出来ていないのではないかと思います。
また、1本目のifdownでダウンした場合、ダウン判断されるとcorosync自体が落ちる動きをするはずです。

どちらかの状態から、STONITHが発動されたと思われます。

> インタコネクトが瞬断した場合、クラスタに復旧を通知させるような
> 手順を実施する必要があるのでしょうか。
> ネットワークに負荷がかかることは考えらる事であり、インタコネクトが
> 瞬断しても復旧を検知し、スプリットブレイン状態と判断されないことを
> 期待しています。

インターコネクトの瞬断を検知するには、corosync側の対応が必要ですが、
私の知る限りではそのような機能(設定)は存在しないはずです。

ただし、ログにはactiveがダウンした時点でcounterの制御ログが出るはずですので、
そのログを監視すれば瞬断に近い状態は検知可能だと思います。
また、このcounterの制御時間が多く取ることで、瞬断障害をある程度、許容できまるはずです。

こちらは詳細はまた明日確認してご回答します。

山内





--- On Sun, 2011/10/2, N.Miyamoto <fj508****@aa*****> wrote:

> 
> いつもお世話になっております。
> 宮本です。
> 
> pacemaker-1.0.10-1.4.el5 とcorosync-1.2.5-1.3.el5 で検証しています。
> 
> インタコネクトは 2 本で、rrp_mode は Active を指定しています。
> 
> 1 本目のインタコネクトを ifdown し、数秒後に ifup します。
> さらに数秒後に、2 本目のインタコネクトを ifdown すると STONITH が
> 発動しました。つまり、スプリットブレイン状態と判断された。
> 
> 期待値としては 1 本目のインタコネクトは復旧しているため、スプリット
> ブレイン状態にはならないと思っていました。
> 
> インタコネクトが瞬断した場合、クラスタに復旧を通知させるような
> 手順を実施する必要があるのでしょうか。
> 
> ネットワークに負荷がかかることは考えらる事であり、インタコネクトが
> 瞬断しても復旧を検知し、スプリットブレイン状態と判断されないことを
> 期待しています。
> 
> 以上ですが、宜しくお願いします。
> 
> ----------------------------------------------
> Nobuaki Miyamoto
> mail:fj508****@aa*****
> 
> _______________________________________________
> Linux-ha-japan mailing list
> Linux****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> 





Linux-ha-japan メーリングリストの案内
Back to archive index