フェールオーバーの原因について (Linux-ha-jp) - Linux-HA Japan

山田さん

おはようございます。山内です。

>先日本番環境にてフェールオーバーが発生しました。
>Corosyncのログを見る限り、稼働系との疎通ができなくなったため
>待機系が稼働系をクラスタから切り離したように見えるのですが認識はあっていますでしょうか？


はい。合っていると思います。

>疎通ができなくなることにより、待機系が稼働系を強制的に再起動することはあるのでしょうか？

ログを見る限り、STONITHリソースの設定がないようですので、待機系が稼働系を再起動したのではないようです。

>ハードウェア故障が発生しておりこちらが起因して稼働系が再起動されたことにより
>フェールオーバーが発生したと推測しますが、確証がないため再発が懸念されます。
>またCPUやメモリ高負荷によりPacemakerもしくはcorosyncが強制的にサーバーを再起動することはあるのでしょうか？

corosync/pacemakerのバージョン、設定にもよりますが、corosync側にwatchdogを設定している場合、
負荷により稼働系がwatchdogにより再起動してフェイルオーバー発生する場合はあります。
また、OSのOMM killerが影響する場合もあるかと思います。

以上です。

----- Original Message -----
>From: 山田 敦之 <a.yam****@ncd*****>
>To: "linux****@lists*****" <linux****@lists*****> 
>Date: 2021/11/29, Mon 19:49
>Subject: [Linux-ha-jp] フェールオーバーの原因について
> 
>
> 
>お世話になっております。山田と申します。
> 
>先日本番環境にてフェールオーバーが発生しました。
>Corosyncのログを見る限り、稼働系との疎通ができなくなったため
>待機系が稼働系をクラスタから切り離したように見えるのですが認識はあっていますでしょうか？
>疎通ができなくなることにより、待機系が稼働系を強制的に再起動することはあるのでしょうか？
> 
>ハードウェア故障が発生しておりこちらが起因して稼働系が再起動されたことにより
>フェールオーバーが発生したと推測しますが、確証がないため再発が懸念されます。
>またCPUやメモリ高負荷によりPacemakerもしくはcorosyncが強制的にサーバーを再起動することはあるのでしょうか？
> 
>Corosyncのログを添付いたします。
> 
>他に原因調査する箇所があればアドバイスいただけますと幸いです。
> 
>以上、よろしくお願いいたします。
>_______________________________________________
>Linux-ha-japan mailing list
>Linux****@lists*****
>https://lists.osdn.me/mailman/listinfo/linux-ha-japan
>
>
>

Linux-HA Japan Forkpm_logconv-cspm_diskdpm_logconv-hbpm_extrasdocpm_crmgenvm-ctlpm_kvm_tools

[Linux-ha-jp] フェールオーバーの原因について

Linux-HA Japan
Fork
pm_logconv-cs
pm_diskd
pm_logconv-hb
pm_extras
doc
pm_crmgen
vm-ctl
pm_kvm_tools