[Linux-ha-jp] Pacemakerのフェールオーバー後のノード組込みについて

Back to archive index
辻 真吾 tsuji****@ryobi*****
2022年 6月 19日 (日) 10:19:00 JST


山内さん

お世話になっております。辻です。

ご回答ありがとうございます。

> この為、node1がクラスタとして残っている状態で、node2を起動すると。。。。
> 1)node2は自ノードだけでクラスタを組む ※この時点では、node2もnode1とのクラスタは組んでおらず、単一ノードとして認識しています。
> 2)node2とnode1は、45s x 1.2秒後に確認が取れれクラスタになっていることを認識する。

ここで言われている「node1がクラスタとして残っている状態」というのは、
どのような状態でしょうか?

node1のpgsqlの一度目のstartを実施した状態でしょうか?

それとも、ここでは、node1はフェールオーバー発生後の昇格したノードのことを
指しているのでしょうか?
(これまでの会話上、フェールオーバー発生後の状態として、昇格した新マスタをnode2、
  再度組込む新スレーブをnode1として会話してきたと思いますので、念のため確認です)

> このcleanupというのは、startがエラーになったリソースを正常に組み込めるということでしょうか?
> それとも別の意味でしょうか?

はい。startがエラーになったリソースを正常に組み込めるという意味です。
(cleanupは「pcs resource cleanup r_pgsql」で実行しています)

> cleanupは、クラスタ構成後にエラーが発生した後で実際されているとの認識ですので、
> この時は、node1/node2は認識済です。
> 起動時のpgsqlのstartの2度のお話とは異なりますね。

つまり、2度startのエラー発生後のnode1/node2を認識済みの状態であれば、
そこからノードを正常に組込むための対処は、
「pcs resource cleanup r_pgsqlを実行すること」が
エラー発生後の正しい対処という理解であっているでしょうか?

> 3000(3s)あたりが良いのでないでしょうか?
> #なお、設定変更後は、十分テストは行ってください。

45sは長すぎるのですね。
承知しました。検討してみます。

> この部分は、正確な回答にはログを拝見する必要があると思いますが、
> スレーブ側の誤ったリソース認識がファイル削除により無くなった為、組み込めたのだと思います。

ログを提示していない状態での質問で申し訳ありませんが、
誤ったリソース認識がなければ、tokenが45sでも下記の⑤は発生しなくなる
ということでしょうか?

> ・今回の場合
> 
> 順番|    ノード2           |       ノード1
> --------------------------------------------------------------------------
> ①|   単ノードでクラスタ構成    |
> ②|                  | 再起動(こちらも単ノードでクラスタ構成を取る)
> ③|      ノード1の存在すら知らない | 
> ④|                                | DCノードとしてクラスタを制御(ここでは、少しの間pacemakerのDCノードになるまで、余裕がありますが、45sx1.2前にDCノードになります。)
> ⑤|                                | pgsqlはクラスタで起動していないと判断して、pgsqlのstartを実行
> ⑥|   ----  ノード1の再起動後、45s x 1.2経過後にようやく2ノードでクラスタを構築 -----
> ⑦|      DCノードとしてクラスタを制御 | DCノードではなくなる
> ⑧|      pgsqlのノード1のstartを知らないので、ノード1にstartを指示 |
> ⑨|                                   | すでに一旦startしているのでエラー
> --------------------------------------------------------------------------

上の順番ですと、④、⑤が動作してしまっているため、異常事象が発生しているということですね。
(⑤のpgsqlの起動が動作しなければ、2度startにはならない)

⑧でノード1のstartを知らないのは、そういう仕様でしょうか?

ちなみに、他の環境でも試したところ、tokenを45sにしても異常事象が発生しないサーバもありました。
②から④,⑤までの間の時間は一定ではなく、タイミングにより④、⑤は実行が遅れる、
もしくは、動作しない場合もあるということでしょうか。

以上、よろしくお願いいたします。

> -----Original Message-----
> From: renay****@ybb***** <>
> Sent: Saturday, June 18, 2022 9:31 AM
> To: renay****@ybb*****; linux****@lists*****; 辻 真吾
> <tsuji****@ryobi*****>
> Cc: d-ike****@ryobi*****
> Subject: Re: Re: [Linux-ha-jp] Pacemakerのフェールオーバー後のノード組込
> みについて
> 
> 辻さん
> 
> こんにちは、山内です。
> 
> ご参考までに、もう少しクラスタ構成の部分の流れを書くと以下になります。
> (テキストですので、見ずらいかも知れません)
> 
> ・今回の場合
> 
> 順番|    ノード2           |       ノード1
> --------------------------------------------------------------------------
> ①|   単ノードでクラスタ構成    |
> ②|                  | 再起動(こちらも単ノードでクラスタ
> 構成を取る)
> ③|      ノード1の存在すら知らない |
> ④|                                | DCノードとしてクラスタを制御(ここで
> は、少しの間pacemakerのDCノードになるまで、余裕がありますが、45sx1.2
> 前にDCノードになります。)
> ⑤|                                | pgsqlはクラスタで起動していないと判
> 断して、pgsqlのstartを実行
> ⑥|   ----  ノード1の再起動後、45s x 1.2経過後にようやく2ノードでク
> ラスタを構築 -----
> ⑦|      DCノードとしてクラスタを制御 | DCノードではなくなる
> ⑧|      pgsqlのノード1のstartを知らないので、ノード1にstartを指示 |
> ⑨|                                   | すでに一旦startしているのでエラー
> --------------------------------------------------------------------------
> 
> ・tokenを1000ms(1s)にした場合
> 
> 順番|    ノード2           |       ノード1
> --------------------------------------------------------------------------
> ①|   単ノードでクラスタ構成    |
> ②|                  | 再起動(こちらも単ノードでクラスタ
> 構成を取る)
> ③|      ノード1の存在すら知らない |
> ④|   ----  ノード1の再起動後、1s x 1.2経過後にクラスタを構築 -----
> ⑤|      DCノードとしてクラスタを制御 |
> ⑥|      pgsqlのノード1のstartを知らないので、ノード1にstartを指示 |
> ⑦|                                   | start成功
> --------------------------------------------------------------------------
> 
> 以上です。
> 
> > ----- Original Message -----
> >
> > From: "renay****@ybb*****" <renay****@ybb*****>
> > To: "辻 真吾" <tsuji****@ryobi*****>; "LINUX-HA"
> <linux****@lists*****>
> > Cc: "d-ike****@ryobi*****" <d-ike****@ryobi*****>
> > Date: 2022/06/17 金 15:50
> > Subject: Re: [Linux-ha-jp]  Pacemakerのフェールオーバー後のノード組込
> みについて
> >
> >
> > 辻さん
> >
> > こんにちは、山内です。
> >
> > 以下に回答しますが、不明点についてはご確認ください。
> >
> > > 動作確認を行いましたので、結果をご連絡します。
> > > また、何点かご教授いただきたいものがありますので、
> > > お手数ですがご回答をお願いいたします。
> > >
> > > > token設定などが大きい場合、認識が遅れる事があります。
> > >
> > > 元々、tokenに45000を設定した状態で2度startが実行されて失敗する動
>> > > (以降、「異常事象」と記載します)が発生していましたが、
> > > tokenを1000に変更したところ、正常に動作しました。
> >
> > かなり、長い45秒のtoken設定だったのですね。
> > 正常に動作した旨、承知しました。
> >
> > >
> > > 以下の点をご教授ください。
> > > ・tokenの意味をネットで調べると、「Corosync間の通信のタイムアウト値」
> > >   となっています。
> > >   このタイムアウト値というのは、相手ノードとのハートビートの
> > >   インターバルみたいなものでしょうか?
> >
> > 厳密にいえば、違います。
> > 通信インターバルというよりも、tokenはクラスタ構成後のノード間通信の
> 正常性(token時間、corosync層のノード間の通信が遮断されるとエラー)をチェ
> ックするパラメータになります。
> >
> > > ・token設定が大きいと、なぜ相手ノードの認識が遅れるのでしょうか?
> >
> > corosyncの制御の中でtoken値は、上記のノード間通信の正常性のチェック
> に使いますが、この設定値を元にして、クラスタの初期構成時(corosyncの起動
> 直後)の確認も行っています。
> > 今回の場合、tokenを45000(45s)に設定されていたとのことですので、その
> 1.2倍の時間をクラスタの初期構成時の待ち時間として処理しています。
> >
> > この為、node1がクラスタとして残っている状態で、node2を起動すると。。。。
> > 1)node2は自ノードだけでクラスタを組む ※この時点では、node2もnode1
> とのクラスタは組んでおらず、単一ノードとして認識しています。
> > 2)node2とnode1は、45s x 1.2秒後に確認が取れれクラスタになっているこ
> とを認識する。
> >
> > となり、tokenが大きいと、お互いのノードを含めたクラスタの構築は遅れ
> ることになります。
> >
> > pacemakerは、corosyncから2)の確認が取れる前にも処理を実行しますので、
> node1は一旦、自ノードのみの構成しか認識していない為、pgsqlを起動してい
> ないので、起動を開始することになります。
> > 一方、node2は、node1の参加に気づきますが、node1のpgsqlのstartが実
> 行されている状態を認識していない為、node2がリソースの制御を開始して、
> 未起動のnode1のpgsqlのstartを実行してしまいます。
> >
> > >   異常事象の発生時に、node2がnode1を上がってないと判断して、
> > >   再度起動しているとのことでしたが、node2の何がどうやって判断して
> いる
> > >   のでしょうか?
> > >   (RAのmonitor処理が持っている情報をtokenの間隔で監視している。
> > >     等でしょうか?)
> >
> > node2のpacemaker-cibというプロセスが管理している、cib情報を元にして
> リソースの起動や停止を制御しています。
> > ※クラスタ起動中にcibadmin -Qで表示される内容が相当します。
> >
> > ですので、「(RAのmonitor処理が持っている情報をtokenの間隔で監視して
> いる。等でしょうか?)」のようなことは行っていません。
> >
> >
> > >   また、起動失敗後にcleanupを実行すると組込めますが、起動とcleanup
>> > >   内部的な動作にどのような違いがあるのでしょうか?
> > >   (ネットワーク遅延であれば、cleanup後も失敗しそうに思えまして)
> > >   2度startになる仕組みをもう少し詳細に教えていただけると幸いです。
> >
> > すいません。このcleanupというのは、startがエラーになったリソースを正
> 常に組み込めるということでしょうか?
> > それとも別の意味でしょうか?
> >
> > cleanupは、クラスタ構成後にエラーが発生した後で実際されているとの認識
> ですので、この時は、node1/node2は認識済です。
> > 起動時のpgsqlのstartの2度のお話とは異なりますね。
> >
> > >
> > > ・tokenの値を小さくするとどのような影響があるものでしょうか?
> > >   また、一般的に推奨される値はどの程度でしょうか?
> >
> > corosyncの少し前のバージョンまでは、1000(1s)がデフォルトでしたが、新
> しめのバージョンでは、3000(3s)がデフォルトのようです。
> > 短いと、クラスタの離脱を負荷などで誤って検知する場合がありますので、
> 3000(3s)あたりが良いのでないでしょうか?
> > #なお、設定変更後は、十分テストは行ってください。
> >
> > >
> > > > 以下の手順を取った場合、どうなりますでしょうか?
> > > >   3.でpacemaker,corosync停止後に、/var/lib/pacemaker/配下のファ
> イルを一旦削除する。
> > >
> > > 異常事象が発生する状態(=tokenに45000を設定した状態)で
> > > 上記手順をとった場合、スレーブの組み込みは正常に動作しました。
> > > このことから、どのようなことが言えそうでしょうか?
> >
> > この部分は、正確な回答にはログを拝見する必要があると思いますが、
> > スレーブ側の誤ったリソース認識がファイル削除により無くなった為、組み
> 込めたのだと思います。
> >
> > >
> > > 質問が多くなり恐縮ですが、よろしくお願いいたします。
> >
> > 以上です。l
> >
> >
> >
> >
> > > ----- Original Message -----
> > >
> > > From: "辻 真吾" <tsuji****@ryobi*****>
> > > To: "renay****@ybb*****" <renay****@ybb*****>;
> "LINUX-HA" <linux****@lists*****>
> > > Cc: "d-ike****@ryobi*****" <d-ike****@ryobi*****>
> > > Date: 2022/06/17 金 12:00
> > > Subject: RE: RE: RE: RE: Re: [Linux-ha-jp]  Pacemakerのフェールオーバ
> ー後のノード組込みについて
> > >
> > >
> > > 山内さん
> > >
> > > お世話になっております。辻です。
> > >
> > > 動作確認を行いましたので、結果をご連絡します。
> > > また、何点かご教授いただきたいものがありますので、
> > > お手数ですがご回答をお願いいたします。
> > >
> > > > token設定などが大きい場合、認識が遅れる事があります。
> > >
> > > 元々、tokenに45000を設定した状態で2度startが実行されて失敗する動
>> > > (以降、「異常事象」と記載します)が発生していましたが、
> > > tokenを1000に変更したところ、正常に動作しました。
> > >
> > > 以下の点をご教授ください。
> > > ・tokenの意味をネットで調べると、「Corosync間の通信のタイムアウト値」
> > >   となっています。
> > >   このタイムアウト値というのは、相手ノードとのハートビートの
> > >   インターバルみたいなものでしょうか?
> > >
> > > ・token設定が大きいと、なぜ相手ノードの認識が遅れるのでしょうか?
> > >   異常事象の発生時に、node2がnode1を上がってないと判断して、
> > >   再度起動しているとのことでしたが、node2の何がどうやって判断して
> いる
> > >   のでしょうか?
> > >   (RAのmonitor処理が持っている情報をtokenの間隔で監視している。
> > >     等でしょうか?)
> > >   また、起動失敗後にcleanupを実行すると組込めますが、起動とcleanup
>> > >   内部的な動作にどのような違いがあるのでしょうか?
> > >   (ネットワーク遅延であれば、cleanup後も失敗しそうに思えまして)
> > >   2度startになる仕組みをもう少し詳細に教えていただけると幸いです。
> > >
> > > ・tokenの値を小さくするとどのような影響があるものでしょうか?
> > >   また、一般的に推奨される値はどの程度でしょうか?
> > >
> > > > 以下の手順を取った場合、どうなりますでしょうか?
> > > >   3.でpacemaker,corosync停止後に、/var/lib/pacemaker/配下のファ
> イルを一旦削除する。
> > >
> > > 異常事象が発生する状態(=tokenに45000を設定した状態)で
> > > 上記手順をとった場合、スレーブの組み込みは正常に動作しました。
> > > このことから、どのようなことが言えそうでしょうか?
> > >
> > > 質問が多くなり恐縮ですが、よろしくお願いいたします。
> > > 以上です。
> > >
> > > > -----Original Message-----
> > > > From: renay****@ybb***** <>
> > > > Sent: Friday, June 10, 2022 2:31 PM
> > > > To: 辻 真吾 <tsuji****@ryobi*****>; LINUX-HA
> > > > <linux****@lists*****>
> > > > Cc: d-ike****@ryobi*****
> > > > Subject: Re: RE: RE: RE: Re: [Linux-ha-jp] Pacemakerのフェールオーバ
> ー後の
> > > > ノード組込みについて
> > > >
> > > > 辻さん
> > > >
> > > > こんにちは、山内です。
> > > >
> > > > 承知いたしました。
> > > > 宜しくお願いいたします。
> > > >
> > > > 以上です。
> > > >
> > > > > ----- Original Message -----
> > > > >
> > > > > From: "辻 真吾" <tsuji****@ryobi*****>
> > > > > To: "renay****@ybb*****" <renay****@ybb*****>;
> > > > "LINUX-HA" <linux****@lists*****>
> > > > > Cc: "d-ike****@ryobi*****" <d-ike****@ryobi*****>
> > > > > Date: 2022/06/10 金 11:38
> > > > > Subject: RE: RE: RE: Re: [Linux-ha-jp]  Pacemakerのフェールオーバ
> ー後の
> > > > ノード組込みについて
> > > > >
> > > > >
> > > > > 山内さん
> > > > >
> > > > > お世話になっております。辻です。
> > > > >
> > > > > ご回答ありがとうございます。回答内容について、承知しました。
> > > > > ネットワーク周りを確認して、後日、確認結果をお知らせさせていた
> だきま
> > > > す。
> > > > >
> > > > > また、スコアやSTONITHの設定に関しても、アドバイスをありがとう
> ござい
> > > > ます。
> > > > > 設定周りについて、もう少し検討してみます。
> > > > >
> > > > > 以上、よろしくお願いいたします。
> > > > >
> > > > > > -----Original Message-----
> > > > > > From: renay****@ybb***** <>
> > > > > > Sent: Friday, June 10, 2022 11:24 AM
> > > > > > To: tsuji****@ryobi*****; LINUX-HA
> <linux****@lists*****>
> > > > > > Cc: d-ike****@ryobi*****
> > > > > > Subject: Re: RE: RE: Re: [Linux-ha-jp] Pacemakerのフェールオーバ
> ー後の
> > > > ノー
> > > > > > ド組込みについて
> > > > > >
> > > > > > 辻さん
> > > > > >
> > > > > > こんにちは、山内です。
> > > > > >
> > > > > > > > ①再参加したnode1がnode2を認識していないので、自ノード
> のみで
> > > > クラ
> > > > > > スタ
> > > > > > > > を構成する為に、pgsqlのstartを実行
> > > > > > > >    このnode2を認識するのが遅れるのが問題と思います。
> > > > > > >
> > > > > > > pacemakerの設定上、相手ノード(node2)を認識する時間をコント
> ロール
> > > > > > > (delayさせる)ような設定はないものでしょうか?
> > > > > >
> > > > > > 相手ノードの認識時間をコントロールする設定はないと思います。
> > > > > >
> > > > > > > > ②node1のpgsqlのstartには時間が掛かっている
> > > > > > >
> > > > > > > 時間がかかっているのは、pacemaker側ではなく、
> > > > > > > Postgres側の要因との理解で正しいでしょうか?
> > > > > > > もし、pacemaker側の設定でstart時間が変わるような設定が
> > > > > > > あればご教示ください。
> > > > > >
> > > > > > Postgres側ではないかと思われます。
> > > > > > ただし、19s程度ですので、実際には問題にはならないと思います。
> > > > > >
> > > > > > ---
> > > > > > May 31 07:38:40  pgsql(r_pgsql)[247646]:    INFO: PostgreSQL
> start
> > > > > > command sent.
> > > > > > (snip)
> > > > > > May 31 07:38:59  pgsql(r_pgsql)[247646]:    INFO: PostgreSQL is
> > > > started.
> > > > > > ---
> > > > > >
> > > > > > 先ほどの書き方が悪かったかも知れませんが、もっとも大きな要因
> は、や
> > > > はり
> > > > > > node2の参加を認識しないことかと思います。
> > > > > >
> > > > > >
> > > > > > > > ③node2の参加を認識して、node1とnode2は再度クラスタを
> 構成
> > > > > > > >    ※この時点では、まだ、node2のpgsqlは起動していない。
> > > > > > >
> > > > > > > この時、node2はMaster状態のため、pgsqlは起動しているもの
> と思い
> > > > ます
> > > > > > が、
> > > > > > > 「node1から見るとnode2のpgsqlが起動していないように見え
> る」と
> > > > の
> > > > > > > 意味合いでしょうか?
> > > > > >
> > > > > > いえ、node2から見て、node1のpgsqlの起動がまだ未確認という
> 意味で
> > > > す。
> > > > > > node1は、node2とクラスタを構築した後、リソースの開始・停止
> 制御を
> > > > 行わ
> > > > > > ない役割に変わりますので、node1側では
> > > > > > node2側のpgsql起動には関与しません。
> > > > > >
> > > > > > >
> > > > > > > > 先日ご連絡したネットワークの遅延らしい状態を確認された方
> が良い
> > > > かと
> > > > > > 思います。
> > > > > > >
> > > > > > > 承知しました。ネットワーク周りを確認してみます。
> > > > > > > ちなみに、pacemaker関連の設定では、ネットワーク周りの設定
>> > > > > > > corosync.conf くらいだと認識しておりますが、他にも何か設定が
> > > > > > > ありますでしょうか?
> > > > > >
> > > > > > token設定などが大きい場合、認識が遅れる事があります。
> > > > > > corosync/pacemakerの設定で、token以外に関連しそうな場所はな
> いと思
> > > > われ
> > > > > > ます。
> > > > > >
> > > > > >
> > > > > > PGREX構成の場合、基本的にクラスタを構築する段階では、先に起
> 動した
> > > > 方が
> > > > > > Masterとなり、次にデータ同期した方がSlaveとなります。
> > > > > > 以下のMasterスコアの設定をされているようですが、あまり、意味
> はない
> > > > かと
> > > > > > 思いますし、思わぬMaster移動によるサービス停止を発生させるか
> も知れ
> > > > ませ
> > > > > > ん。
> > > > > > ----
> > > > > >       <rsc_location id="location-ms_pgsql" rsc="ms_pgsql">
> > > > > >         <rule id="location-ms_pgsql-rule" role="Master"
> score="200">
> > > > > >           <expression attribute="#uname"
> > > > id="location-ms_pgsql-rule-expr"
> > > > > > operation="eq" value="node01"/>
> > > > > >         </rule>
> > > > > >       </rsc_location>
> > > > > >       <rsc_location id="location-ms_pgsql-1" rsc="ms_pgsql">
> > > > > >         <rule id="location-ms_pgsql-1-rule" role="Master"
> > > > score="100">
> > > > > >           <expression attribute="#uname"
> > > > > > id="location-ms_pgsql-1-rule-expr" operation="eq"
> value="node02"/>
> > > > > >         </rule>
> > > > > >       </rsc_location>
> > > > > > ---
> > > > > >
> > > > > > また、STONITHの設定(on-fail=fence)をされていないようですが、
> > > > STONITH
> > > > > > がない場合、stop故障などが発生するとサービス停止となる可能性
> がござ
> > > > いま
> > > > > > す。
> > > > > > サービス停止を回避する為にも、出来ましたら、STONITHの設定を
> ご検討
> > > > され
> > > > > > ることをお勧めいたします。
> > > > > >
> > > > > > PGREX構成を取る場合には、運用ツールもございますので、こちら
> を利用
> > > > する
> > > > > > 事も検討されることをお勧めいたします。
> > > > > > (この運用ツールでは、ノード起動に厳格な順序を持たせていますし、
> デー
> > > > タ同
> > > > > > 期もツール内で実行してくれます)
> > > > > > https://ja.osdn.net/projects/pg-rex/
> > > > > >
> > > > > > 古いですが、以下の利用されている例などもあります。
> > > > > > https://qiita.com/U_ikki/items/5698e2c774f7882e31c0
> > > > > >
> > > > > > 以上です。
> > > > > >
> > > > > >
> > > > > >
> > > > > > > ----- Original Message -----
> > > > > > >
> > > > > > > From: "辻 真吾" <tsuji****@ryobi*****>
> > > > > > > To: "renay****@ybb*****"
> <renay****@ybb*****>;
> > > > > > "LINUX-HA" <linux****@lists*****>
> > > > > > > Cc: "d-ike****@ryobi*****" <d-ike****@ryobi*****>
> > > > > > > Date: 2022/06/10 金 10:59
> > > > > > > Subject: RE: RE: Re: [Linux-ha-jp]  Pacemakerのフェールオーバ
> ー後の
> > > > ノー
> > > > > > ド組込みについて
> > > > > > >
> > > > > > >
> > > > > > > 山内さん
> > > > > > >
> > > > > > > おはようございます。辻です。
> > > > > > >
> > > > > > > ログの解析、丁寧に説明いただき、ありがとうございます。
> > > > > > > いただいた内容について、何点か質問させてください。
> > > > > > >
> > > > > > > > ①再参加したnode1がnode2を認識していないので、自ノード
> のみで
> > > > クラ
> > > > > > スタ
> > > > > > > > を構成する為に、pgsqlのstartを実行
> > > > > > > >    このnode2を認識するのが遅れるのが問題と思います。
> > > > > > >
> > > > > > > pacemakerの設定上、相手ノード(node2)を認識する時間をコント
> ロール
> > > > > > > (delayさせる)ような設定はないものでしょうか?
> > > > > > >
> > > > > > > > ②node1のpgsqlのstartには時間が掛かっている
> > > > > > >
> > > > > > > 時間がかかっているのは、pacemaker側ではなく、
> > > > > > > Postgres側の要因との理解で正しいでしょうか?
> > > > > > > もし、pacemaker側の設定でstart時間が変わるような設定が
> > > > > > > あればご教示ください。
> > > > > > >
> > > > > > > > ③node2の参加を認識して、node1とnode2は再度クラスタを
> 構成
> > > > > > > >    ※この時点では、まだ、node2のpgsqlは起動していない。
> > > > > > >
> > > > > > > この時、node2はMaster状態のため、pgsqlは起動しているもの
> と思い
> > > > ます
> > > > > > が、
> > > > > > > 「node1から見るとnode2のpgsqlが起動していないように見え
> る」と
> > > > の
> > > > > > > 意味合いでしょうか?
> > > > > > >
> > > > > > > > 先日ご連絡したネットワークの遅延らしい状態を確認された方
> が良い
> > > > かと
> > > > > > 思います。
> > > > > > >
> > > > > > > 承知しました。ネットワーク周りを確認してみます。
> > > > > > > ちなみに、pacemaker関連の設定では、ネットワーク周りの設定
>> > > > > > > corosync.conf くらいだと認識しておりますが、他にも何か設定が
> > > > > > > ありますでしょうか?
> > > > > > >
> > > > > > > 以上、よろしくお願いいたします。
> > > > > > >
> > > > > > > > -----Original Message-----
> > > > > > > > From: renay****@ybb***** <>
> > > > > > > > Sent: Friday, June 10, 2022 10:25 AM
> > > > > > > > To: 辻 真吾 <tsuji****@ryobi*****>; LINUX-HA
> > > > > > > > <linux****@lists*****>
> > > > > > > > Cc: d-ike****@ryobi*****
> > > > > > > > Subject: Re: RE: Re: [Linux-ha-jp] Pacemakerのフェールオー
> バー後
> > > > のノ
> > > > > > ード
> > > > > > > > 組込みについて
> > > > > > > >
> > > > > > > > 辻さん
> > > > > > > >
> > > > > > > > おはようございます。山内です。
> > > > > > > >
> > > > > > > > 一応、2度startが実行されて失敗する動作については、わかり
> ました
> > > > ので、
> > > > > > お
> > > > > > > > 知らせします。
> > > > > > > >
> > > > > > > > ①再参加したnode1がnode2を認識していないので、自ノード
> のみで
> > > > クラ
> > > > > > スタ
> > > > > > > > を構成する為に、pgsqlのstartを実行
> > > > > > > >    このnode2を認識するのが遅れるのが問題と思います。
> > > > > > > > ②node1のpgsqlのstartには時間が掛かっている
> > > > > > > > ③node2の参加を認識して、node1とnode2は再度クラスタを
> 構成
> > > > > > > >    ※この時点では、まだ、node2のpgsqlは起動していない。
> > > > > > > > ④node2が自身でMaster起動しているpgsqlを認識しているが、
> node1
> > > > の
> > > > > > pgsql
> > > > > > > > は未起動として認識
> > > > > > > > ⑤node2がnode1へのpgsqlの実行を指示
> > > > > > > > ⑥この時点では、node1のpgsqlも起動を開始しているので、
> pgsql
> > > > は起動
> > > > > > 済と
> > > > > > > > してエラーとなる。
> > > > > > > > ⑦結果、node1のstopが実行される。
> > > > > > > >
> > > > > > > > ※多分、上記の2回目のstartが実行されなければ、うまく再構
> 成する
> > > > かと
> > > > > > 思い
> > > > > > > > ます。
> > > > > > > >
> > > > > > > > ただし、以下のログの動きは、stop前のnode1のmonitor処理
> で状態
> > > > が変
> > > > > > わっ
> > > > > > > > たと思われます。
> > > > > > > > ---
> > > > > > > > May 31 07:38:59  pgsql(r_pgsql)[248725]:    INFO: Changing
> > > > > > r_pgsql-status
> > > > > > > > on node1 : HS:alone->STOP.
> > > > > > > > May 31 07:38:59 node1-001 pacemaker-attrd     [247415]
> > > > > > > > (attrd_peer_update) 	notice: Setting
> r_pgsql-status[node1]:
> > > > > > HS:alone ->
> > > > > > > > STOP | from node1
> > > > > > > > ----
> > > > > > > >
> > > > > > > > 再現性はあるとのことですので、もし、常に上記の動作(2度start)
>> > > > なり
> > > > > > 停止し
> > > > > > > > たノードの再構成に失敗するようであれば、やはり、先日ご連
> 絡した
> > > > ネッ
> > > > > > トワ
> > > > > > > > ークの遅延らしい状態を確認された方が良いかと思います。
> > > > > > > >
> > > > > > > > 以上、宜しくお願いいたします。
> > > > > > > >
> > > > > > > > > ----- Original Message -----
> > > > > > > > >
> > > > > > > > > From: "辻 真吾" <tsuji****@ryobi*****>
> > > > > > > > > To: "renay****@ybb*****"
> > > > <renay****@ybb*****>;
> > > > > > > > "LINUX-HA" <linux****@lists*****>
> > > > > > > > > Cc: "d-ike****@ryobi*****" <d-ike****@ryobi*****>
> > > > > > > > > Date: 2022/06/10 金 09:39
> > > > > > > > > Subject: RE: Re: [Linux-ha-jp]  Pacemakerのフェールオー
> バー後
> > > > のノ
> > > > > > ード
> > > > > > > > 組込みについて
> > > > > > > > >
> > > > > > > > >
> > > > > > > > > 山内さん
> > > > > > > > >
> > > > > > > > > お世話になっております。辻です。
> > > > > > > > >
> > > > > > > > > > restore_command="/bin/cp /dbfp/pgarch/arc1/%f %p"
> > > > > > > > > > repuser="repuser"
> > > > > > > > > >
> > > > > > > > > > このあたりの設定が影響しているのかも知れません。
> > > > > > > > >
> > > > > > > > > 承知しました。ありがとうございます。
> > > > > > > > >
> > > > > > > > >
> > > > > > > > > > > はい、不要なcib情報(クラスタ情報)を削除する事が
> 目的で
> > > > す。
> > > > > > > > > > > 基本的に停止した側(node1)で、クラスタに再参加する場
> 合、の
> > > > この
> > > > > > デー
> > > > > > > > タは
> > > > > > > > > > 全く不要となります。
> > > > > > > > > > > 逆にいうと、データが残っていると、そのデータを利用
> してク
> > > > ラス
> > > > > > タ情
> > > > > > > > 報が
> > > > > > > > > > 一旦生成される為、不具合を招く場合もあります。
> > > > > > > > >
> > > > > > > > > そういうものなのですね。
> > > > > > > > > では、クラスタ起動前の手順として、必ず削除するようにし
> た方が
> > > > > > > > > よさそうですね。
> > > > > > > > >
> > > > > > > > > > > どういう設定かは失念していますが、設定ミスによって、
> Slave
> > > > が参
> > > > > > 加で
> > > > > > > > きな
> > > > > > > > > > い事はあります。
> > > > > > > > > > > 多分、そのケースに当たるのかとは思いますが。。。
> > > > > > > > >
> > > > > > > > > 承知しました。
> > > > > > > > >
> > > > > > > > > > > こちらでも、開示頂いた内容について、手元のPGREX
> 構成し
> > > > てい
> > > > > > る設
> > > > > > > > 定と
> > > > > > > > > > 比較してみたいと思います。
> > > > > > > > > > > ※時間があれば、pgsqlの環境でも確認してみようと思い
> ます。
> > > > > > > > >
> > > > > > > > > ありがとうございます。
> > > > > > > > > お手数をおかけしますがよろしくお願いいたします。
> > > > > > > > >
> > > > > > > > >
> > > > > > > > > 以上、よろしくお願いいたします。
> > > > > > > > >
> > > > > > > > >
> > > > > > > > > > -----Original Message-----
> > > > > > > > > > From: renay****@ybb***** <>
> > > > > > > > > > Sent: Thursday, June 9, 2022 6:57 PM
> > > > > > > > > > To: renay****@ybb*****; 辻 真吾
> > > > <tsuji****@ryobi*****>;
> > > > > > > > > > LINUX-HA <linux****@lists*****>
> > > > > > > > > > Cc: d-ike****@ryobi*****
> > > > > > > > > > Subject: Re: Re: [Linux-ha-jp] Pacemakerのフェールオー
> バー後
> > > > のノ
> > > > > > ード
> > > > > > > > 組込
> > > > > > > > > > みについて
> > > > > > > > > >
> > > > > > > > > > 辻さん
> > > > > > > > > >
> > > > > > > > > > こんばんは、山内です。
> > > > > > > > > >
> > > > > > > > > > 手元の動作するPGREX環境とは、以下の辺りのpgsqlパラ
> メータ
> > > > が異
> > > > > > なっ
> > > > > > > > てい
> > > > > > > > > > るようです。
> > > > > > > > > > ※ざっと見ただけですが。。。
> > > > > > > > > >
> > > > > > > > > > restore_command="/bin/cp /dbfp/pgarch/arc1/%f %p"
> > > > > > > > > > repuser="repuser"
> > > > > > > > > >
> > > > > > > > > > このあたりの設定が影響しているのかも知れません。
> > > > > > > > > >
> > > > > > > > > > また、何かわかりましたら、ご連絡いたします。
> > > > > > > > > >
> > > > > > > > > > 以上です。
> > > > > > > > > >
> > > > > > > > > >
> > > > > > > > > > > ----- Original Message -----
> > > > > > > > > > >
> > > > > > > > > > > From: "renay****@ybb*****"
> > > > > > <renay****@ybb*****>
> > > > > > > > > > > To: "辻 真吾" <tsuji****@ryobi*****>; "LINUX-HA"
> > > > > > > > > > > <linux****@lists*****>
> > > > > > > > > > > Cc: "d-ike****@ryobi*****" <d-ike****@ryobi*****>
> > > > > > > > > > > Date: 2022/06/09 木 18:51
> > > > > > > > > > > Subject: Re: [Linux-ha-jp]  Pacemakerのフェールオー
> バー後
> > > > のノ
> > > > > > ード
> > > > > > > > 組込
> > > > > > > > > > みについて
> > > > > > > > > > >
> > > > > > > > > > >
> > > > > > > > > > > 辻さん
> > > > > > > > > > >
> > > > > > > > > > > こんばんは、山内です。
> > > > > > > > > > >
> > > > > > > > > > > > > 以下の手順を取った場合、どうなりますでしょうか?
> > > > > > > > > > > > > 3.でpacemaker,corosync停止後に、
> /var/lib/pacemaker/
> > > > 配下の
> > > > > > ファ
> > > > > > > > イル
> > > > > > > > > > を一旦削除する。
> > > > > > > > > > > >
> > > > > > > > > > > > すぐに環境を扱えない状況のため、後日試して結果を
> お伝え
> > > > しま
> > > > > > す。
> > > > > > > > > > >
> > > > > > > > > > > 宜しくお願いいたします。
> > > > > > > > > > >
> > > > > > > > > > > > なお、上記手順を実施するのはどのような狙いでしょ
> うか?
> > > > > > > > > > > > フェールオーバー発生後に、何か不要な情報をクリア
> する目
> > > > 的で
> > > > > > しょ
> > > > > > > > う
> > > > > > > > > > か?
> > > > > > > > > > > > また、この手順を実施したときの影響をご教示くださ
> い。
> > > > > > > > > > >
> > > > > > > > > > > はい、不要なcib情報(クラスタ情報)を削除する事が
> 目的で
> > > > す。
> > > > > > > > > > > 基本的に停止した側(node1)で、クラスタに再参加する場
> 合、の
> > > > この
> > > > > > デー
> > > > > > > > タは
> > > > > > > > > > 全く不要となります。
> > > > > > > > > > > 逆にいうと、データが残っていると、そのデータを利用
> してク
> > > > ラス
> > > > > > タ情
> > > > > > > > 報が
> > > > > > > > > > 一旦生成される為、不具合を招く場合もあります。
> > > > > > > > > > >
> > > > > > > > > > > > > また、頂いた手順にはありませんが、
> > > > > > > > /var/lib/pgsql/tmp/PGSQL.lock
> > > > > > > > > > の削除はどうされていますしょうか?
> > > > > > > > > > > > > ※通常、pgsqlはファイルが残っていると起動しませ
> んが、
> > > > 手順
> > > > > > には
> > > > > > > > ない
> > > > > > > > > > ようでしたので。。。念の為、確認させて頂きました。
> > > > > > > > > > > >
> > > > > > > > > > > > すみません、手順への記載を割愛していました。
> > > > > > > > > > > > このファイルは、corosync、pacemakerの起動前に削
> 除して
> > > > いま
> > > > > > す。
> > > > > > > > > > >
> > > > > > > > > > > 承知いたしました。
> > > > > > > > > > >
> > > > > > > > > > > > > ちなみに、この事象ですが、再現性はありますでし
> ょうか?
> > > > > > (100%??)
> > > > > > > > > > > >
> > > > > > > > > > > > 100%再現しております。
> > > > > > > > > > >
> > > > > > > > > > > こちらも、承知いたしました。
> > > > > > > > > > >
> > > > > > > > > > > > > その場合、通常のpgsqlのリソースエージェントを
> 利用し
> > > > た場
> > > > > > 合で
> > > > > > > > も、
> > > > > > > > > > 問題が再現しますでしょうか?
> > > > > > > > > > > >
> > > > > > > > > > > > 「通常のpgsql=デバッグを仕込んでいないpgsql」と
> いう理
> > > > 解で
> > > > > > よろ
> > > > > > > > しけ
> > > > > > > > > > れば、
> > > > > > > > > > > > 通常のpgsqlでも再現しております。
> > > > > > > > > > >
> > > > > > > > > > > 承知いたしました。
> > > > > > > > > > > どういう設定かは失念していますが、設定ミスによって、
> Slave
> > > > が参
> > > > > > 加で
> > > > > > > > きな
> > > > > > > > > > い事はあります。
> > > > > > > > > > > 多分、そのケースに当たるのかとは思いますが。。。
> > > > > > > > > > >
> > > > > > > > > > > > > ネットワークの遅延などが、お使いの環境で起きて
> いるか
> > > > もと
> > > > > > 思っ
> > > > > > > > てい
> > > > > > > > > > ます。
> > > > > > > > > > > >
> > > > > > > > > > > > 承知しました。
> > > > > > > > > > > > ネットワーク遅延も視野に入れて引き続き検証してみ
> ます。
> > > > > > > > > > >
> > > > > > > > > > > 宜しくお願いいたします。
> > > > > > > > > > > 通常、node1が再参加した時点で、node2とクラスタを
> 組むの
> > > > が正
> > > > > > しい
> > > > > > > > 動作
> > > > > > > > > > となります。
> > > > > > > > > > >
> > > > > > > > > > > > > 問題の無い範囲で、cib.xml(pacemakerに流し込ん
> でいる)
> > > > を拝
> > > > > > 見で
> > > > > > > > きれ
> > > > > > > > > > ば、もう少し分かるかも知れません。
> > > > > > > > > > > >
> > > > > > > > > > > > ありがとうございます。
> > > > > > > > > > > > 利用しているxmlを以下に提示させていただきます。
> > > > > > > > > > > > ("r_service_fh"というリソースのRAは、著作権の問
> 題から
> > > > ご提
> > > > > > 示で
> > > > > > > > きま
> > > > > > > > > > せんが、
> > > > > > > > > > > >   DNSに関する操作を行うRAです。)
> > > > > > > > > > >
> > > > > > > > > > > こちらでも、開示頂いた内容について、手元のPGREX
> 構成し
> > > > てい
> > > > > > る設
> > > > > > > > 定と
> > > > > > > > > > 比較してみたいと思います。
> > > > > > > > > > > ※時間があれば、pgsqlの環境でも確認してみようと思い
> ます。
> > > > > > > > > > >
> > > > > > > > > > > 以上です。
> > > > > > > > > > >
> > > > > > > > > > >
> > > > > > > > > > > > ----- Original Message -----
> > > > > > > > > > > >
> > > > > > > > > > > > From: "辻 真吾" <tsuji****@ryobi*****>
> > > > > > > > > > > > To: "renay****@ybb*****"
> > > > > > <renay****@ybb*****>;
> > > > > > > > > > > > "LINUX-HA" <linux****@lists*****>
> > > > > > > > > > > > Cc: "d-ike****@ryobi*****" <d-ike****@ryobi*****>
> > > > > > > > > > > > Date: 2022/06/09 木 18:14
> > > > > > > > > > > > Subject: RE: RE: RE: RE: [Linux-ha-jp]
> > > > > > > > > > > > Pacemakerのフェールオーバー後のノード組込みにつ
> いて
> > > > > > > > > > > >
> > > > > > > > > > > >
> > > > > > > > > > > > 山内さん
> > > > > > > > > > > >
> > > > > > > > > > > > お世話になっております。辻です。
> > > > > > > > > > > >
> > > > > > > > > > > > > 以下の手順を取った場合、どうなりますでしょうか?
> > > > > > > > > > > > > 3.でpacemaker,corosync停止後に、
> /var/lib/pacemaker/
> > > > 配下の
> > > > > > ファ
> > > > > > > > イル
> > > > > > > > > > を一旦削除する。
> > > > > > > > > > > >
> > > > > > > > > > > > すぐに環境を扱えない状況のため、後日試して結果を
> お伝え
> > > > しま
> > > > > > す。
> > > > > > > > > > > > なお、上記手順を実施するのはどのような狙いでしょ
> うか?
> > > > > > > > > > > > フェールオーバー発生後に、何か不要な情報をクリア
> する目
> > > > 的で
> > > > > > しょ
> > > > > > > > う
> > > > > > > > > > か?
> > > > > > > > > > > > また、この手順を実施したときの影響をご教示くださ
> い。
> > > > > > > > > > > >
> > > > > > > > > > > >
> > > > > > > > > > > > > また、頂いた手順にはありませんが、
> > > > > > > > /var/lib/pgsql/tmp/PGSQL.lock
> > > > > > > > > > の削除はどうされていますしょうか?
> > > > > > > > > > > > > ※通常、pgsqlはファイルが残っていると起動しませ
> んが、
> > > > 手順
> > > > > > には
> > > > > > > > ない
> > > > > > > > > > ようでしたので。。。念の為、確認させて頂きました。
> > > > > > > > > > > >
> > > > > > > > > > > > すみません、手順への記載を割愛していました。
> > > > > > > > > > > > このファイルは、corosync、pacemakerの起動前に削
> 除して
> > > > いま
> > > > > > す。
> > > > > > > > > > > >
> > > > > > > > > > > >
> > > > > > > > > > > > > ちなみに、この事象ですが、再現性はありますでし
> ょうか?
> > > > > > (100%??)
> > > > > > > > > > > >
> > > > > > > > > > > > 100%再現しております。
> > > > > > > > > > > >
> > > > > > > > > > > >
> > > > > > > > > > > > > その場合、通常のpgsqlのリソースエージェントを
> 利用し
> > > > た場
> > > > > > 合で
> > > > > > > > も、
> > > > > > > > > > 問題が再現しますでしょうか?
> > > > > > > > > > > >
> > > > > > > > > > > > 「通常のpgsql=デバッグを仕込んでいないpgsql」と
> いう理
> > > > 解で
> > > > > > よろ
> > > > > > > > しけ
> > > > > > > > > > れば、
> > > > > > > > > > > > 通常のpgsqlでも再現しております。
> > > > > > > > > > > >
> > > > > > > > > > > >
> > > > > > > > > > > > > ネットワークの遅延などが、お使いの環境で起きて
> いるか
> > > > もと
> > > > > > 思っ
> > > > > > > > てい
> > > > > > > > > > ます。
> > > > > > > > > > > >
> > > > > > > > > > > > 承知しました。
> > > > > > > > > > > > ネットワーク遅延も視野に入れて引き続き検証してみ
> ます。
> > > > > > > > > > > >
> > > > > > > > > > > >
> > > > > > > > > > > > > 問題の無い範囲で、cib.xml(pacemakerに流し込ん
> でいる)
> > > > を拝
> > > > > > 見で
> > > > > > > > きれ
> > > > > > > > > > ば、もう少し分かるかも知れません。
> > > > > > > > > > > >
> > > > > > > > > > > > ありがとうございます。
> > > > > > > > > > > > 利用しているxmlを以下に提示させていただきます。
> > > > > > > > > > > > ("r_service_fh"というリソースのRAは、著作権の問
> 題から
> > > > ご提
> > > > > > 示で
> > > > > > > > きま
> > > > > > > > > > せんが、
> > > > > > > > > > > >   DNSに関する操作を行うRAです。)
> > > > > > > > > > > >
> > > > > > > > > > > >
> > > > > > > >
> > > > --------------------------------------------------------------------
> > > > > > > > > > > > ----- <cib crm_feature_set="3.11.0"
> > > > > > validate-with="pacemaker-3.7"
> > > > > > > > > > > > epoch="14" num_updates="0" admin_epoch="0">
> > > > > > > > > > > >   <configuration>
> > > > > > > > > > > >     <crm_config>
> > > > > > > > > > > >       <cluster_property_set
> id="cib-bootstrap-options">
> > > > > > > > > > > >         <nvpair
> > > > id="cib-bootstrap-options-no-quorum-policy"
> > > > > > > > > > name="no-quorum-policy" value="ignore"/>
> > > > > > > > > > > >         <nvpair
> > > > id="cib-bootstrap-options-stonith-enabled"
> > > > > > > > > > name="stonith-enabled" value="false"/>
> > > > > > > > > > > >       </cluster_property_set>
> > > > > > > > > > > >     </crm_config>
> > > > > > > > > > > >     <nodes/>
> > > > > > > > > > > >     <resources>
> > > > > > > > > > > >       <primitive class="ocf" id="r_service_fh"
> > > > provider="local"
> > > > > > > > > > type="FloatingDNS">
> > > > > > > > > > > >         <instance_attributes
> > > > > > > > id="r_service_fh-instance_attributes">
> > > > > > > > > > > >           <nvpair
> > > > > > id="r_service_fh-instance_attributes-hostname"
> > > > > > > > > > name="hostname" value="node00"/>
> > > > > > > > > > > >           <nvpair
> > > > > > id="r_service_fh-instance_attributes-zonename"
> > > > > > > > > > name="zonename" value="mynetwork.local"/>
> > > > > > > > > > > >         </instance_attributes>
> > > > > > > > > > > >         <meta_attributes
> > > > id="r_service_fh-meta_attributes">
> > > > > > > > > > > >           <nvpair
> > > > > > > > > > id="r_service_fh-meta_attributes-migration-threshold"
> > > > > > > > > > name="migration-threshold" value="1"/>
> > > > > > > > > > > >           <nvpair
> > > > id="r_service_fh-meta_attributes-target-role"
> > > > > > > > > > name="target-role" value="Started"/>
> > > > > > > > > > > >         </meta_attributes>
> > > > > > > > > > > >         <operations>
> > > > > > > > > > > >           <op id="r_service_fh-monitor-interval-10s"
> > > > > > interval="10s"
> > > > > > > > > > name="monitor" on-fail="restart" timeout="60s"/>
> > > > > > > > > > > >           <op id="r_service_fh-start-interval-0s"
> > > > interval="0s"
> > > > > > > > > > name="start" on-fail="stop" timeout="50s"/>
> > > > > > > > > > > >           <op id="r_service_fh-stop-interval-0s"
> > > > interval="0s"
> > > > > > > > > > name="stop" on-fail="block" timeout="60s"/>
> > > > > > > > > > > >         </operations>
> > > > > > > > > > > >       </primitive>
> > > > > > > > > > > >       <clone id="ms_pgsql">
> > > > > > > > > > > >         <primitive class="ocf" id="r_pgsql"
> > > > provider="linuxhajp"
> > > > > > > > > > type="pgsql">
> > > > > > > > > > > >           <instance_attributes
> > > > > > id="r_pgsql-instance_attributes">
> > > > > > > > > > > >             <nvpair
> > > > id="r_pgsql-instance_attributes-master_ip"
> > > > > > > > > > name="master_ip" value="node00"/>
> > > > > > > > > > > >             <nvpair
> > > > id="r_pgsql-instance_attributes-node_list"
> > > > > > > > > > name="node_list" value="node01 node02"/>
> > > > > > > > > > > >             <nvpair
> id="r_pgsql-instance_attributes-pgctl"
> > > > > > > > > > name="pgctl" value="/usr/pgsql-14/bin/pg_ctl"/>
> > > > > > > > > > > >             <nvpair
> > > > id="r_pgsql-instance_attributes-pgdata"
> > > > > > > > > > name="pgdata" value="/var/lib/pgsql/14/data"/>
> > > > > > > > > > > >             <nvpair
> > > > > > > > > > id="r_pgsql-instance_attributes-primary_conninfo_opt"
> > > > > > > > > > name="primary_conninfo_opt" value="keepalives_idle=60
> > > > > > > > > > keepalives_interval=5 keepalives_count=5"/>
> > > > > > > > > > > >             <nvpair
> id="r_pgsql-instance_attributes-psql"
> > > > > > > > name="psql"
> > > > > > > > > > value="/usr/pgsql-14/bin/psql"/>
> > > > > > > > > > > >             <nvpair
> > > > id="r_pgsql-instance_attributes-rep_mode"
> > > > > > > > > > name="rep_mode" value="sync"/>
> > > > > > > > > > > >             <nvpair
> > > > > > > > id="r_pgsql-instance_attributes-restore_command"
> > > > > > > > > > name="restore_command" value="false"/>
> > > > > > > > > > > >             <nvpair
> > > > > > id="r_pgsql-instance_attributes-stop_escalate"
> > > > > > > > > > name="stop_escalate" value="0"/>
> > > > > > > > > > > >           </instance_attributes>
> > > > > > > > > > > >           <operations>
> > > > > > > > > > > >             <op id="r_pgsql-demote-interval-0s"
> > > > interval="0s"
> > > > > > > > > > name="demote" on-fail="block" start-delay="0s"
> > > > timeout="1200s"/>
> > > > > > > > > > > >             <op id="r_pgsql-methods-interval-0s"
> > > > interval="0s"
> > > > > > > > > > name="methods" timeout="5s"/>
> > > > > > > > > > > >             <op id="r_pgsql-monitor-interval-30s"
> > > > > > interval="30s"
> > > > > > > > > > name="monitor" on-fail="restart" start-delay="10s"
> > > > > > timeout="480s"/>
> > > > > > > > > > > >             <op id="r_pgsql-monitor-interval-7s"
> > > > interval="7s"
> > > > > > > > > > name="monitor" on-fail="restart" role="Master"
> start-delay="9s"
> > > > > > > > > > timeout="480s"/>
> > > > > > > > > > > >             <op id="r_pgsql-notify-interval-0s"
> > > > interval="0s"
> > > > > > > > > > name="notify" start-delay="0s" timeout="90s"/>
> > > > > > > > > > > >             <op id="r_pgsql-promote-interval-0s"
> > > > interval="0s"
> > > > > > > > > > name="promote" on-fail="restart" start-delay="0s"
> > > > > > timeout="9000s"/>
> > > > > > > > > > > >             <op id="r_pgsql-start-interval-0s"
> interval="0s"
> > > > > > > > > > name="start" on-fail="restart" start-delay="0s"
> > > > > > timeout="1209600s"/>
> > > > > > > > > > > >             <op id="r_pgsql-stop-interval-0s"
> interval="0s"
> > > > > > > > > > name="stop" on-fail="block" start-delay="0s"
> > > > timeout="1200s"/>
> > > > > > > > > > > >           </operations>
> > > > > > > > > > > >         </primitive>
> > > > > > > > > > > >         <meta_attributes
> id="ms_pgsql-meta_attributes">
> > > > > > > > > > > >           <nvpair
> > > > id="ms_pgsql-meta_attributes-promotable"
> > > > > > > > > > name="promotable" value="true"/>
> > > > > > > > > > > >           <nvpair
> > > > > > id="ms_pgsql-meta_attributes-promoted-max"
> > > > > > > > > > name="promoted-max" value="1"/>
> > > > > > > > > > > >           <nvpair
> > > > > > > > id="ms_pgsql-meta_attributes-promoted-node-max"
> > > > > > > > > > name="promoted-node-max" value="1"/>
> > > > > > > > > > > >           <nvpair
> > > > id="ms_pgsql-meta_attributes-clone-max"
> > > > > > > > > > name="clone-max" value="2"/>
> > > > > > > > > > > >           <nvpair
> > > > > > id="ms_pgsql-meta_attributes-clone-node-max"
> > > > > > > > > > name="clone-node-max" value="1"/>
> > > > > > > > > > > >           <nvpair
> id="ms_pgsql-meta_attributes-notify"
> > > > > > > > name="notify"
> > > > > > > > > > value="true"/>
> > > > > > > > > > > >           <nvpair
> > > > id="ms_pgsql-meta_attributes-target-role"
> > > > > > > > > > name="target-role" value="Master"/>
> > > > > > > > > > > >         </meta_attributes>
> > > > > > > > > > > >       </clone>
> > > > > > > > > > > >     </resources>
> > > > > > > > > > > >     <constraints>
> > > > > > > > > > > >       <rsc_location id="location-ms_pgsql"
> > > > rsc="ms_pgsql">
> > > > > > > > > > > >         <rule id="location-ms_pgsql-rule"
> role="Master"
> > > > > > > > score="200">
> > > > > > > > > > > >           <expression attribute="#uname"
> > > > > > > > > > id="location-ms_pgsql-rule-expr" operation="eq"
> > > > value="node01"/>
> > > > > > > > > > > >         </rule>
> > > > > > > > > > > >       </rsc_location>
> > > > > > > > > > > >       <rsc_location id="location-ms_pgsql-1"
> > > > rsc="ms_pgsql">
> > > > > > > > > > > >         <rule id="location-ms_pgsql-1-rule"
> role="Master"
> > > > > > > > > > score="100">
> > > > > > > > > > > >           <expression attribute="#uname"
> > > > > > > > > > id="location-ms_pgsql-1-rule-expr" operation="eq"
> > > > > > value="node02"/>
> > > > > > > > > > > >         </rule>
> > > > > > > > > > > >       </rsc_location>
> > > > > > > > > > > >       <rsc_colocation
> > > > > > > > id="colocation-r_service_fh-ms_pgsql-INFINITY"
> > > > > > > > > > rsc="r_service_fh" rsc-role="Started" score="INFINITY"
> > > > > > > > with-rsc="ms_pgsql"
> > > > > > > > > > with-rsc-role="Master"/>
> > > > > > > > > > > >       <rsc_order first="ms_pgsql"
> first-action="promote"
> > > > > > > > > > id="order-ms_pgsql-r_service_fh-Optional"
> kind="Optional"
> > > > > > > > > > symmetrical="false" then="r_service_fh"
> then-action="start"/>
> > > > > > > > > > > >       <rsc_order first="ms_pgsql"
> first-action="demote"
> > > > > > > > > > id="order-ms_pgsql-r_service_fh-Optional-1"
> kind="Optional"
> > > > > > > > > > symmetrical="false" then="r_service_fh"
> then-action="stop"/>
> > > > > > > > > > > >     </constraints>
> > > > > > > > > > > >     <rsc_defaults>
> > > > > > > > > > > >       <meta_attributes
> id="rsc_defaults-meta_attributes">
> > > > > > > > > > > >         <nvpair
> > > > > > > > id="rsc_defaults-meta_attributes-resource-stickiness"
> > > > > > > > > > name="resource-stickiness" value="INFINITY"/>
> > > > > > > > > > > >         <nvpair
> > > > > > > > id="rsc_defaults-meta_attributes-migration-threshold"
> > > > > > > > > > name="migration-threshold" value="1"/>
> > > > > > > > > > > >       </meta_attributes>
> > > > > > > > > > > >     </rsc_defaults>
> > > > > > > > > > > >   </configuration>
> > > > > > > > > > > >   <status/>
> > > > > > > > > > > > </cib>
> > > > > > > > > > > >
> > > > > > > >
> > > > --------------------------------------------------------------------
> > > > > > > > > > > > -----
> > > > > > > > > > > >
> > > > > > > > > > > > 以上、よろしくお願いいたします。
> > > > > > > > > > > >
> > > > > > > > > > > > > -----Original Message-----
> > > > > > > > > > > > > From: renay****@ybb***** <>
> > > > > > > > > > > > > Sent: Thursday, June 9, 2022 3:25 PM
> > > > > > > > > > > > > To: 辻 真吾 <tsuji****@ryobi*****>; LINUX-HA
> > > > > > > > > > > > > <linux****@lists*****>
> > > > > > > > > > > > > Cc: d-ike****@ryobi*****
> > > > > > > > > > > > > Subject: Re: RE: RE: RE: [Linux-ha-jp] Pacemaker
> のフェ
> > > > ール
> > > > > > オー
> > > > > > > > バー
> > > > > > > > > > 後のノ
> > > > > > > > > > > > > ード組込みについて
> > > > > > > > > > > > >
> > > > > > > > > > > > > 辻さん
> > > > > > > > > > > > >
> > > > > > > > > > > > > こんにちは、山内です。
> > > > > > > > > > > > >
> > > > > > > > > > > > > > > 何かお使いになっているリソースや、手順など
> で、node2
> > > > > > から
> > > > > > > > node1
> > > > > > > > > > の
> > > > > > > > > > > > > r_pgsqlのエラーカウントをクリアするような事が起
> きてい
> > > > ませ
> > > > > > んで
> > > > > > > > しょ
> > > > > > > > > > う
> > > > > > > > > > > > > か?
> > > > > > > > > > > > > > > もしくは、使ったことはありませんが、
> failure-timeout
> > > > を
> > > > > > 設定
> > > > > > > > して
> > > > > > > > > > いるな
> > > > > > > > > > > > > どで、エラーカウントを一定時間で実行するような
> 設定を
> > > > 使っ
> > > > > > てい
> > > > > > > > ませ
> > > > > > > > > > んか?
> > > > > > > > > > > > > >
> > > > > > > > > > > > > > 申し訳ありません。
> > > > > > > > > > > > > > 最初のメールでお伝えした手順で記載できており
> ません
> > > > でし
> > > > > > た。
> > > > > > > > > > > > > > 実施した手順は、正確には以下になります。(手順
> 7を追
> > > > 記し
> > > > > > まし
> > > > > > > > た)
> > > > > > > > > > > > > >
> > > > > > > > > > > > > > 実施手順
> > > > > > > > > > > > > >  1. ノード1のpostgresプロセスをkill
> > > > > > > > > > > > > >  2. ノード2がマスターに昇格
> > > > > > > > > > > > > >  3. ノード1のpacemaker、corosyncをsystemctl
> で停
> > > > 止
> > > > > > > > > > > > > >  4. ノード1でテーブル空間のディレクトリ配下と
> > > > PGDATA
> > > > > > のデ
> > > > > > > > ィレ
> > > > > > > > > > クトリ
> > > > > > > > > > > > > を削除
> > > > > > > > > > > > > >  5. ノード1でpg_basebackupを実施
> > > > > > > > > > > > > >  6. ノード1のcorosync、pacemakerをsystemctl
> で起
> > > > 動
> > > > > > > > > > > > > >     → ここでノード1が"sync"状態になる想定で
> すが、
> > > > > > > > > > > > > >        実際には起動処理が実施された後に、
> > > > > > > > > > > > > >        停止状態に遷移してしまいます。※
> > > > > > > > > > > > > >  7. ノード2で「pcs resource cleanup r_pgsql」
> を実施
> > > > > > > > > > > > > >    → ここでノード1が正常に組込まれる。
> > > > > > > > > > > > > >
> > > > > > > > > > > > > > 今回ご指摘いただいたのは、この手順7の部分の
> ことだ
> > > > と思
> > > > > > いま
> > > > > > > > す。
> > > > > > > > > > > > > > 本件で問題としているのは、手順6でstart処理が
> 内部的
> > > > に2
> > > > > > 回呼
> > > > > > > > ばれ
> > > > > > > > > > ている
> > > > > > > > > > > > > 点になります。
> > > > > > > > > > > > > > 山内さんがおっしゃられている、下記の「node1
> のr_pgsql
> > > > > > のstart
> > > > > > > > の
> > > > > > > > > > 失敗を
> > > > > > > > > > > > > 処理」した原因を
> > > > > > > > > > > > > > 突き止めたいと思っております。
> > > > > > > > > > > > > >
> > > > > > > > > > > > > > > ★node1のr_pgsqlのstartの失敗を処理して、
> クラス
> > > > タは
> > > > > > 一旦
> > > > > > > > 安定
> > > > > > > > > > 状態に
> > > > > > > > > > > > > 入ります。
> > > > > > > > > > > > > >
> > > > > > > > > > > > > > 先日送付させていただいたログで言いますと、下
> 記の部
> > > > 分で
> > > > > > start
> > > > > > > > 処理
> > > > > > > > > > が2度
> > > > > > > > > > > > > 動作している様に
> > > > > > > > > > > > > > 見えておりまして、一度「STOP->HS:alone」に
> 遷移し
> > > > た後
> > > > > > に、
> > > > > > > > > > > > > 「HS:alone->STOP」に遷移している
> > > > > > > > > > > > > > 原因を調べたく思っております。
> > > > > > > > > > > > > > (最初に詳細にお伝えできておらず、申し訳あり
> ません。)
> > > > > > > > > > > > > > このstartの失敗処理について、何か原因として考
> えられ
> > > > るも
> > > > > > のは
> > > > > > > > あり
> > > > > > > > > > ますで
> > > > > > > > > > > > > しょうか?
> > > > > > > > > > > > >
> > > > > > > > > > > > > 以下の手順を取った場合、どうなりますでしょうか?
> > > > > > > > > > > > >
> > > > > > > > > > > > > 3.でpacemaker,corosync停止後に、
> /var/lib/pacemaker/
> > > > 配下の
> > > > > > ファ
> > > > > > > > イル
> > > > > > > > > > を一旦
> > > > > > > > > > > > > 削除する。
> > > > > > > > > > > > >
> > > > > > > > > > > > > また、頂いた手順にはありませんが、
> > > > > > > > /var/lib/pgsql/tmp/PGSQL.lock
> > > > > > > > > > の削除は
> > > > > > > > > > > > > どうされていますしょうか?
> > > > > > > > > > > > > ※通常、pgsqlはファイルが残っていると起動しませ
> んが、
> > > > 手順
> > > > > > には
> > > > > > > > ない
> > > > > > > > > > ようで
> > > > > > > > > > > > > したので。。。念の為、確認させて頂きました。
> > > > > > > > > > > > >
> > > > > > > > > > > > > ちなみに、この事象ですが、再現性はありますでし
> ょうか?
> > > > > > (100%??)
> > > > > > > > > > > > > その場合、通常のpgsqlのリソースエージェントを
> 利用し
> > > > た場
> > > > > > 合で
> > > > > > > > も、
> > > > > > > > > > 問題が
> > > > > > > > > > > > > 再現しますでしょうか?
> > > > > > > > > > > > >
> > > > > > > > > > > > > 最初のログを頂いた時に直接関係しないと思います
> が、若
> > > > 干、
> > > > > > 以下
> > > > > > > > の点
> > > > > > > > > > が気に
> > > > > > > > > > > > > なりました。
> > > > > > > > > > > > > ①node1を再起動した後、node2の認識が遅れてい
> る。
> > > > > > > > > > > > > ②その後、node2を認識している。
> > > > > > > > > > > > > ネットワークの遅延などが、お使いの環境で起きて
> いるか
> > > > もと
> > > > > > 思っ
> > > > > > > > てい
> > > > > > > > > > ます。
> > > > > > > > > > > > >
> > > > > > > > > > > > > 問題の無い範囲で、cib.xml(pacemakerに流し込ん
> でいる)
> > > > を拝
> > > > > > 見で
> > > > > > > > きれ
> > > > > > > > > > ば、も
> > > > > > > > > > > > > う少し分かるかも知れません。
> > > > > > > > > > > > >
> > > > > > > > > > > > > 以上、宜しくお願いいたします。
> > > > > > > > > > > > >
> > > > > > > > > > > > >
> > > > > > > > > > > > >
> > > > > > > > > > > > >
> > > > > > > > > > > > >
> > > > > > > > > > > > > > ----- Original Message -----
> > > > > > > > > > > > > >
> > > > > > > > > > > > > > From: "辻 真吾" <tsuji****@ryobi*****>
> > > > > > > > > > > > > > To: "renay****@ybb*****"
> > > > > > > > <renay****@ybb*****>;
> > > > > > > > > > > > > > "LINUX-HA" <linux****@lists*****>
> > > > > > > > > > > > > > Cc: "d-ike****@ryobi*****" <d-ike****@ryobi*****>
> > > > > > > > > > > > > > Date: 2022/06/09 木 11:45
> > > > > > > > > > > > > > Subject: RE: RE: RE: [Linux-ha-jp]  Pacemaker
> のフェー
> > > > ルオ
> > > > > > ーバ
> > > > > > > > ー後
> > > > > > > > > > のノ
> > > > > > > > > > > > > ード組込みについて
> > > > > > > > > > > > > >
> > > > > > > > > > > > > >
> > > > > > > > > > > > > > 山内さん
> > > > > > > > > > > > > >
> > > > > > > > > > > > > > お世話になっております。辻です。
> > > > > > > > > > > > > >
> > > > > > > > > > > > > > ログの解析、ありがとうございます。
> > > > > > > > > > > > > >
> > > > > > > > > > > > > > > まず、node1でpostgreSQLをkillしてからの停
> 止動作
> > > > には
> > > > > > 問題
> > > > > > > > はな
> > > > > > > > > > いよう
> > > > > > > > > > > > > です。
> > > > > > > > > > > > > >
> > > > > > > > > > > > > > 承知しました。
> > > > > > > > > > > > > >
> > > > > > > > > > > > > >
> > > > > > > > > > > > > > > 何かお使いになっているリソースや、手順など
> で、node2
> > > > > > から
> > > > > > > > node1
> > > > > > > > > > の
> > > > > > > > > > > > > r_pgsqlのエラーカウントをクリアするような事が起
> きてい
> > > > ませ
> > > > > > んで
> > > > > > > > しょ
> > > > > > > > > > う
> > > > > > > > > > > > > か?
> > > > > > > > > > > > > > > もしくは、使ったことはありませんが、
> failure-timeout
> > > > を
> > > > > > 設定
> > > > > > > > して
> > > > > > > > > > いるな
> > > > > > > > > > > > > どで、エラーカウントを一定時間で実行するような
> 設定を
> > > > 使っ
> > > > > > てい
> > > > > > > > ませ
> > > > > > > > > > んか?
> > > > > > > > > > > > > >
> > > > > > > > > > > > > > 申し訳ありません。
> > > > > > > > > > > > > > 最初のメールでお伝えした手順で記載できており
> ません
> > > > でし
> > > > > > た。
> > > > > > > > > > > > > > 実施した手順は、正確には以下になります。(手順
> 7を追
> > > > 記し
> > > > > > まし
> > > > > > > > た)
> > > > > > > > > > > > > >
> > > > > > > > > > > > > > 実施手順
> > > > > > > > > > > > > >  1. ノード1のpostgresプロセスをkill
> > > > > > > > > > > > > >  2. ノード2がマスターに昇格
> > > > > > > > > > > > > >  3. ノード1のpacemaker、corosyncをsystemctl
> で停
> > > > 止
> > > > > > > > > > > > > >  4. ノード1でテーブル空間のディレクトリ配下と
> > > > PGDATA
> > > > > > のデ
> > > > > > > > ィレ
> > > > > > > > > > クトリ
> > > > > > > > > > > > > を削除
> > > > > > > > > > > > > >  5. ノード1でpg_basebackupを実施
> > > > > > > > > > > > > >  6. ノード1のcorosync、pacemakerをsystemctl
> で起
> > > > 動
> > > > > > > > > > > > > >     → ここでノード1が"sync"状態になる想定で
> すが、
> > > > > > > > > > > > > >        実際には起動処理が実施された後に、
> > > > > > > > > > > > > >        停止状態に遷移してしまいます。※
> > > > > > > > > > > > > >  7. ノード2で「pcs resource cleanup r_pgsql」
> を実施
> > > > > > > > > > > > > >    → ここでノード1が正常に組込まれる。
> > > > > > > > > > > > > >
> > > > > > > > > > > > > > 今回ご指摘いただいたのは、この手順7の部分の
> ことだ
> > > > と思
> > > > > > いま
> > > > > > > > す。
> > > > > > > > > > > > > > 本件で問題としているのは、手順6でstart処理が
> 内部的
> > > > に2
> > > > > > 回呼
> > > > > > > > ばれ
> > > > > > > > > > ている
> > > > > > > > > > > > > 点になります。
> > > > > > > > > > > > > > 山内さんがおっしゃられている、下記の「node1
> のr_pgsql
> > > > > > のstart
> > > > > > > > の
> > > > > > > > > > 失敗を
> > > > > > > > > > > > > 処理」した原因を
> > > > > > > > > > > > > > 突き止めたいと思っております。
> > > > > > > > > > > > > >
> > > > > > > > > > > > > > > ★node1のr_pgsqlのstartの失敗を処理して、
> クラス
> > > > タは
> > > > > > 一旦
> > > > > > > > 安定
> > > > > > > > > > 状態に
> > > > > > > > > > > > > 入ります。
> > > > > > > > > > > > > >
> > > > > > > > > > > > > > 先日送付させていただいたログで言いますと、下
> 記の部
> > > > 分で
> > > > > > start
> > > > > > > > 処理
> > > > > > > > > > が2度
> > > > > > > > > > > > > 動作している様に
> > > > > > > > > > > > > > 見えておりまして、一度「STOP->HS:alone」に
> 遷移し
> > > > た後
> > > > > > に、
> > > > > > > > > > > > > 「HS:alone->STOP」に遷移している
> > > > > > > > > > > > > > 原因を調べたく思っております。
> > > > > > > > > > > > > > (最初に詳細にお伝えできておらず、申し訳あり
> ません。)
> > > > > > > > > > > > > > このstartの失敗処理について、何か原因として考
> えられ
> > > > るも
> > > > > > のは
> > > > > > > > あり
> > > > > > > > > > ますで
> > > > > > > > > > > > > しょうか?
> > > > > > > > > > > > > >
> > > > > > > > > > > > > > ■RAのログ(RAにデバッグを仕込んで出力したロ
> グ)
> > > > > > > > > > > > > > [2022-05-31 07:38:40.554555882]  Called from
> line:2518
> > > > > > > > > > > > > > **********
> > > > > > > > > > > > > > main() : start **********
> > > > > > > > > > > > > > [2022-05-31 07:38:59.233215625]  Called from
> line:2617
> > > > > > > > > > > > > > pgsql_start()
> > > > > > > > > > > > > > RETURN:0
> > > > > > > > > > > > > > [2022-05-31 07:38:59.295383798]  Called from
> line:2518
> > > > > > > > > > > > > > **********
> > > > > > > > > > > > > > main() : start **********
> > > > > > > > > > > > > > [2022-05-31 07:38:59.682203668]  Called from
> line:2617
> > > > > > > > > > > > > > pgsql_start()
> > > > > > > > > > > > > > RETURN:1
> > > > > > > > > > > > > >
> > > > > > > > > > > > > > ■pacemaker.log
> > > > > > > > > > > > > > May 31 07:38:59  pgsql(r_pgsql)[247646]:
> INFO:
> > > > > > PostgreSQL
> > > > > > > > is
> > > > > > > > > > started.
> > > > > > > > > > > > > > May 31 07:38:59  pgsql(r_pgsql)[247646]:
> INFO:
> > > > > > Changing
> > > > > > > > > > > > > r_pgsql-status on node1 : STOP->HS:alone.
> > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-attrd
> > > > [247415]
> > > > > > > > > > > > > (attrd_peer_update) 	notice: Setting
> > > > > > r_pgsql-status[node1]: STOP
> > > > > > > > > > ->
> > > > > > > > > > > > > HS:alone | from node1
> > > > > > > > > > > > > > ・・・
> > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-execd
> > > > [247414]
> > > > > > > > > > (log_finished)
> > > > > > > > > > > > > 	info: r_pgsql start (call 11, PID 247646) exited
> with
> > > > status 0
> > > > > > > > > > > > > (execution time 18738ms, queue time 0ms)
> > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-execd
> > > > [247414]
> > > > > > > > > > (log_execute)
> > > > > > > > > > > > > 	info: executing - rsc:r_pgsql action:start
> call_id:13
> > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-controld
> > > > [247417]
> > > > > > > > > > > > > (action_synced_wait) 	info:
> > > > pgsql_meta-data_0[248726]
> > > > > > > > exited with
> > > > > > > > > > status 0
> > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-controld
> > > > [247417]
> > > > > > > > > > > > > (process_lrm_event) 	notice: Result of start
> > > > operation for
> > > > > > > > r_pgsql on
> > > > > > > > > > node1:
> > > > > > > > > > > > > ok | rc=0 call=11 key=r_pgsql_start_0
> confirmed=true
> > > > > > > > cib-update=43
> > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based
> > > > [247412]
> > > > > > > > > > > > > (cib_process_request) 	info: Forwarding
> cib_modify
> > > > > > > > operation for
> > > > > > > > > > section
> > > > > > > > > > > > > status to all (origin=local/crmd/43)
> > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based
> > > > [247412]
> > > > > > > > > > > > > (cib_perform_op) 	info: Diff: --- 0.547.41 2
> > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based
> > > > [247412]
> > > > > > > > > > > > > (cib_perform_op) 	info: Diff: +++ 0.547.42
> (null)
> > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based
> > > > [247412]
> > > > > > > > > > > > > (cib_perform_op) 	info: +  /cib:
> @num_updates=42
> > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based
> > > > [247412]
> > > > > > > > > > > > > (cib_perform_op) 	info: +
> > > > > > > > > > > > >
> > > > > > > >
> > > > /cib/status/node_state[@id='1']/lrm[@id='1']/lrm_resources/lrm_res
> > > > > > > > > > > > > ource[
> > > > > > > > > > > > > @id='r_pgsql']/lrm_rsc_op[@id='r_pgsql_last_0']:
> > > > > > > > > > > > >
> > > > > > @transition-key=5:0:0:efb965be-11c0-45a4-adde-1b209d1f8cca,
> > > > > > > > > > > > >
> > > > > > > >
> > > > @transition-magic=0:0;5:0:0:efb965be-11c0-45a4-adde-1b209d1f8cca,
> > > > > > > > > > > > > @call-id=11, @rc-code=0, @op-status=0,
> > > > > > > > > > @last-rc-change=1653982720,
> > > > > > > > > > > > > @exec-time=18738
> > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based
> > > > [247412]
> > > > > > > > > > > > > (cib_process_request) 	info: Completed
> cib_modify
> > > > > > > > operation for
> > > > > > > > > > section
> > > > > > > > > > > > > status: OK (rc=0, origin=node1/crmd/43,
> version=0.547.42)
> > > > > > > > > > > > > > May 31 07:38:59  pgsql(r_pgsql)[248725]:
> INFO:
> > > > > > Changing
> > > > > > > > > > > > > r_pgsql-status on node1 : HS:alone->STOP.
> > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-attrd
> > > > [247415]
> > > > > > > > > > > > > (attrd_peer_update) 	notice: Setting
> > > > > > r_pgsql-status[node1]:
> > > > > > > > > > HS:alone ->
> > > > > > > > > > > > > STOP | from node1
> > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based
> > > > [247412]
> > > > > > > > > > > > > (cib_perform_op) 	info: Diff: --- 0.547.42 2
> > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based
> > > > [247412]
> > > > > > > > > > > > > (cib_perform_op) 	info: Diff: +++ 0.547.43
> (null)
> > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based
> > > > [247412]
> > > > > > > > > > > > > (cib_perform_op) 	info: +  /cib:
> @num_updates=43
> > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based
> > > > [247412]
> > > > > > > > > > > > > (cib_perform_op) 	info: +
> > > > > > > > > > > > >
> > > > > > > >
> /cib/status/node_state[@id='1']/transient_attributes[@id='1']/inst
> > > > > > > > > > > > > ance_attri
> > > > > > > > > > > > >
> > > > butes[@id='status-1']/nvpair[@id='status-1-r_pgsql-status']:
> > > > > > > > > > > > > @value=STOP
> > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based
> > > > [247412]
> > > > > > > > > > > > > (cib_process_request) 	info: Completed
> cib_modify
> > > > > > > > operation for
> > > > > > > > > > section
> > > > > > > > > > > > > status: OK (rc=0, origin=node2/attrd/16,
> version=0.547.43)
> > > > > > > > > > > > > > May 31 07:38:59  pgsql(r_pgsql)[248725]:
> INFO: Set
> > > > all
> > > > > > nodes
> > > > > > > > into
> > > > > > > > > > async
> > > > > > > > > > > > > mode.
> > > > > > > > > > > > > > May 31 07:38:59  pgsql(r_pgsql)[248725]:
> INFO:
> > > > > > PostgreSQL
> > > > > > > > is
> > > > > > > > > > already
> > > > > > > > > > > > > running. PID=247940
> > > > > > > > > > > > > > /var/lib/pgsql/14/data
> > > > > > > > > > > > > > 1653982720
> > > > > > > > > > > > > > 5432
> > > > > > > > > > > > > > /var/run/postgresql
> > > > > > > > > > > > > > *
> > > > > > > > > > > > > >  51600331        13
> > > > > > > > > > > > > > ready
> > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-execd
> > > > [247414]
> > > > > > > > > > (log_finished)
> > > > > > > > > > > > > 	info: r_pgsql start (call 13, PID 248725) exited
> with
> > > > status 1
> > > > > > > > > > > > > (execution time 449ms, queue time 12057ms)
> > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-controld
> > > > [247417]
> > > > > > > > > > > > > (process_lrm_event) 	notice: Result of start
> > > > operation for
> > > > > > > > r_pgsql on
> > > > > > > > > > node1:
> > > > > > > > > > > > > error | rc=1 call=13 key=r_pgsql_start_0
> confirmed=true
> > > > > > > > > > > > > cib-update=44
> > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based
> > > > [247412]
> > > > > > > > > > > > > (cib_process_request) 	info: Forwarding
> cib_modify
> > > > > > > > operation for
> > > > > > > > > > section
> > > > > > > > > > > > > status to all (origin=local/crmd/44)
> > > > > > > > > > > > > >
> > > > > > > > > > > > > > 以上、よろしくお願いいたします。
> > > > > > > > > > > > > >
> > > > > > > > > > > > > > > -----Original Message-----
> > > > > > > > > > > > > > > From: renay****@ybb***** <>
> > > > > > > > > > > > > > > Sent: Wednesday, June 8, 2022 3:48 PM
> > > > > > > > > > > > > > > To: 辻 真吾 <tsuji****@ryobi*****>; LINUX-HA
> > > > > > > > > > > > > > > <linux****@lists*****>
> > > > > > > > > > > > > > > Cc: d-ike****@ryobi*****
> > > > > > > > > > > > > > > Subject: Re: RE: RE: [Linux-ha-jp] Pacemaker
> のフェ
> > > > ール
> > > > > > オー
> > > > > > > > バー
> > > > > > > > > > 後のノ
> > > > > > > > > > > > > ード
> > > > > > > > > > > > > > > 組込みについて
> > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > 辻さん
> > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > こんにちは、山内です。
> > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > まず、node1でpostgreSQLをkillしてからの停
> 止動作
> > > > には
> > > > > > 問題
> > > > > > > > はな
> > > > > > > > > > いよう
> > > > > > > > > > > > > です。
> > > > > > > > > > > > > > > ログを見ると、いくつか気になる動作はしてお
> ります
> > > > が...
> > > > > > とり
> > > > > > > > あえ
> > > > > > > > > > ず、2
> > > > > > > > > > > > > 度の
> > > > > > > > > > > > > > > startの件のみに限定して回答します。
> > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > 2度のstartが掛かる原因ですが、以下のログが
> 該当し
> > > > てい
> > > > > > ます。
> > > > > > > > > > > > > > > ----
> > > > > > > > > > > > > > > May 31 07:40:19 node2-001 pacemaker-controld
> > > > [242326]
> > > > > > > > > > (run_graph)
> > > > > > > > > > > > > > > 	notice: Transition 3 (Complete=10,
> > > > Pending=0,
> > > > > > Fired=0,
> > > > > > > > > > > > > > > Skipped=0, Incomplete=0,
> > > > > > > > > > Source=/var/lib/pacemaker/pengine/pe-input-301.bz2):
> > > > > > > > > > > > > > > Complete
> > > > > > > > > > > > > > > May 31 07:40:19 node2-001 pacemaker-controld
> > > > [242326]
> > > > > > > > > > > > > > > (do_state_transition) 	info: State transition
> > > > > > > > > > S_TRANSITION_ENGINE
> > > > > > > > > > > > > ->
> > > > > > > > > > > > > > > S_POLICY_ENGINE | input=I_PE_CALC
> > > > > > > > cause=C_FSA_INTERNAL
> > > > > > > > > > > > > > > origin=notify_crmd May 31 07:40:19 node2-001
> > > > > > > > > > > > > > > pacemaker-schedulerd[242325] (unpack_config)
> > > > > > > > > > > > > > > 	notice: On loss of quorum: Ignore May 31
> > > > 07:40:19
> > > > > > node2-001
> > > > > > > > > > > > > > > pacemaker-schedulerd[242325]
> > > > > > > > > > > > > > > (determine_online_status) 	info: Node
> node1 is
> > > > online
> > > > > > > > > > > > > > > May 31 07:40:19 node2-001
> > > > pacemaker-schedulerd[242325]
> > > > > > > > > > > > > > > (determine_online_status) 	info: Node
> node2 is
> > > > online
> > > > > > > > > > > > > > > May 31 07:40:19 node2-001
> > > > pacemaker-schedulerd[242325]
> > > > > > > > > > > > > > > (unpack_rsc_op_failure) 	warning:
> > > > Unexpected result
> > > > > > > > (error)
> > > > > > > > > > was
> > > > > > > > > > > > > > > recorded for start of r_pgsql:0 on node1 at May 31
> > > > 07:38:59
> > > > > > > > > > > > > > > 2022 |
> > > > > > > > > > > > > > > rc=1
> > > > > > > > > > > > > > > id=r_pgsql_last_failure_0
> > > > > > > > > > > > > > > May 31 07:40:19 node2-001
> > > > pacemaker-schedulerd[242325]
> > > > > > > > > > > > > > > (pe_get_failcount) 	info: r_pgsql:0 has
> failed
> > > > INFINITY
> > > > > > > > times on
> > > > > > > > > > node1
> > > > > > > > > > > > > > > May 31 07:40:19 node2-001
> > > > pacemaker-schedulerd[242325]
> > > > > > > > > > > > > > > (check_migration_threshold) 	warning:
> Forcing
> > > > > > ms_pgsql
> > > > > > > > > > away
> > > > > > > > > > > > > from node1
> > > > > > > > > > > > > > > after 1000000 failures (max=1) May 31 07:40:19
> > > > node2-001
> > > > > > > > > > > > > > > pacemaker-schedulerd[242325]
> > > > > > > > > > > > > > > (pe_get_failcount) 	info: r_pgsql:1 has
> failed
> > > > INFINITY
> > > > > > > > times on
> > > > > > > > > > node1
> > > > > > > > > > > > > > > May 31 07:40:19 node2-001
> > > > pacemaker-schedulerd[242325]
> > > > > > > > > > > > > > > (check_migration_threshold) 	warning:
> Forcing
> > > > > > ms_pgsql
> > > > > > > > > > away
> > > > > > > > > > > > > from node1
> > > > > > > > > > > > > > > after 1000000 failures (max=1) May 31 07:40:19
> > > > node2-001
> > > > > > > > > > > > > > > pacemaker-schedulerd[242325]
> > > > > > > > > > > > > > > (pcmk__native_allocate) 	info: Resource
> > > > r_pgsql:1
> > > > > > > > cannot run
> > > > > > > > > > > > > > > anywhere
> > > > > > > > > > > > > > > May 31 07:40:19 node2-001
> > > > pacemaker-schedulerd[242325]
> > > > > > > > > > > > > > > (pcmk__set_instance_roles) 	info:
> Promoting
> > > > > > r_pgsql:0
> > > > > > > > (Master
> > > > > > > > > > > > > node2)
> > > > > > > > > > > > > > > May 31 07:40:19 node2-001
> > > > pacemaker-schedulerd[242325]
> > > > > > > > > > > > > > > (pcmk__set_instance_roles) 	info:
> ms_pgsql:
> > > > > > Promoted 1
> > > > > > > > > > > > > instances of a
> > > > > > > > > > > > > > > possible 1
> > > > > > > > > > > > > > > May 31 07:40:19 node2-001
> > > > pacemaker-schedulerd[242325]
> > > > > > > > > > > > > > > (rsc_action_default) 	info: Leave
> r_service_fh
> > > > > > > > 	(Started
> > > > > > > > > > > > > node2)
> > > > > > > > > > > > > > > May 31 07:40:19 node2-001
> > > > pacemaker-schedulerd[242325]
> > > > > > > > > > > > > > > (rsc_action_default) 	info: Leave
> r_pgsql:0
> > > > > > 	(Master
> > > > > > > > node2)
> > > > > > > > > > > > > > > May 31 07:40:19 node2-001
> > > > pacemaker-schedulerd[242325]
> > > > > > > > > > > > > > > (rsc_action_default) 	info: Leave
> r_pgsql:1
> > > > > > 	(Stopped)
> > > > > > > > > > > > > > > May 31 07:40:19 node2-001
> > > > pacemaker-schedulerd[242325]
> > > > > > > > > > > > > > > (pcmk__log_transition_summary)
> 	notice:
> > > > Calculated
> > > > > > > > transition
> > > > > > > > > > 4,
> > > > > > > > > > > > > > > saving inputs in
> > > > > > /var/lib/pacemaker/pengine/pe-input-302.bz2
> > > > > > > > > > > > > > > May 31 07:40:19 node2-001 pacemaker-controld
> > > > [242326]
> > > > > > > > > > > > > > > (do_state_transition) 	info: State transition
> > > > > > > > > > S_POLICY_ENGINE ->
> > > > > > > > > > > > > > > S_TRANSITION_ENGINE | input=I_PE_SUCCESS
> > > > > > > > > > > > > cause=C_IPC_MESSAGE
> > > > > > > > > > > > > > > origin=handle_response May 31 07:40:19
> node2-001
> > > > > > > > > > > > > > > pacemaker-controld [242326] (do_te_invoke)
> > > > > > > > > > > > > > > 	info: Processing graph 4
> > > > > > (ref=pe_calc-dc-1653982819-61)
> > > > > > > > > > > > > > > derived from
> > > > > > /var/lib/pacemaker/pengine/pe-input-302.bz2
> > > > > > > > > > > > > > > May 31 07:40:19 node2-001 pacemaker-controld
> > > > [242326]
> > > > > > > > > > (run_graph)
> > > > > > > > > > > > > > > 	notice: Transition 4 (Complete=0,
> > > > Pending=0,
> > > > > > Fired=0,
> > > > > > > > > > > > > > > Skipped=0, Incomplete=0,
> > > > > > > > > > Source=/var/lib/pacemaker/pengine/pe-input-302.bz2):
> > > > > > > > > > > > > > > Complete
> > > > > > > > > > > > > > > May 31 07:40:19 node2-001 pacemaker-controld
> > > > [242326]
> > > > > > > > (do_log)
> > > > > > > > > > > > > > > 	info: Input I_TE_SUCCESS received in state
> > > > > > > > > > > > > > > S_TRANSITION_ENGINE
> > > > > > > > > > > > > from
> > > > > > > > > > > > > > > notify_crmd May 31 07:40:19 node2-001
> > > > > > pacemaker-controld
> > > > > > > > > > [242326]
> > > > > > > > > > > > > > > (do_state_transition) 	notice: State
> transition
> > > > > > > > > > > > > S_TRANSITION_ENGINE ->
> > > > > > > > > > > > > > > S_IDLE | input=I_TE_SUCCESS
> > > > cause=C_FSA_INTERNAL
> > > > > > > > > > > > > origin=notify_crmd
> > > > > > > > > > > > > > > ★node1のr_pgsqlのstartの失敗を処理して、
> クラス
> > > > タは
> > > > > > 一旦
> > > > > > > > 安定
> > > > > > > > > > 状態に
> > > > > > > > > > > > > 入り
> > > > > > > > > > > > > > > ます。
> > > > > > > > > > > > > > > ----
> > > > > > > > > > > > > > > ★しばらく以下のログが続き...
> > > > > > > > > > > > > > > May 31 07:40:21 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[268937]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  dig success[OK]  STAGE: 1
> stpcnt: 0 ]
> > > > > > > > > > > > > > > May 31 07:40:21 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[268937]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  hostname success[OK]  STAGE: 2
> > > > stpcnt:
> > > > > > 0 ]
> > > > > > > > > > > > > > > May 31 07:40:21 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[268937]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  dug_ip: xx.xx.xx.xx  host_ip:
> xx.xx.xx.xx
> > > > > > stpcnt: 0 ]
> > > > > > > > > > > > > > > May 31 07:40:21 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[268937]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  Exit:OCF_SUCCESS[OK] ]
> > > > > > > > > > > > > > > May 31 07:40:24 node2-001 pacemaker-based
> > > > [242321]
> > > > > > > > > > > > > > > (cib_process_ping) 	info: Reporting our
> current
> > > > digest to
> > > > > > > > node2:
> > > > > > > > > > > > > > > cc0b84d295ff3f31db6079faf3ac1c05 for 0.550.1
> > > > > > > > (0x564c388d0a90 0)
> > > > > > > > > > > > > > > May 31 07:40:31 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[269358]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  dig success[OK]  STAGE: 1
> stpcnt: 0 ]
> > > > > > > > > > > > > > > May 31 07:40:31 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[269358]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  hostname success[OK]  STAGE: 2
> > > > stpcnt:
> > > > > > 0 ]
> > > > > > > > > > > > > > > May 31 07:40:31 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[269358]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  dug_ip: xx.xx.xx.xx  host_ip:
> xx.xx.xx.xx
> > > > > > stpcnt: 0 ]
> > > > > > > > > > > > > > > May 31 07:40:31 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[269358]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  Exit:OCF_SUCCESS[OK] ]
> > > > > > > > > > > > > > > May 31 07:40:41 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[269783]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  dig success[OK]  STAGE: 1
> stpcnt: 0 ]
> > > > > > > > > > > > > > > May 31 07:40:41 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[269783]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  hostname success[OK]  STAGE: 2
> > > > stpcnt:
> > > > > > 0 ]
> > > > > > > > > > > > > > > May 31 07:40:41 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[269783]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  dug_ip: xx.xx.xx.xx  host_ip:
> xx.xx.xx.xx
> > > > > > stpcnt: 0 ]
> > > > > > > > > > > > > > > May 31 07:40:41 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[269783]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  Exit:OCF_SUCCESS[OK] ]
> > > > > > > > > > > > > > > May 31 07:40:51 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[270595]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  dig success[OK]  STAGE: 1
> stpcnt: 0 ]
> > > > > > > > > > > > > > > May 31 07:40:51 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[270595]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  hostname success[OK]  STAGE: 2
> > > > stpcnt:
> > > > > > 0 ]
> > > > > > > > > > > > > > > May 31 07:40:51 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[270595]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  dug_ip: xx.xx.xx.xx  host_ip:
> xx.xx.xx.xx
> > > > > > stpcnt: 0 ]
> > > > > > > > > > > > > > > May 31 07:40:51 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[270595]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  Exit:OCF_SUCCESS[OK] ]
> > > > > > > > > > > > > > > May 31 07:41:01 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[271017]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  dig success[OK]  STAGE: 1
> stpcnt: 0 ]
> > > > > > > > > > > > > > > May 31 07:41:01 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[271017]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  hostname success[OK]  STAGE: 2
> > > > stpcnt:
> > > > > > 0 ]
> > > > > > > > > > > > > > > May 31 07:41:01 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[271017]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  dug_ip: xx.xx.xx.xx  host_ip:
> xx.xx.xx.xx
> > > > > > stpcnt: 0 ]
> > > > > > > > > > > > > > > May 31 07:41:01 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[271017]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  Exit:OCF_SUCCESS[OK] ]
> > > > > > > > > > > > > > > May 31 07:41:11 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[271548]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  dig success[OK]  STAGE: 1
> stpcnt: 0 ]
> > > > > > > > > > > > > > > May 31 07:41:11 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[271548]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  hostname success[OK]  STAGE: 2
> > > > stpcnt:
> > > > > > 0 ]
> > > > > > > > > > > > > > > May 31 07:41:11 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[271548]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  dug_ip: xx.xx.xx.xx  host_ip:
> xx.xx.xx.xx
> > > > > > stpcnt: 0 ]
> > > > > > > > > > > > > > > May 31 07:41:11 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[271548]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  Exit:OCF_SUCCESS[OK] ]
> > > > > > > > > > > > > > > May 31 07:41:21 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[272286]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  dig success[OK]  STAGE: 1
> stpcnt: 0 ]
> > > > > > > > > > > > > > > May 31 07:41:21 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[272286]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  hostname success[OK]  STAGE: 2
> > > > stpcnt:
> > > > > > 0 ]
> > > > > > > > > > > > > > > May 31 07:41:21 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[272286]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  dug_ip: xx.xx.xx.xx  host_ip:
> xx.xx.xx.xx
> > > > > > stpcnt: 0 ]
> > > > > > > > > > > > > > > May 31 07:41:21 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[272286]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  Exit:OCF_SUCCESS[OK] ]
> > > > > > > > > > > > > > > May 31 07:41:31 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[272782]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  dig success[OK]  STAGE: 1
> stpcnt: 0 ]
> > > > > > > > > > > > > > > May 31 07:41:31 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[272782]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  hostname success[OK]  STAGE: 2
> > > > stpcnt:
> > > > > > 0 ]
> > > > > > > > > > > > > > > May 31 07:41:31 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[272782]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  dug_ip: xx.xx.xx.xx  host_ip:
> xx.xx.xx.xx
> > > > > > stpcnt: 0 ]
> > > > > > > > > > > > > > > May 31 07:41:31 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[272782]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  Exit:OCF_SUCCESS[OK] ]
> > > > > > > > > > > > > > > May 31 07:41:41 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[273223]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  dig success[OK]  STAGE: 1
> stpcnt: 0 ]
> > > > > > > > > > > > > > > May 31 07:41:41 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[273223]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  hostname success[OK]  STAGE: 2
> > > > stpcnt:
> > > > > > 0 ]
> > > > > > > > > > > > > > > May 31 07:41:41 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[273223]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  dug_ip: xx.xx.xx.xx  host_ip:
> xx.xx.xx.xx
> > > > > > stpcnt: 0 ]
> > > > > > > > > > > > > > > May 31 07:41:41 node2-001 pacemaker-execd
> > > > [242323]
> > > > > > > > > > > > > (log_op_output)
> > > > > > > > > > > > > > > 	notice: r_service_fh_monitor_10000[273223]
> > > > error
> > > > > > output [ #
> > > > > > > > > > > > > > > fh_monitor  Exit:OCF_SUCCESS[OK] ]
> > > > > > > > > > > > > > > ----
> > > > > > > > > > > > > > > ★S_IDLE(07:40:19)から1分27秒後にnode1の
> エラー
> > > > が、
> > > > > > node2
> > > > > > > > か
> > > > > > > > > > らクリ
> > > > > > > > > > > > > アさ
> > > > > > > > > > > > > > > れています。
> > > > > > > > > > > > > > > May 31 07:41:46 node2-001 pacemaker-attrd
> > > > [242324]
> > > > > > > > > > > > > > > (attrd_peer_update) 	notice: Setting
> > > > > > > > > > > > > last-failure-r_pgsql#start_0[node1]:
> > > > > > > > > > > > > > > 1653982739 -> (unset) | from node2
> > > > > > > > > > > > > > > May 31 07:41:46 node2-001 pacemaker-attrd
> > > > [242324]
> > > > > > > > > > > > > (write_attribute)
> > > > > > > > > > > > > > > 	info: Sent CIB request 21 with 2 changes for
> > > > > > > > > > > > > > > last-failure-r_pgsql#start_0 (id n/a, set n/a)
> > > > > > > > > > > > > > > May 31 07:41:46 node2-001 pacemaker-based
> > > > [242321]
> > > > > > > > > > > > > > > (cib_process_request) 	info: Forwarding
> cib_modify
> > > > > > > > > > operation for
> > > > > > > > > > > > > section
> > > > > > > > > > > > > > > status to all (origin=local/attrd/21)
> > > > > > > > > > > > > > > May 31 07:41:46 node2-001 pacemaker-attrd
> > > > [242324]
> > > > > > > > > > > > > > > (attrd_peer_update) 	notice: Setting
> > > > > > > > > > > > > fail-count-r_pgsql#start_0[node1]:
> > > > > > > > > > > > > > > INFINITY -> (unset) | from node2
> > > > > > > > > > > > > > > May 31 07:41:46 node2-001 pacemaker-attrd
> > > > [242324]
> > > > > > > > > > > > > (write_attribute)
> > > > > > > > > > > > > > > 	info: Sent CIB request 22 with 2 changes for
> > > > > > > > > > > > > > > fail-count-r_pgsql#start_0 (id n/a, set n/a)
> > > > > > > > > > > > > > > May 31 07:41:46 node2-001 pacemaker-based
> > > > [242321]
> > > > > > > > > > > > > > > (cib_process_request) 	info: Forwarding
> cib_modify
> > > > > > > > > > operation for
> > > > > > > > > > > > > section
> > > > > > > > > > > > > > > status to all (origin=local/attrd/22)
> > > > > > > > > > > > > > > May 31 07:41:46 node2-001 pacemaker-based
> > > > [242321]
> > > > > > > > > > > > > (cib_perform_op)
> > > > > > > > > > > > > > > 	info: Diff: --- 0.550.1 2
> > > > > > > > > > > > > > > May 31 07:41:46 node2-001 pacemaker-based
> > > > [242321]
> > > > > > > > > > > > > (cib_perform_op)
> > > > > > > > > > > > > > > 	info: Diff: +++ 0.550.2 (null)
> > > > > > > > > > > > > > > May 31 07:41:46 node2-001 pacemaker-based
> > > > [242321]
> > > > > > > > > > > > > (cib_perform_op)
> > > > > > > > > > > > > > > 	info: --
> > > > > > > > > > > > > > >
> > > > > > > >
> /cib/status/node_state[@id='1']/transient_attributes[@id='1']/
> > > > > > > > > > > > > > > instan
> > > > > > > > > > > > > > > ce_attri
> > > > > > > > > > > > > > >
> > > > > > > > > > > > >
> > > > > > > >
> butes[@id='status-1']/nvpair[@id='status-1-last-failure-r_pgsql.st
> > > > > > > > > > > > > art_0']
> > > > > > > > > > > > > > > May 31 07:41:46 node2-001 pacemaker-based
> > > > [242321]
> > > > > > > > > > > > > (cib_perform_op)
> > > > > > > > > > > > > > > 	info: +  /cib:  @num_updates=2
> > > > > > > > > > > > > > > May 31 07:41:46 node2-001 pacemaker-based
> > > > [242321]
> > > > > > > > > > > > > > > (cib_process_request) 	info: Completed
> cib_modify
> > > > > > > > > > operation for
> > > > > > > > > > > > > section
> > > > > > > > > > > > > > > status: OK (rc=0, origin=node2/attrd/21,
> > > > version=0.550.2)
> > > > > > > > > > > > > > > May 31 07:41:46 node2-001 pacemaker-attrd
> > > > [242324]
> > > > > > > > > > > > > > > (attrd_cib_callback) 	info: CIB update 21
> result for
> > > > > > > > > > > > > > > last-failure-r_pgsql#start_0: OK | rc=0
> > > > > > > > > > > > > > > May 31 07:41:46 node2-001 pacemaker-attrd
> > > > [242324]
> > > > > > > > > > > > > > > (attrd_cib_callback) 	info: *
> > > > > > > > > > > > > last-failure-r_pgsql#start_0[node1]=(null)
> > > > > > > > > > > > > > > May 31 07:41:46 node2-001 pacemaker-attrd
> > > > [242324]
> > > > > > > > > > > > > > > (attrd_cib_callback) 	info: *
> > > > > > > > > > > > > last-failure-r_pgsql#start_0[node2]=(null)
> > > > > > > > > > > > > > > May 31 07:41:46 node2-001 pacemaker-controld
> > > > [242326]
> > > > > > > > > > > > > > > (abort_transition_graph) 	info: Transition 4
> > > > aborted by
> > > > > > > > deletion
> > > > > > > > > > of
> > > > > > > > > > > > > > >
> nvpair[@id='status-1-last-failure-r_pgsql.start_0']:
> > > > > > Transient
> > > > > > > > > > > > > > > attribute change
> > > > > > > > > > > > > > > | cib=0.550.2 source=abort_unless_down:327
> > > > > > > > > > > > > > >
> > > > > > > >
> path=/cib/status/node_state[@id='1']/transient_attributes[@id=
> > > > > > > > > > > > > > > '1']/i
> > > > > > > > > > > > > > > nstanc
> > > > > > > > > > > > > > >
> > > > > > e_attributes[@id='status-1']/nvpair[@id='status-1-last-failure
> > > > > > > > > > > > > > > -r_pgs
> > > > > > > > > > > > > > > ql.start_
> > > > > > > > > > > > > > > 0'] complete=true
> > > > > > > > > > > > > > > May 31 07:41:46 node2-001 pacemaker-controld
> > > > [242326]
> > > > > > > > > > > > > > > (do_state_transition) 	notice: State
> transition
> > > > > > S_IDLE ->
> > > > > > > > > > > > > S_POLICY_ENGINE
> > > > > > > > > > > > > > > | input=I_PE_CALC cause=C_FSA_INTERNAL
> > > > > > > > > > > > > origin=abort_transition_graph
> > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > ★この為、以降で、エラーが解除された為、再度、
> node1
> > > > > > のr_pgsql
> > > > > > > > > > のstart
> > > > > > > > > > > > > が
> > > > > > > > > > > > > > > 計算・実行されています。
> > > > > > > > > > > > > > > ----
> > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > 何かお使いになっているリソースや、手順など
> で、node2
> > > > > > から
> > > > > > > > node1
> > > > > > > > > > の
> > > > > > > > > > > > > r_pgsql
> > > > > > > > > > > > > > > のエラーカウントをクリアするような事が起き
> ていま
> > > > せん
> > > > > > でし
> > > > > > > > ょう
> > > > > > > > > > か?
> > > > > > > > > > > > > > > もしくは、使ったことはありませんが、
> failure-timeout
> > > > を
> > > > > > 設定
> > > > > > > > して
> > > > > > > > > > いるな
> > > > > > > > > > > > > どで、
> > > > > > > > > > > > > > > エラーカウントを一定時間で実行するような設
> 定を使
> > > > って
> > > > > > いま
> > > > > > > > せん
> > > > > > > > > > か?
> > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > なお、pacemakaerに流し込んでいる設定ファ
> イルを
> > > > 開示
> > > > > > して
> > > > > > > > 頂け
> > > > > > > > > > れば、
> > > > > > > > > > > > > こちら
> > > > > > > > > > > > > > > の手元でも、簡易な構成で確認してみることは
> 可能で
> > > > す。
> > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > 以上、宜しくお願いいたします。
> > > > > > > > > > > > > > >
> > > > > > > > > > > > > > >
> > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > ----- Original Message -----
> > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > From: "辻 真吾" <tsuji****@ryobi*****>
> > > > > > > > > > > > > > > > To: "renay****@ybb*****"
> > > > > > > > > > > > > > > > <renay****@ybb*****>;
> > > > > > > > > > > > > > > "LINUX-HA" <linux****@lists*****>
> > > > > > > > > > > > > > > > Cc: "d-ike****@ryobi*****"
> <d-ike****@ryobi*****>
> > > > > > > > > > > > > > > > Date: 2022/06/07 火 17:09
> > > > > > > > > > > > > > > > Subject: RE: RE: [Linux-ha-jp]  Pacemaker
> のフェ
> > > > ール
> > > > > > オー
> > > > > > > > バー
> > > > > > > > > > 後のノ
> > > > > > > > > > > > > ード
> > > > > > > > > > > > > > > 組込みについて
> > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > 山内さん
> > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > お世話になっております。辻です。
> > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > まだ、ログについては、これから拝見しま
> すが、2
> > > > 度
> > > > > > start(例
> > > > > > > > え
> > > > > > > > > > ば、故
> > > > > > > > > > > > > 障な
> > > > > > > > > > > > > > > どが
> > > > > > > > > > > > > > > > > 起きてstopしてstart(restart))は聞いたこ
> とがあ
> > > > りま
> > > > > > せん。
> > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > 承知しました。ありがとうございます。
> > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > また、ログを拝見してご連絡いたします。
> > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > ありがとうございます。お手数をおかけしま
> す。
> > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > 以上、よろしくお願いいたします。
> > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > -----Original Message-----
> > > > > > > > > > > > > > > > > From: renay****@ybb***** <>
> > > > > > > > > > > > > > > > > Sent: Tuesday, June 7, 2022 4:57 PM
> > > > > > > > > > > > > > > > > To: tsuji****@ryobi*****; LINUX-HA
> > > > > > > > > > > > > > > > > <linux****@lists*****>
> > > > > > > > > > > > > > > > > Cc: d-ike****@ryobi*****
> > > > > > > > > > > > > > > > > Subject: Re: RE: [Linux-ha-jp] Pacemaker
> のフェ
> > > > ール
> > > > > > オー
> > > > > > > > バー
> > > > > > > > > > 後のノ
> > > > > > > > > > > > > ード
> > > > > > > > > > > > > > > 組込
> > > > > > > > > > > > > > > > > みについて
> > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > 辻さん
> > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > こんにちは、山内です。
> > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > ログの送付ありがとうございました。拝見
> させて
> > > > いた
> > > > > > だき
> > > > > > > > ます。
> > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > ちなみに、これまでに他の利用者で同様
> に二度
> > > > start
> > > > > > され
> > > > > > > > たよ
> > > > > > > > > > うなケ
> > > > > > > > > > > > > ース
> > > > > > > > > > > > > > > は
> > > > > > > > > > > > > > > > > > ございますか?
> > > > > > > > > > > > > > > > > > どのような時に二度startされるのか、情
> 報をお
> > > > 持ち
> > > > > > でし
> > > > > > > > たら
> > > > > > > > > > 可能な
> > > > > > > > > > > > > 範囲
> > > > > > > > > > > > > > > で
> > > > > > > > > > > > > > > > > > 共有いただけますと幸いです。
> > > > > > > > > > > > > > > > > まだ、ログについては、これから拝見しま
> すが、2
> > > > 度
> > > > > > start(例
> > > > > > > > え
> > > > > > > > > > ば、故
> > > > > > > > > > > > > 障な
> > > > > > > > > > > > > > > どが
> > > > > > > > > > > > > > > > > 起きてstopしてstart(restart))は聞いたこ
> とがあ
> > > > りま
> > > > > > せん。
> > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > 他に知見がある方が、コメントしてくれる
> かも知
> > > > れま
> > > > > > せん。
> > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > 1)2)について、承知いたしました。
> > > > > > > > > > > > > > > > > また、ログを拝見してご連絡いたします。
> > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > 以上、よろしくお願いたします。
> > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > ----- Original Message -----
> > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > From: "辻 真吾" <tsuji****@ryobi*****>
> > > > > > > > > > > > > > > > > > To: "renay****@ybb*****"
> > > > > > > > > > > > > <renay****@ybb*****>;
> > > > > > > > > > > > > > > > > "LINUX-HA"
> <linux****@lists*****>
> > > > > > > > > > > > > > > > > > Cc: "d-ike****@ryobi*****"
> <d-ike****@ryobi*****>
> > > > > > > > > > > > > > > > > > Date: 2022/06/07 火 15:42
> > > > > > > > > > > > > > > > > > Subject: RE: [Linux-ha-jp]  Pacemaker
> のフェ
> > > > ール
> > > > > > オー
> > > > > > > > バー
> > > > > > > > > > 後のノ
> > > > > > > > > > > > > ード
> > > > > > > > > > > > > > > 組込
> > > > > > > > > > > > > > > > > みについて
> > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > 山内さん
> > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > お世話になります。辻です。
> > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > ※先ほど、本メールと同じ内容のメール
> を送信
> > > > しま
> > > > > > した
> > > > > > > > が、
> > > > > > > > > > > > > > > > > > ※送信エラーになりましたので、再送し
> ます。
> > > > > > > > > > > > > > > > > > ※重複して受信された場合は、先のメー
> ルの破
> > > > 棄を
> > > > > > お願
> > > > > > > > いし
> > > > > > > > > > ます。
> > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > 早速のお返事、ありがとうございます。
> > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > > RAが2度startされているとのことで
> すが、
> > > > ログ
> > > > > > など
> > > > > > > > 拝見
> > > > > > > > > > 出来れ
> > > > > > > > > > > > > ばな
> > > > > > > > > > > > > > > にか
> > > > > > > > > > > > > > > > > わか
> > > > > > > > > > > > > > > > > > > るかも知れません。
> > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > 恐縮ですが、ログを送付させていただき
> ますの
> > > > で、
> > > > > > 何か
> > > > > > > > お気
> > > > > > > > > > 付きの
> > > > > > > > > > > > > 点が
> > > > > > > > > > > > > > > > > > ありましたら、ご助言いただけますと幸
> いです。
> > > > > > > > > > > > > > > > > > (添付ファイルの送信でエラーになった
> ようで
> > > > すの
> > > > > > で、
> > > > > > > > この
> > > > > > > > > > メール
> > > > > > > > > > > > > の後
> > > > > > > > > > > > > > > で
> > > > > > > > > > > > > > > > > >  山内さん個別にログを送付させていた
> だきま
> > > > す。)
> > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > ちなみに、これまでに他の利用者で同様
> に二度
> > > > start
> > > > > > され
> > > > > > > > たよ
> > > > > > > > > > うなケ
> > > > > > > > > > > > > ース
> > > > > > > > > > > > > > > は
> > > > > > > > > > > > > > > > > > ございますか?
> > > > > > > > > > > > > > > > > > どのような時に二度startされるのか、情
> 報をお
> > > > 持ち
> > > > > > でし
> > > > > > > > たら
> > > > > > > > > > 可能な
> > > > > > > > > > > > > 範囲
> > > > > > > > > > > > > > > で
> > > > > > > > > > > > > > > > > > 共有いただけますと幸いです。
> > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > > 1)STONITHは組み込まれていると思い
> ますが、
> > > > マ
> > > > > > スタ
> > > > > > > > ーノ
> > > > > > > > > > ードは
> > > > > > > > > > > > > 正常
> > > > > > > > > > > > > > > にフ
> > > > > > > > > > > > > > > > > ェン
> > > > > > > > > > > > > > > > > > > シング終了して、再起動しているでし
> ょうか?
> > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > 停止時のログでfencing関連のメッセー
> ジは以
> > > > 下の
> > > > > > もの
> > > > > > > > があ
> > > > > > > > > > りまし
> > > > > > > > > > > > > た。
> > > > > > > > > > > > > > > > > > 最後の「disconnected」により停止され
> ている
> > > > よう
> > > > > > に見
> > > > > > > > えま
> > > > > > > > > > すが、
> > > > > > > > > > > > > > > > > > いかがでしょうか?
> > > > > > > > > > > > > > > > > > このメッセージより後に、組込みの起動
> を行っ
> > > > てお
> > > > > > りま
> > > > > > > > す。
> > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > May 31 07:32:28 node1-001
> pacemaker-controld
> > > > > > > > [224147]
> > > > > > > > > > > > > > > > >
> > > > (stonith__watchdog_fencing_enabled_for_node_api)
> > > > > > > > > > 	warning:
> > > > > > > > > > > > > > > > > watchdog-fencing-query failed
> > > > > > > > > > > > > > > > > > May 31 07:34:36 node1-001
> pacemaker-controld
> > > > > > > > [224147]
> > > > > > > > > > > > > > > > >
> > > > (stonith__watchdog_fencing_enabled_for_node_api)
> > > > > > > > > > 	warning:
> > > > > > > > > > > > > > > > > watchdog-fencing-query failed
> > > > > > > > > > > > > > > > > > May 31 07:35:19 node1-001
> pacemaker-controld
> > > > > > > > [224147]
> > > > > > > > > > > > > > > > > (tengine_stonith_connection_destroy)
> > > > 	info:
> > > > > > > > Fencing
> > > > > > > > > > daemon
> > > > > > > > > > > > > > > disconnected
> > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > > 2)corosync/pacemakerのsystemdの
> 自動起
> > > > 動が
> > > > > > 有効
> > > > > > > > にな
> > > > > > > > > > ってい
> > > > > > > > > > > > > たり
> > > > > > > > > > > > > > > しま
> > > > > > > > > > > > > > > > > せん
> > > > > > > > > > > > > > > > > > > でしょうか?
> > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > こちらの設定は、無効化しております。
> > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > 以上、よろしくお願いいたします。
> > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > > -----Original Message-----
> > > > > > > > > > > > > > > > > > > From: Linux-ha-japan <> On Behalf Of
> > > > > > > > > > > > > > > > > > > renay****@ybb*****
> > > > > > > > > > > > > > > > > > > Sent: Saturday, June 4, 2022 9:20 AM
> > > > > > > > > > > > > > > > > > > To: linux****@lists*****
> > > > > > > > > > > > > > > > > > > Cc: d-ike****@ryobi*****
> > > > > > > > > > > > > > > > > > > Subject: Re: [Linux-ha-jp] Pacemaker
> のフェ
> > > > ール
> > > > > > オー
> > > > > > > > バー
> > > > > > > > > > 後のノ
> > > > > > > > > > > > > ード
> > > > > > > > > > > > > > > 組込
> > > > > > > > > > > > > > > > > みに
> > > > > > > > > > > > > > > > > > > ついて
> > > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > > 辻さん
> > > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > > こんにちは、山内です。
> > > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > > 5)が正常に終わっているとのことです
> ので、
> > > > マス
> > > > > > ター
> > > > > > > > に昇
> > > > > > > > > > 格した
> > > > > > > > > > > > > スレ
> > > > > > > > > > > > > > > ーブ
> > > > > > > > > > > > > > > > > との
> > > > > > > > > > > > > > > > > > > 同期は正しく実行されていると思いま
> すので、
> > > > > > > > > > > > > > > > > > > 再起動して、スレーブ起動しようとし
> ている
> > > > > > pacemaker
> > > > > > > > の
> > > > > > > > > > リソー
> > > > > > > > > > > > > ス起
> > > > > > > > > > > > > > > 動中
> > > > > > > > > > > > > > > > > に何
> > > > > > > > > > > > > > > > > > > か起きていると思われます。
> > > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > > RAが2度startされているとのことで
> すが、
> > > > ログ
> > > > > > など
> > > > > > > > 拝見
> > > > > > > > > > 出来れ
> > > > > > > > > > > > > ばな
> > > > > > > > > > > > > > > にか
> > > > > > > > > > > > > > > > > わか
> > > > > > > > > > > > > > > > > > > るかも知れません。
> > > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > > 以下の点、とりあえず、確認して見た
> 方が良
> > > > いか
> > > > > > と思
> > > > > > > > いま
> > > > > > > > > > す。
> > > > > > > > > > > > > > > > > > > 1)STONITHは組み込まれていると思い
> ますが、
> > > > マ
> > > > > > スタ
> > > > > > > > ーノ
> > > > > > > > > > ードは
> > > > > > > > > > > > > 正常
> > > > > > > > > > > > > > > にフ
> > > > > > > > > > > > > > > > > ェン
> > > > > > > > > > > > > > > > > > > シング終了して、再起動しているでし
> ょうか?
> > > > > > > > > > > > > > > > > > > 2)corosync/pacemakerのsystemdの
> 自動起
> > > > 動が
> > > > > > 有効
> > > > > > > > にな
> > > > > > > > > > ってい
> > > > > > > > > > > > > たり
> > > > > > > > > > > > > > > しま
> > > > > > > > > > > > > > > > > せん
> > > > > > > > > > > > > > > > > > > でしょうか?
> > > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > > 以上、よろしくお願いいたします。
> > > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > > > ----- Original Message -----
> > > > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > > > From: "辻 真吾"
> <tsuji****@ryobi*****>
> > > > > > > > > > > > > > > > > > > > To: "LINUX-HA"
> > > > > > <linux****@lists*****>
> > > > > > > > > > > > > > > > > > > > Cc: "d-ike****@ryobi*****"
> > > > <d-ike****@ryobi*****>
> > > > > > > > > > > > > > > > > > > > Date: 2022/06/03 金 16:29
> > > > > > > > > > > > > > > > > > > > Subject: [Linux-ha-jp] Pacemaker
> のフェー
> > > > ルオ
> > > > > > ーバ
> > > > > > > > ー後
> > > > > > > > > > のノー
> > > > > > > > > > > > > ド組
> > > > > > > > > > > > > > > 込み
> > > > > > > > > > > > > > > > > に
> > > > > > > > > > > > > > > > > > > ついて
> > > > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > > > 初めて投稿させていただきます。
> > > > > > > > > > > > > > > > > > > > 辻と申します。
> > > > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > > > DBサーバ(PostgreSQLレプリケーシ
> ョン構
> > > > 成)
> > > > > > を
> > > > > > > > > > > > > > > > > > > > Pacemaker+Corosyncを使用してHA
> クラ
> > > > スタ
> > > > > > 構成
> > > > > > > > とし
> > > > > > > > > > ていま
> > > > > > > > > > > > > す。
> > > > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > > > クラスタ構成において、フェールオ
> ーバー
> > > > を発
> > > > > > 生さ
> > > > > > > > せて、
> > > > > > > > > > > > > > > > > > > > その後に、ダウンさせたノードの組
> 込みを
> > > > 実施
> > > > > > した
> > > > > > > > とこ
> > > > > > > > > > ろ、
> > > > > > > > > > > > > > > > > > > > 組込みに失敗するという事象が発生
> してお
> > > > りま
> > > > > > す。
> > > > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > > > 初期状態のノードを以下の構成とし
> て、実
> > > > 施し
> > > > > > た手
> > > > > > > > 順を
> > > > > > > > > > 記載い
> > > > > > > > > > > > > たし
> > > > > > > > > > > > > > > ます。
> > > > > > > > > > > > > > > > > > > >   - マスターノード:ノード1
> > > > > > > > > > > > > > > > > > > >   - スレーブノード:ノード2
> > > > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > > > 実施手順
> > > > > > > > > > > > > > > > > > > >  1. ノード1のpostgresプロセスを
> kill
> > > > > > > > > > > > > > > > > > > >  2. ノード2がマスターに昇格
> > > > > > > > > > > > > > > > > > > >  3. ノード1のpacemaker、corosync
>> > > > systemctl
> > > > > > > > で停
> > > > > > > > > > 止
> > > > > > > > > > > > > > > > > > > >  4. ノード1でテーブル空間のディレ
> クトリ
> > > > 配下
> > > > > > と
> > > > > > > > > > PGDATAの
> > > > > > > > > > > > > ディ
> > > > > > > > > > > > > > > レク
> > > > > > > > > > > > > > > > > トリ
> > > > > > > > > > > > > > > > > > > を削除
> > > > > > > > > > > > > > > > > > > >  5. ノード1でpg_basebackupを実
>> > > > > > > > > > > > > > > > > > > >
> $ /usr/pgsql-14/bin/pg_basebackup -h
> > > > <
> > > > > > ノー
> > > > > > > > ド2>
> > > > > > > > > > -D
> > > > > > > > > > > > > > > $PGDATA
> > > > > > > > > > > > > > > > > -Xs
> > > > > > > > > > > > > > > > > > > -P -n
> > > > > > > > > > > > > > > > > > > > 6. ノード1のcorosync、pacemaker
>> > > > systemctl
> > > > > > で
> > > > > > > > 起動
> > > > > > > > > > > > > > > > > > > >     → ここでノード1が"sync"状態
> になる
> > > > 想定
> > > > > > です
> > > > > > > > が、
> > > > > > > > > > > > > > > > > > > >        実際には起動処理が実施され
> た後に、
> > > > > > > > > > > > > > > > > > > >        停止状態に遷移してしまいま
> す。※
> > > > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > > >   ※
> > > > > > > > > > > > > > > > > > > >   手順6の起動を実施した際に、RA
> のpgsql
> > > > で
> > > > > > start
> > > > > > > > 処
> > > > > > > > > > 理が二
> > > > > > > > > > > > > 度呼
> > > > > > > > > > > > > > > ばれ
> > > > > > > > > > > > > > > > > てい
> > > > > > > > > > > > > > > > > > > ます。
> > > > > > > > > > > > > > > > > > > >   一度目のstartは正常終了していま
> すが、
> > > > 二度
> > > > > > 目の
> > > > > > > > start
> > > > > > > > > > が異
> > > > > > > > > > > > > 常終
> > > > > > > > > > > > > > > 了し
> > > > > > > > > > > > > > > > > て、
> > > > > > > > > > > > > > > > > > > >   停止状態に遷移しています。
> > > > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > > > 使用しているバージョンは以下の通
> りです。
> > > > > > > > > > > > > > > > > > > > corosync : 3.1.5-1
> > > > > > > > > > > > > > > > > > > > pacemaker: 2.1.0-8
> > > > > > > > > > > > > > > > > > > > pcs      : 0.10.10-4
> > > > > > > > > > > > > > > > > > > > PotgreSQL: 14.1
> > > > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > > > 原因と対処方法などをご存じの方が
> おられ
> > > > まし
> > > > > > たら、
> > > > > > > > ご
> > > > > > > > > > 教授く
> > > > > > > > > > > > > ださ
> > > > > > > > > > > > > > > い。
> > > > > > > > > > > > > > > > > > > > よろしくお願いいたします。
> > > > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > > >
> > > > > > > > _______________________________________________
> > > > > > > > > > > > > > > > > > > > Linux-ha-japan mailing list
> > > > > > > > > > > > > > > > > > > > Linux****@lists*****
> > > > > > > > > > > > > > > > > > > >
> > > > > > > > https://lists.osdn.me/mailman/listinfo/linux-ha-japa
> > > > > > > > > > > > > > > > > > > > n
> > > > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > > > > >
> > > > > > _______________________________________________
> > > > > > > > > > > > > > > > > > > Linux-ha-japan mailing list
> > > > > > > > > > > > > > > > > > > Linux****@lists*****
> > > > > > > > > > > > > > > > > > >
> > > > > > https://lists.osdn.me/mailman/listinfo/linux-ha-japan
> > > > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > >
> > > > > > > > > > > > > > > >
> > > > > > > > > > > > > >
> > > > > > > > > > > >
> > > > > > > > > > >
> > > > > > > > > > > _______________________________________________
> > > > > > > > > > > Linux-ha-japan mailing list
> > > > > > > > > > > Linux****@lists*****
> > > > > > > > > > > https://lists.osdn.me/mailman/listinfo/linux-ha-japan
> > > > > > > > > > >
> > > > > > > > >
> > > > > > >
> > > > >
> > >
> >
> > _______________________________________________
> > Linux-ha-japan mailing list
> > Linux****@lists*****
> > https://lists.osdn.me/mailman/listinfo/linux-ha-japan
> >



Linux-ha-japan メーリングリストの案内
Back to archive index