renay****@ybb*****
renay****@ybb*****
2011年 7月 11日 (月) 09:22:50 JST
宮本さん おはようございます。山内です。 > 事象1については、フェールオーバ処理とQuorum状況更新処理(と表現しておきます)の > タイミングによる想定事象であると解釈しました。 > 改善を期待されるような事象とも考えられますが、corosync.1.2.5以降で改善が > 行われている版がありますでしょうか。 特に改善されているようなバージョンは、ないと私は記憶しています。 corosync(もしくはHeartbeat)の停止後の構成変更の通知(ノード構成の変更)と、 Pacemakerのその構成変更通知にの処理(Quorum処理)の問題なので、どちらかというと、Pacemaker側で何かの制御をしないと改善出来ないような気がします。 Pacemaker1.1系統で、試してみるともしかするとちがった動作になるやも知れません。 #そもそも、最終ノードが残った場合以外では、freeze設定では、Quorumを持っているノードからのSTONITHが期待されるので、あまりPacemakerとしては、最終ノードが残るケースの状態は気にしていないのかも知れません。 以上、宜しく御願いいたします。 --- On Sat, 2011/7/9, N.Miyamoto <fj508****@aa*****> wrote: > > 岩崎さん、おかわださん、山内さん > > 宮本です。 > 回答ありがとうございます。 > > > location cli-prefer-rscgroup rscgroup \ > > rule $id="cli-prefer-rule-rscgroup" inf: #uname eq gw_06 > > これは、動作確認中にcrm resource moveを実施していることが原因であることが > わかりました。 > 事象2については、no-quorum-policyの設定に従った正しい動作であることは > わかりました。 > > > では、今回なぜmountrscだけが、gw_05で起動した状態になったかですが、quorumの更新が > > やや遅れているように思います(ログの状態遷移を見てもlsbrscとviprscの起動処理を途中でcancelしているようですし)。 > > つまりmountrscの起動処理がかかった時点では、quorumを有していると判断して動作したものの、 > > その後にquorumの情報が更新され、quorumを失ったと判断し、後続の処理をやめたものと推測します。 > > > 状態aとなったのは、Pacemaker的には正しい動作です。 > > 最終ノード(freeze設定時にQuorumを消失した最終ノード)のリソースの起動状態は > > Quorumを消失するタイミングで不定です。 > > 事象1については、フェールオーバ処理とQuorum状況更新処理(と表現しておきます)の > タイミングによる想定事象であると解釈しました。 > 改善を期待されるような事象とも考えられますが、corosync.1.2.5以降で改善が > 行われている版がありますでしょうか。 > > 以上ですが、宜しくお願いします。 > > On Fri, 8 Jul 2011 10:17:44 +0900 (JST) > renay****@ybb***** wrote: > > > 宮本さん > > > > お疲れ様です。メイトリックスの山内です。 > > > > 岩崎さん、おかわださんも回答していますが、1点だけ回答しておきます。 > > > > > 質問1 > > > 前述の手順を実施した場合の正しい仕様を教えて下さい。 > > > > 状態aとなったのは、Pacemaker的には正しい動作です。 > > 最終ノード(freeze設定時にQuorumを消失した最終ノード)のリソースの起動状態は > > Quorumを消失するタイミングで不定です。 > > (Pacemakerでは、Qurom=freezeでは、Quorumが消失する時点まではリソースの配置の制御は実施されるというのが正しい認識です) > > > > 最終ノードにリソースを完全に移動した後で、Quorumの消失が発生すればよいのですが、実際には、途中でQuorumの消失がほとんど発生するので、リソースの移動は完全には行われない場合が多いです。 > > > > 余談ですが、 > > corosync.1.2.5あたりでは、まだまだ、インターコネクトのrrp_modeの制御あたりがよくありません。 > > > > rrp_mode: active > > > > ではなく、noneなどの方がよいかと思います。 > > もし、インターコネクトが2本必要であれば、そちらをbondingして、none指定がよいかと思います。 > > > > 以上、宜しくお願いいたします。 > > > > > > > > --- On Thu, 2011/7/7, N.Miyamoto <fj508****@aa*****> wrote: > > > > > > > > いつもお世話になっております。 > > > 宮本です。 > > > > > > リソースグループのフェールオーバ動作を確認しています。 > > > > > > [環境概要] > > > OS:CentOS 5.4 x86_64 2.6.18-194.el5xen > > > ソフト:pacemaker-1.0.10-1.4.el5 + corosync-1.2.5-1.3.el5 > > > 構成:3ノード > > > ※設定の詳細は、添付ファイルを参照願います。 > > > ※添付ファイルは、corosync.conf、crm configure showと下記(1)の事象のログです。 > > > > > > [事象1] > > > 3ノード(gw_04,gw_05,gw_06)構成で、リソースグループが存在するノードで > > > /etc/init.d/corosync stopを順に実施したところ、リソースグループが > > > 以下の状態a.になりました。状態b.を期待していました。 > > > > > > 状態a. > > > ============ > > > Last updated: Thu Jul? 7 09:10:59 2011 > > > Stack: openais > > > Current DC: gw_05 - partition WITHOUT quorum > > > Version: 1.0.10-da7075976b5ff0bee71074385f8fd02f296ec8a3 > > > 3 Nodes configured, 3 expected votes > > > 1 Resources configured. > > > ============ > > > > > > Online: [ gw_05 ] > > > OFFLINE: [ gw_04 gw_06 ] > > > > > > Resource Group: rscgroup > > > ? ???mountrsc???(ocf::heartbeat:Filesystem):? ? Started gw_05 > > > ? ???lsbrsc? ???(lsb:lsbrsc):???Stopped > > > ? ???viprsc? ???(ocf::heartbeat:IPaddr2):? ? ???Stopped > > > > > > 状態b. > > > ============ > > > Last updated: Thu Jul? 7 09:08:08 2011 > > > Stack: openais > > > Current DC: gw_05 - partition WITHOUT quorum > > > Version: 1.0.10-da7075976b5ff0bee71074385f8fd02f296ec8a3 > > > 3 Nodes configured, 3 expected votes > > > 1 Resources configured. > > > ============ > > > > > > Online: [ gw_05 ] > > > OFFLINE: [ gw_06 gw_04 ] > > > > > > Resource Group: rscgroup > > > ? ???mountrsc???(ocf::heartbeat:Filesystem):? ? Started gw_05 > > > ? ???lsbrsc? ???(lsb:lsbrsc):???Started gw_05 > > > ? ???viprsc? ???(ocf::heartbeat:IPaddr2):? ? ???Started gw_05 > > > > > > 質問1 > > > ? 前述の手順を実施した場合の正しい仕様を教えて下さい。 > > > > > > 質問2 > > > ? 環境設定の不備の場合は、環境設定方法を教えて下さい。 > > > > > > 質問3 > > > ? 既知障害の場合は、回避方法を教えて下さい。 > > > > > > [事象2] > > > 添付の設定で、全ノードのPacemakerを停止した状態で、1ノートのみ > > > Pacemakerを起動すると、ノードは、Onlineとなりますが、リソース > > > グループが開始されません。これは、quorumが獲得できないためだと > > > 推測しています。 > > > > > > 質問4 > > > ? [事象2]の手順で、リソースグループを起動する設定があれば教えて下さい。 > > > > > > 以上ですが、宜しくお願いします。 > > > > > > ---------------------------------------------- > > > Nobuaki Miyamoto > > > mail:fj508****@aa***** > > > > > > > _______________________________________________ > > Linux-ha-japan mailing list > > Linux****@lists***** > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > > ---------------------------------------------- > Nobuaki Miyamoto > mail:fj508****@aa***** > > _______________________________________________ > Linux-ha-japan mailing list > Linux****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan >