renay****@ybb*****
renay****@ybb*****
2012年 10月 17日 (水) 23:10:18 JST
長谷川さん 森さん こんにちは、山内です。 ご連絡送れましたが、森さんのご指摘通りで、prereqは現状のPacemakerでは設定自体なくなっています。 prereq設定がなくなれば、本事象も解消されます。 ご連絡が遅れて申し訳ありません。 以上です。 --- On Wed, 2012/10/17, Keisuke MORI <keisu****@gmail*****> wrote: > 長谷川さん > > もりと申します。 > > Pacemaker内部の動作については山内さんの通りとおもいますが、 > 今回の事象が発生する原因としては、設定に不要な設定が含まれているため、と言えるように思いますので > 設定を一部見直してもらうだけでも解消されるのではないかと思います。具体的には > > > ■CRMファイル > > ------------------------------------------------------------ > > # cat /var/tmp/setup/pacemaker/out/namenode.crm > > > prereq="fencing" \ > > 上記の "prereq" 設定が何箇所かにありますが、これを削除することで解消されないでしょうか? > > この prereq 設定はHeartbeat 2 の頃に使用されていた設定パラメタですが、Pacemaker になってからは設定項目名が > prereq から requires > に変更され、かつデフォルト(未指定)で最適な動作となるようになっていますので、この項目は何も設定しないほうが望ましいと思います。 > > 参考: http://www.clusterlabs.org/doc/en-US/Pacemaker/1.0/html/Pacemaker_Explained/s-resource-operations.html > > 今回の事象は、このPacemakerでは既に使用されなくなっているprereqを設定していたことがきっかけで発生しているのではないかと思います。 > # 山内さん、もし補足等がありましたらよろしくお願いします (_o_) > > > なお、今回の事象とは直接関係ありませんが、他にも設定で気になる点がありましたので指摘させてください。 > > > ■/etc/ha.d/ha.cf > > ------------------------------------------------------------ > > # cat /etc/ha.d/ha.cf > > > > # ネットワーク疎通確認用PING先:隣接するスイッチのIPアドレス > > ping 172.26.7.1 > > > # pingdにて経路診断を行う > > respawn root /usr/lib/ocf/resource.d/heartbeat/pingd -m 100 -a default_ping_set > > > > # diskdにてディスク監視を行う > > respawn root /usr/lib/ocf/resource.d/pacemaker/diskd -N /dev/sda -a diskcheck_status_internal -i 30 > > 上記設定は不要です。 > > respawnによるping経路診断、ディスク監視設定も Heartbeat 2 > の頃の設定方法ですが、Pacemakerではリソース設定(crmファイル)で設定するほうが推奨されています。 > 見せて頂いたcrmファイル(namenode.crm)では正しく設定されていますので(prmPingd, > prmDiskd)、現状二重設定のような状態になっています。 > > また、respawnで設定する場合でも引数が不適切です(/usr/lib/ocf 配下のOCF > スクリプトではなく、/usr/lib64/heartbeat配下のデーモンを指定する必要がある)。現状の設定では起動時にエラーが出ていると思います。 > > > 以上です。ご参考になれば。 > > > 2012年10月13日 6:41 <renay****@ybb*****>: > > 長谷川さん > > > > こんにちは、山内です。 > > > > 本問題に対するパッチがglueに適用されました。 > > * http://hg.linux-ha.org/glue/rev/579e45f957b6 > > > > 最新のglueもしくは、次リリースのglueを採用することで、本問題は解消されます。 > > > > 以上、よろしくお願いいたします。 > > > > --- On Fri, 2012/10/5, renay****@ybb***** <renay****@ybb*****> wrote: > > > >> 長谷川さん > >> > >> こんにちは、山内です。 > >> > >> 来週あたりに本家の方へパッチを提供できるかと思いますが、その後、動きがありましたら、このメーリングリストで御連絡いたします。 > >> > >> #ちょっと、対応は面倒な感じです。ただし、ダイジェストコードの違いは問題はあると私は認識しています。 > >> > >> 以上、宜しくお願いいたします。 > >> > >> --- On Fri, 2012/10/5, 長谷川明 <akira****@gmail*****> wrote: > >> > >> > 山内さん > >> > こんにちは、長谷川です > >> > > >> > 早急な調査および丁寧なご回答ありがとうございます。 > >> > 原因がはっきりわかって大変助かりました。 > >> > > >> > 今後アップデートおよびパッチの適用を検討したいと思います。 > >> > > >> > 今後ともよろしくお願いいたします。 > >> > ありがとうございました。 > >> > > >> > > >> > 2012年10月5日 14:51 <renay****@ybb*****>: > >> > > 長谷川さん > >> > > > >> > > こんにちは、山内です。 > >> > > > >> > > 結論から言いますと、PM1.0.12でのメッセージ出力の問題のようです。 > >> > > > >> > > PM1.0.13リリース候補では、事象のログはinfoレベルに変更されていて、 > >> > > > >> > > [root @ rh63-heartbeat1 ~]# crm_verify -L > >> > > > >> > > では、CRITメッセージは表示されず、 > >> > > > >> > > [root @ rh63-heartbeat1 ~]# crm_verify -L -VVV > >> > > crm_verify[25766]: 2012/10/05_23:25:29 info: main: =#=#=#=#= Getting XML =#=#=#=#= > >> > > crm_verify[25766]: 2012/10/05_23:25:29 info: main: Reading XML from: live cluster > >> > > crm_verify[25766]: 2012/10/05_23:25:29 notice: unpack_config: On loss of CCM Quorum: Ignore > >> > > crm_verify[25766]: 2012/10/05_23:25:29 info: unpack_config: Node scores: 'red' = -INFINITY, 'yellow' = 0, 'green' = 0 > >> > > crm_verify[25766]: 2012/10/05_23:25:29 WARN: unpack_nodes: Blind faith: not fencing unseen nodes > >> > > crm_verify[25766]: 2012/10/05_23:25:29 info: determine_online_status: Node rh63-heartbeat1 is online > >> > > crm_verify[25766]: 2012/10/05_23:25:29 notice: clone_print: Clone Set: clnDiskd > >> > > crm_verify[25766]: 2012/10/05_23:25:29 notice: short_print: Started: [ rh63-heartbeat1 ] > >> > > crm_verify[25766]: 2012/10/05_23:25:29 info: log_data_element: check_action_definition: params:reload <parameters interval="30" name="diskcheck_status_internal" device="/dev/vda" CRM_meta_timeout="60000" /> > >> > > crm_verify[25766]: 2012/10/05_23:25:29 info: check_action_definition: Parameters to prmDiskd:0_monitor_30000 on rh63-heartbeat1 changed: recorded 7d7c9f601095389fc7cc0c6b29c61a7a vs. d38c85388dea5e8e2568c3d699eb9cce (reload:3.0.1) 0:0;6:1:0:b77751ce-d490-4c92-b3a3-3356d23ef4ee > >> > > crm_verify[25766]: 2012/10/05_23:25:29 notice: RecurringOp: Start recurring monitor (30s) for prmDiskd:0 on rh63-heartbeat1 > >> > > crm_verify[25766]: 2012/10/05_23:25:29 notice: LogActions: Leave resource prmDiskd:0 (Started rh63-heartbeat1) > >> > > > >> > > で、infoログとして出力されています。 > >> > > > >> > > 現状、このCRITログ自体は無視されても問題ないかとは思いますが、1.0.13がリリースされた後でPacemakerのアップデートを推奨します。 > >> > > > >> > > ですが、内部処理でも若干問題がありそうな部分が、1.0.13でも存在していますので、 > >> > > こちらは別途本家のメーリングリストの方へパッチを投稿しようと思っています。 > >> > > > >> > > 以下は余談ですが、 > >> > > > >> > > 本来、PM1.0.12で事象の報告されるmonitorなどの処理では、prereq="fencing"は処理されないはずなのですが、ダイジェストコードの計算時に含まれないはずですが、含まれているようです。(この事象はPM1.0.13リリース候補でも同じ) > >> > > > >> > > ①monitor実行時のダイジェストコード > >> > > append_digest: ###yamauchi #### Calculated digest 7d7c9f601095389fc7cc0c6b29c61a7a for prmDiskd:0_moni > >> > > tor_30000 (0:0;6:1:0:b77751ce-d490-4c92-b3a3-3356d23ef4ee). Source: <parameters device="/dev/vda" name="diskcheck_status_internal" interval="30" prereq="fencing" CRM_meta_timeout="60000"/> > >> > > > >> > > ②チェック時のダイジェストコード > >> > > Oct 5 23:33:59 rh63-heartbeat1 pengine: [25713]: info: log_data_element: check_action_definition: params:reload <parameters interval="30" name="diskcheck_status_internal" device="/dev/vda" CRM_meta_timeout="60000" /> > >> > > Oct 5 23:33:59 rh63-heartbeat1 pengine: [25713]: info: check_action_definition: Parameters to prmDiskd:0_monitor_30000 on rh63-heartbeat1 changed: recorded 7d7c9f601095389fc7cc0c6b29c61a7a vs. d38c85388dea5e8e2568c3d699eb9cce (reload:3.0.1) 0:0;6:1:0:b77751ce-d490-4c92-b3a3-3356d23ef4ee > >> > > > >> > > よって、ダイジェストコード比較で同様のログ処理部分に引っかかっていると思われます。(比較時には、monitorのダイジェストコードにはprereqは含まないダイジェストと比較している > >> > > > >> > > 以上、宜しくお願いいたします。 > >> > > > >> > > --- On Fri, 2012/10/5, 長谷川明 <akira****@gmail*****> wrote: > >> > > > >> > >> 山内さん > >> > >> こんにちは、長谷川です > >> > >> > >> > >> ご調査ありがとうございます。 > >> > >> 引き続きよろしくお願いいたします。 > >> > >> > >> > >> > >> > >> 2012年10月5日 9:48 <renay****@ybb*****>: > >> > >> > 長谷川さん > >> > >> > > >> > >> > こんにちは、山内です。 > >> > >> > > >> > >> > 事象の方、こちらでも確認できました。 > >> > >> > > >> > >> > 送付を依頼したファイルに関しては送って頂かなくても結構です。 > >> > >> > > >> > >> > 問題の回答は、もう少々お待ちください。 > >> > >> > > >> > >> > 以上、宜しく御願いいたします。 > >> > >> > > >> > >> > > >> > >> > --- On Thu, 2012/10/4, renay****@ybb***** <renay****@ybb*****> wrote: > >> > >> > > >> > >> >> 長谷川さん > >> > >> >> > >> > >> >> こんにちは、山内です。 > >> > >> >> > >> > >> >> まだ、再現させていませんが、恐らく、再度commitした時にha-conf.crm > >> > >> >> から投入した内容が元々投入されていた内容と内部的にリソースのパラメータの > >> > >> >> 順番が変更されて投入されたのではないか(もしくはid?などリソース内のパラメータが差分が出来た)と予測しています。 > >> > >> >> > >> > >> >> また、詳細が確認できたら御連絡いたします。 > >> > >> >> > >> > >> >> ちなみに、事象が起きる前の/var/lib/pengine配下のpe-inputファイルもいただけますでしょうか? > >> > >> >> 頂いたpe-inputファイルは全て事象が発生した後のようですので。。。。 > >> > >> >> > >> > >> >> 以上、宜しくお願いいたします。 > >> > >> >> > >> > >> >> --- On Thu, 2012/10/4, 長谷川明 <akira****@gmail*****> wrote: > >> > >> >> > >> > >> >> > 山内さん > >> > >> >> > 長谷川です、お世話になります > >> > >> >> > > >> > >> >> > 改めて、添付の操作を行い、configをクリアして再度適用(commit) > >> > >> >> > しましたが再現しております。 > >> > >> >> > > >> > >> >> > 作業時に採取したご依頼のデータと合わせてお送りします。 > >> > >> >> > > >> > >> >> > ご確認よろしくお願いいたします。 > >> > >> >> > > >> > >> >> > > >> > >> >> > > >> > >> >> > > From: <renay****@ybb*****> > >> > >> >> > > 日付: 2012年10月3日 9:15 > >> > >> >> > > 件名: Re: [Linux-ha-jp] Pacemakerのエラーメッセージについて > >> > >> >> > > To: linux****@lists***** > >> > >> >> > > > >> > >> >> > > > >> > >> >> > > 長谷川さん > >> > >> >> > > > >> > >> >> > > こんにちは、山内です。 > >> > >> >> > > > >> > >> >> > > 事象と同じPMバージョンで確認してみましたが事象は発生しませんでした。 > >> > >> >> > > > >> > >> >> > > 事象が起きた時に、両ノードのhaログファイル(抜粋でなく全て)と以下のファイルを開示して頂くことは可能でしょうか? > >> > >> >> > > > >> > >> >> > > ①debugログを取っていればha-debugファイル > >> > >> >> > > ②DCノード側での/var/lib/pengineに含まれるpe-***と名のつくファイル > >> > >> >> > > > >> > >> >> > > 上記があると事象の原因の特定がし易いかと思います。 > >> > >> >> > > > >> > >> >> > > 以上、宜しくお願いいたします。 > >> > >> >> > > > >> > >> >> > > --- On Wed, 2012/10/3, renay****@ybb***** > >> > >> >> > > <renay****@ybb*****> wrote: > >> > >> >> > > > >> > >> >> > >> 長谷川さん > >> > >> >> > >> > >> > >> >> > >> こんにちは、山内です。 > >> > >> >> > >> > >> > >> >> > >> エラーの意味ですが、crm_verifyを実行した時に内部でcibが保持しているcib.xmlを元にして状態のチェックを行っているのですが... > >> > >> >> > >> > >> > >> >> > >> この時、エラーの出たmonitor処理を実行した時と、現在の内容でcrm_verifyでチェックした時で、パラメータに違いがあったということを意味しています。 > >> > >> >> > >> #パラメータ自体は、monitor処理を実行した時にダイジェストコードで保存 > >> > >> >> > >> #内部のcibが保持しているmonitorのパラメータからチェック対象のダイジェストコードを作成 > >> > >> >> > >> #上記の2つを比較してパラメータの変更をチェックしている > >> > >> >> > >> > >> > >> >> > >> 事象の発生したバージョンで私も動作させてみますが、 > >> > >> >> > >> 実行中にリソースのパラメータを変更したりはしていないでしょうか? > >> > >> >> > >> > >> > >> >> > >> 以上、宜しくお願いいたします。 > >> > >> >> > >> > >> > >> >> > >> > >> > >> >> > >> --- On Tue, 2012/10/2, 長谷川明 <akira****@gmail*****> wrote: > >> > >> >> > >> > >> > >> >> > >> > お世話になります、長谷川と申します。 > >> > >> >> > >> > > >> > >> >> > >> > Pacemaker+Heartbeatにてクラスタを構成しているのですが、 > >> > >> >> > >> > 以下のような問題が発生しております。 > >> > >> >> > >> > > >> > >> >> > >> > 原因および対処についてご教示いただけないでしょうか。 > >> > >> >> > >> > > >> > >> >> > >> > 【現象概要】 > >> > >> >> > >> > Pacemakerのログで以下のようなエラーが出続けている。 > >> > >> >> > >> > > >> > >> >> > >> > crm_verify[28328]: 2012/09/18_16:12:37 CRIT: check_action_definition: > >> > >> >> > >> > Parameters to prmVIPDrbd01_monitor_30000 on kndcm01 changed: recorded > >> > >> >> > >> > dca432defde71f8299348a934edcbc2 vs. 4e3b3650120628f02a6bc2c081c28135 > >> > >> >> > >> > (reload:3.0.1) 0:0;3:675:0:88951bb5-7d28-4162-a9d6-3fcf15f1b909 > >> > >> >> > >> > > >> > >> >> > >> > > >> > >> >> > >> > 【使用パージョン】 > >> > >> >> > >> > # uname -a > >> > >> >> > >> > Linux kndcm01 2.6.32-220.23.1.el6.x86_64 #1 SMP Mon Jun 18 18:58:52 > >> > >> >> > >> > BST 2012 x86_64 x86_64 x86_64 GNU/Linux > >> > >> >> > >> > > >> > >> >> > >> > # rpm -q corosync corosynclib cluster-glue cluster-glue-libs heartbeat > >> > >> >> > >> > heartbeat-libs resource-agents pacemaker pacemaker-libs pm_crmgen > >> > >> >> > >> > pm_diskd m_extras pm_logconv-hb libesmtp ipmitool > >> > >> >> > >> > corosync-1.4.3-1.el6.x86_64 > >> > >> >> > >> > corosynclib-1.4.3-1.el6.x86_64 > >> > >> >> > >> > cluster-glue-1.0.9-1.el6.x86_64 > >> > >> >> > >> > cluster-glue-libs-1.0.9-1.el6.x86_64 > >> > >> >> > >> > heartbeat-3.0.5-1.1.el6.x86_64 > >> > >> >> > >> > heartbeat-libs-3.0.5-1.1.el6.x86_64 > >> > >> >> > >> > resource-agents-3.9.2-90.el6.x86_64 > >> > >> >> > >> > pacemaker-1.0.12-1.el6.x86_64 > >> > >> >> > >> > pacemaker-libs-1.0.12-1.el6.x86_64 > >> > >> >> > >> > pm_crmgen-1.1-1.el6.noarch > >> > >> >> > >> > pm_diskd-1.1-1.el6.x86_64 > >> > >> >> > >> > pm_extras-1.2-1.el6.x86_64 > >> > >> >> > >> > pm_logconv-hb-1.1-1.el6.noarch > >> > >> >> > >> > libesmtp-1.0.4-16.el6.x86_64 > >> > >> >> > >> > ipmitool-1.8.11-7.el6.x86_64 > >> > >> >> > >> > > >> > >> >> > >> > 詳細は添付資料をご参照いただければと存じます。 > >> > >> >> > >> > > >> > >> >> > >> > 以上 > >> > >> >> > >> > よろしくお願いいたします。 > >> > >> >> > >> > > >> > >> >> > >> > >> > >> >> > >> _______________________________________________ > >> > >> >> > >> Linux-ha-japan mailing list > >> > >> >> > >> Linux****@lists***** > >> > >> >> > >> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > >> > >> >> > >> > >> > >> >> > > > >> > >> >> > > > >> > >> >> > > _______________________________________________ > >> > >> >> > > Linux-ha-japan mailing list > >> > >> >> > > Linux****@lists***** > >> > >> >> > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > >> > >> >> > > >> > >> >> > >> > >> >> _______________________________________________ > >> > >> >> Linux-ha-japan mailing list > >> > >> >> Linux****@lists***** > >> > >> >> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > >> > >> >> > >> > >> > > >> > >> > _______________________________________________ > >> > >> > Linux-ha-japan mailing list > >> > >> > Linux****@lists***** > >> > >> > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > >> > >> > >> > > > >> > > _______________________________________________ > >> > > Linux-ha-japan mailing list > >> > > Linux****@lists***** > >> > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > >> > > >> > >> _______________________________________________ > >> Linux-ha-japan mailing list > >> Linux****@lists***** > >> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > >> > > > > _______________________________________________ > > Linux-ha-japan mailing list > > Linux****@lists***** > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > > > > -- > Keisuke MORI >