renay****@ybb*****
renay****@ybb*****
2012年 10月 5日 (金) 17:31:05 JST
長谷川さん こんにちは、山内です。 来週あたりに本家の方へパッチを提供できるかと思いますが、その後、動きがありましたら、このメーリングリストで御連絡いたします。 #ちょっと、対応は面倒な感じです。ただし、ダイジェストコードの違いは問題はあると私は認識しています。 以上、宜しくお願いいたします。 --- On Fri, 2012/10/5, 長谷川明 <akira****@gmail*****> wrote: > 山内さん > こんにちは、長谷川です > > 早急な調査および丁寧なご回答ありがとうございます。 > 原因がはっきりわかって大変助かりました。 > > 今後アップデートおよびパッチの適用を検討したいと思います。 > > 今後ともよろしくお願いいたします。 > ありがとうございました。 > > > 2012年10月5日 14:51 <renay****@ybb*****>: > > 長谷川さん > > > > こんにちは、山内です。 > > > > 結論から言いますと、PM1.0.12でのメッセージ出力の問題のようです。 > > > > PM1.0.13リリース候補では、事象のログはinfoレベルに変更されていて、 > > > > [root @ rh63-heartbeat1 ~]# crm_verify -L > > > > では、CRITメッセージは表示されず、 > > > > [root @ rh63-heartbeat1 ~]# crm_verify -L -VVV > > crm_verify[25766]: 2012/10/05_23:25:29 info: main: =#=#=#=#= Getting XML =#=#=#=#= > > crm_verify[25766]: 2012/10/05_23:25:29 info: main: Reading XML from: live cluster > > crm_verify[25766]: 2012/10/05_23:25:29 notice: unpack_config: On loss of CCM Quorum: Ignore > > crm_verify[25766]: 2012/10/05_23:25:29 info: unpack_config: Node scores: 'red' = -INFINITY, 'yellow' = 0, 'green' = 0 > > crm_verify[25766]: 2012/10/05_23:25:29 WARN: unpack_nodes: Blind faith: not fencing unseen nodes > > crm_verify[25766]: 2012/10/05_23:25:29 info: determine_online_status: Node rh63-heartbeat1 is online > > crm_verify[25766]: 2012/10/05_23:25:29 notice: clone_print: Clone Set: clnDiskd > > crm_verify[25766]: 2012/10/05_23:25:29 notice: short_print: Started: [ rh63-heartbeat1 ] > > crm_verify[25766]: 2012/10/05_23:25:29 info: log_data_element: check_action_definition: params:reload <parameters interval="30" name="diskcheck_status_internal" device="/dev/vda" CRM_meta_timeout="60000" /> > > crm_verify[25766]: 2012/10/05_23:25:29 info: check_action_definition: Parameters to prmDiskd:0_monitor_30000 on rh63-heartbeat1 changed: recorded 7d7c9f601095389fc7cc0c6b29c61a7a vs. d38c85388dea5e8e2568c3d699eb9cce (reload:3.0.1) 0:0;6:1:0:b77751ce-d490-4c92-b3a3-3356d23ef4ee > > crm_verify[25766]: 2012/10/05_23:25:29 notice: RecurringOp: Start recurring monitor (30s) for prmDiskd:0 on rh63-heartbeat1 > > crm_verify[25766]: 2012/10/05_23:25:29 notice: LogActions: Leave resource prmDiskd:0 (Started rh63-heartbeat1) > > > > で、infoログとして出力されています。 > > > > 現状、このCRITログ自体は無視されても問題ないかとは思いますが、1.0.13がリリースされた後でPacemakerのアップデートを推奨します。 > > > > ですが、内部処理でも若干問題がありそうな部分が、1.0.13でも存在していますので、 > > こちらは別途本家のメーリングリストの方へパッチを投稿しようと思っています。 > > > > 以下は余談ですが、 > > > > 本来、PM1.0.12で事象の報告されるmonitorなどの処理では、prereq="fencing"は処理されないはずなのですが、ダイジェストコードの計算時に含まれないはずですが、含まれているようです。(この事象はPM1.0.13リリース候補でも同じ) > > > > ①monitor実行時のダイジェストコード > > append_digest: ###yamauchi #### Calculated digest 7d7c9f601095389fc7cc0c6b29c61a7a for prmDiskd:0_moni > > tor_30000 (0:0;6:1:0:b77751ce-d490-4c92-b3a3-3356d23ef4ee). Source: <parameters device="/dev/vda" name="diskcheck_status_internal" interval="30" prereq="fencing" CRM_meta_timeout="60000"/> > > > > ②チェック時のダイジェストコード > > Oct 5 23:33:59 rh63-heartbeat1 pengine: [25713]: info: log_data_element: check_action_definition: params:reload <parameters interval="30" name="diskcheck_status_internal" device="/dev/vda" CRM_meta_timeout="60000" /> > > Oct 5 23:33:59 rh63-heartbeat1 pengine: [25713]: info: check_action_definition: Parameters to prmDiskd:0_monitor_30000 on rh63-heartbeat1 changed: recorded 7d7c9f601095389fc7cc0c6b29c61a7a vs. d38c85388dea5e8e2568c3d699eb9cce (reload:3.0.1) 0:0;6:1:0:b77751ce-d490-4c92-b3a3-3356d23ef4ee > > > > よって、ダイジェストコード比較で同様のログ処理部分に引っかかっていると思われます。(比較時には、monitorのダイジェストコードにはprereqは含まないダイジェストと比較している > > > > 以上、宜しくお願いいたします。 > > > > --- On Fri, 2012/10/5, 長谷川明 <akira****@gmail*****> wrote: > > > >> 山内さん > >> こんにちは、長谷川です > >> > >> ご調査ありがとうございます。 > >> 引き続きよろしくお願いいたします。 > >> > >> > >> 2012年10月5日 9:48 <renay****@ybb*****>: > >> > 長谷川さん > >> > > >> > こんにちは、山内です。 > >> > > >> > 事象の方、こちらでも確認できました。 > >> > > >> > 送付を依頼したファイルに関しては送って頂かなくても結構です。 > >> > > >> > 問題の回答は、もう少々お待ちください。 > >> > > >> > 以上、宜しく御願いいたします。 > >> > > >> > > >> > --- On Thu, 2012/10/4, renay****@ybb***** <renay****@ybb*****> wrote: > >> > > >> >> 長谷川さん > >> >> > >> >> こんにちは、山内です。 > >> >> > >> >> まだ、再現させていませんが、恐らく、再度commitした時にha-conf.crm > >> >> から投入した内容が元々投入されていた内容と内部的にリソースのパラメータの > >> >> 順番が変更されて投入されたのではないか(もしくはid?などリソース内のパラメータが差分が出来た)と予測しています。 > >> >> > >> >> また、詳細が確認できたら御連絡いたします。 > >> >> > >> >> ちなみに、事象が起きる前の/var/lib/pengine配下のpe-inputファイルもいただけますでしょうか? > >> >> 頂いたpe-inputファイルは全て事象が発生した後のようですので。。。。 > >> >> > >> >> 以上、宜しくお願いいたします。 > >> >> > >> >> --- On Thu, 2012/10/4, 長谷川明 <akira****@gmail*****> wrote: > >> >> > >> >> > 山内さん > >> >> > 長谷川です、お世話になります > >> >> > > >> >> > 改めて、添付の操作を行い、configをクリアして再度適用(commit) > >> >> > しましたが再現しております。 > >> >> > > >> >> > 作業時に採取したご依頼のデータと合わせてお送りします。 > >> >> > > >> >> > ご確認よろしくお願いいたします。 > >> >> > > >> >> > > >> >> > > >> >> > > From: <renay****@ybb*****> > >> >> > > 日付: 2012年10月3日 9:15 > >> >> > > 件名: Re: [Linux-ha-jp] Pacemakerのエラーメッセージについて > >> >> > > To: linux****@lists***** > >> >> > > > >> >> > > > >> >> > > 長谷川さん > >> >> > > > >> >> > > こんにちは、山内です。 > >> >> > > > >> >> > > 事象と同じPMバージョンで確認してみましたが事象は発生しませんでした。 > >> >> > > > >> >> > > 事象が起きた時に、両ノードのhaログファイル(抜粋でなく全て)と以下のファイルを開示して頂くことは可能でしょうか? > >> >> > > > >> >> > > ①debugログを取っていればha-debugファイル > >> >> > > ②DCノード側での/var/lib/pengineに含まれるpe-***と名のつくファイル > >> >> > > > >> >> > > 上記があると事象の原因の特定がし易いかと思います。 > >> >> > > > >> >> > > 以上、宜しくお願いいたします。 > >> >> > > > >> >> > > --- On Wed, 2012/10/3, renay****@ybb***** > >> >> > > <renay****@ybb*****> wrote: > >> >> > > > >> >> > >> 長谷川さん > >> >> > >> > >> >> > >> こんにちは、山内です。 > >> >> > >> > >> >> > >> エラーの意味ですが、crm_verifyを実行した時に内部でcibが保持しているcib.xmlを元にして状態のチェックを行っているのですが... > >> >> > >> > >> >> > >> この時、エラーの出たmonitor処理を実行した時と、現在の内容でcrm_verifyでチェックした時で、パラメータに違いがあったということを意味しています。 > >> >> > >> #パラメータ自体は、monitor処理を実行した時にダイジェストコードで保存 > >> >> > >> #内部のcibが保持しているmonitorのパラメータからチェック対象のダイジェストコードを作成 > >> >> > >> #上記の2つを比較してパラメータの変更をチェックしている > >> >> > >> > >> >> > >> 事象の発生したバージョンで私も動作させてみますが、 > >> >> > >> 実行中にリソースのパラメータを変更したりはしていないでしょうか? > >> >> > >> > >> >> > >> 以上、宜しくお願いいたします。 > >> >> > >> > >> >> > >> > >> >> > >> --- On Tue, 2012/10/2, 長谷川明 <akira****@gmail*****> wrote: > >> >> > >> > >> >> > >> > お世話になります、長谷川と申します。 > >> >> > >> > > >> >> > >> > Pacemaker+Heartbeatにてクラスタを構成しているのですが、 > >> >> > >> > 以下のような問題が発生しております。 > >> >> > >> > > >> >> > >> > 原因および対処についてご教示いただけないでしょうか。 > >> >> > >> > > >> >> > >> > 【現象概要】 > >> >> > >> > Pacemakerのログで以下のようなエラーが出続けている。 > >> >> > >> > > >> >> > >> > crm_verify[28328]: 2012/09/18_16:12:37 CRIT: check_action_definition: > >> >> > >> > Parameters to prmVIPDrbd01_monitor_30000 on kndcm01 changed: recorded > >> >> > >> > dca432defde71f8299348a934edcbc2 vs. 4e3b3650120628f02a6bc2c081c28135 > >> >> > >> > (reload:3.0.1) 0:0;3:675:0:88951bb5-7d28-4162-a9d6-3fcf15f1b909 > >> >> > >> > > >> >> > >> > > >> >> > >> > 【使用パージョン】 > >> >> > >> > # uname -a > >> >> > >> > Linux kndcm01 2.6.32-220.23.1.el6.x86_64 #1 SMP Mon Jun 18 18:58:52 > >> >> > >> > BST 2012 x86_64 x86_64 x86_64 GNU/Linux > >> >> > >> > > >> >> > >> > # rpm -q corosync corosynclib cluster-glue cluster-glue-libs heartbeat > >> >> > >> > heartbeat-libs resource-agents pacemaker pacemaker-libs pm_crmgen > >> >> > >> > pm_diskd m_extras pm_logconv-hb libesmtp ipmitool > >> >> > >> > corosync-1.4.3-1.el6.x86_64 > >> >> > >> > corosynclib-1.4.3-1.el6.x86_64 > >> >> > >> > cluster-glue-1.0.9-1.el6.x86_64 > >> >> > >> > cluster-glue-libs-1.0.9-1.el6.x86_64 > >> >> > >> > heartbeat-3.0.5-1.1.el6.x86_64 > >> >> > >> > heartbeat-libs-3.0.5-1.1.el6.x86_64 > >> >> > >> > resource-agents-3.9.2-90.el6.x86_64 > >> >> > >> > pacemaker-1.0.12-1.el6.x86_64 > >> >> > >> > pacemaker-libs-1.0.12-1.el6.x86_64 > >> >> > >> > pm_crmgen-1.1-1.el6.noarch > >> >> > >> > pm_diskd-1.1-1.el6.x86_64 > >> >> > >> > pm_extras-1.2-1.el6.x86_64 > >> >> > >> > pm_logconv-hb-1.1-1.el6.noarch > >> >> > >> > libesmtp-1.0.4-16.el6.x86_64 > >> >> > >> > ipmitool-1.8.11-7.el6.x86_64 > >> >> > >> > > >> >> > >> > 詳細は添付資料をご参照いただければと存じます。 > >> >> > >> > > >> >> > >> > 以上 > >> >> > >> > よろしくお願いいたします。 > >> >> > >> > > >> >> > >> > >> >> > >> _______________________________________________ > >> >> > >> Linux-ha-japan mailing list > >> >> > >> Linux****@lists***** > >> >> > >> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > >> >> > >> > >> >> > > > >> >> > > > >> >> > > _______________________________________________ > >> >> > > Linux-ha-japan mailing list > >> >> > > Linux****@lists***** > >> >> > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > >> >> > > >> >> > >> >> _______________________________________________ > >> >> Linux-ha-japan mailing list > >> >> Linux****@lists***** > >> >> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > >> >> > >> > > >> > _______________________________________________ > >> > Linux-ha-japan mailing list > >> > Linux****@lists***** > >> > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > >> > > > > _______________________________________________ > > Linux-ha-japan mailing list > > Linux****@lists***** > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan >