renay****@ybb*****
renay****@ybb*****
2012年 10月 5日 (金) 14:51:46 JST
長谷川さん こんにちは、山内です。 結論から言いますと、PM1.0.12でのメッセージ出力の問題のようです。 PM1.0.13リリース候補では、事象のログはinfoレベルに変更されていて、 [root @ rh63-heartbeat1 ~]# crm_verify -L では、CRITメッセージは表示されず、 [root @ rh63-heartbeat1 ~]# crm_verify -L -VVV crm_verify[25766]: 2012/10/05_23:25:29 info: main: =#=#=#=#= Getting XML =#=#=#=#= crm_verify[25766]: 2012/10/05_23:25:29 info: main: Reading XML from: live cluster crm_verify[25766]: 2012/10/05_23:25:29 notice: unpack_config: On loss of CCM Quorum: Ignore crm_verify[25766]: 2012/10/05_23:25:29 info: unpack_config: Node scores: 'red' = -INFINITY, 'yellow' = 0, 'green' = 0 crm_verify[25766]: 2012/10/05_23:25:29 WARN: unpack_nodes: Blind faith: not fencing unseen nodes crm_verify[25766]: 2012/10/05_23:25:29 info: determine_online_status: Node rh63-heartbeat1 is online crm_verify[25766]: 2012/10/05_23:25:29 notice: clone_print: Clone Set: clnDiskd crm_verify[25766]: 2012/10/05_23:25:29 notice: short_print: Started: [ rh63-heartbeat1 ] crm_verify[25766]: 2012/10/05_23:25:29 info: log_data_element: check_action_definition: params:reload <parameters interval="30" name="diskcheck_status_internal" device="/dev/vda" CRM_meta_timeout="60000" /> crm_verify[25766]: 2012/10/05_23:25:29 info: check_action_definition: Parameters to prmDiskd:0_monitor_30000 on rh63-heartbeat1 changed: recorded 7d7c9f601095389fc7cc0c6b29c61a7a vs. d38c85388dea5e8e2568c3d699eb9cce (reload:3.0.1) 0:0;6:1:0:b77751ce-d490-4c92-b3a3-3356d23ef4ee crm_verify[25766]: 2012/10/05_23:25:29 notice: RecurringOp: Start recurring monitor (30s) for prmDiskd:0 on rh63-heartbeat1 crm_verify[25766]: 2012/10/05_23:25:29 notice: LogActions: Leave resource prmDiskd:0 (Started rh63-heartbeat1) で、infoログとして出力されています。 現状、このCRITログ自体は無視されても問題ないかとは思いますが、1.0.13がリリースされた後でPacemakerのアップデートを推奨します。 ですが、内部処理でも若干問題がありそうな部分が、1.0.13でも存在していますので、 こちらは別途本家のメーリングリストの方へパッチを投稿しようと思っています。 以下は余談ですが、 本来、PM1.0.12で事象の報告されるmonitorなどの処理では、prereq="fencing"は処理されないはずなのですが、ダイジェストコードの計算時に含まれないはずですが、含まれているようです。(この事象はPM1.0.13リリース候補でも同じ) ①monitor実行時のダイジェストコード append_digest: ###yamauchi #### Calculated digest 7d7c9f601095389fc7cc0c6b29c61a7a for prmDiskd:0_moni tor_30000 (0:0;6:1:0:b77751ce-d490-4c92-b3a3-3356d23ef4ee). Source: <parameters device="/dev/vda" name="diskcheck_status_internal" interval="30" prereq="fencing" CRM_meta_timeout="60000"/> ②チェック時のダイジェストコード Oct 5 23:33:59 rh63-heartbeat1 pengine: [25713]: info: log_data_element: check_action_definition: params:reload <parameters interval="30" name="diskcheck_status_internal" device="/dev/vda" CRM_meta_timeout="60000" /> Oct 5 23:33:59 rh63-heartbeat1 pengine: [25713]: info: check_action_definition: Parameters to prmDiskd:0_monitor_30000 on rh63-heartbeat1 changed: recorded 7d7c9f601095389fc7cc0c6b29c61a7a vs. d38c85388dea5e8e2568c3d699eb9cce (reload:3.0.1) 0:0;6:1:0:b77751ce-d490-4c92-b3a3-3356d23ef4ee よって、ダイジェストコード比較で同様のログ処理部分に引っかかっていると思われます。(比較時には、monitorのダイジェストコードにはprereqは含まないダイジェストと比較している 以上、宜しくお願いいたします。 --- On Fri, 2012/10/5, 長谷川明 <akira****@gmail*****> wrote: > 山内さん > こんにちは、長谷川です > > ご調査ありがとうございます。 > 引き続きよろしくお願いいたします。 > > > 2012年10月5日 9:48 <renay****@ybb*****>: > > 長谷川さん > > > > こんにちは、山内です。 > > > > 事象の方、こちらでも確認できました。 > > > > 送付を依頼したファイルに関しては送って頂かなくても結構です。 > > > > 問題の回答は、もう少々お待ちください。 > > > > 以上、宜しく御願いいたします。 > > > > > > --- On Thu, 2012/10/4, renay****@ybb***** <renay****@ybb*****> wrote: > > > >> 長谷川さん > >> > >> こんにちは、山内です。 > >> > >> まだ、再現させていませんが、恐らく、再度commitした時にha-conf.crm > >> から投入した内容が元々投入されていた内容と内部的にリソースのパラメータの > >> 順番が変更されて投入されたのではないか(もしくはid?などリソース内のパラメータが差分が出来た)と予測しています。 > >> > >> また、詳細が確認できたら御連絡いたします。 > >> > >> ちなみに、事象が起きる前の/var/lib/pengine配下のpe-inputファイルもいただけますでしょうか? > >> 頂いたpe-inputファイルは全て事象が発生した後のようですので。。。。 > >> > >> 以上、宜しくお願いいたします。 > >> > >> --- On Thu, 2012/10/4, 長谷川明 <akira****@gmail*****> wrote: > >> > >> > 山内さん > >> > 長谷川です、お世話になります > >> > > >> > 改めて、添付の操作を行い、configをクリアして再度適用(commit) > >> > しましたが再現しております。 > >> > > >> > 作業時に採取したご依頼のデータと合わせてお送りします。 > >> > > >> > ご確認よろしくお願いいたします。 > >> > > >> > > >> > > >> > > From: <renay****@ybb*****> > >> > > 日付: 2012年10月3日 9:15 > >> > > 件名: Re: [Linux-ha-jp] Pacemakerのエラーメッセージについて > >> > > To: linux****@lists***** > >> > > > >> > > > >> > > 長谷川さん > >> > > > >> > > こんにちは、山内です。 > >> > > > >> > > 事象と同じPMバージョンで確認してみましたが事象は発生しませんでした。 > >> > > > >> > > 事象が起きた時に、両ノードのhaログファイル(抜粋でなく全て)と以下のファイルを開示して頂くことは可能でしょうか? > >> > > > >> > > ①debugログを取っていればha-debugファイル > >> > > ②DCノード側での/var/lib/pengineに含まれるpe-***と名のつくファイル > >> > > > >> > > 上記があると事象の原因の特定がし易いかと思います。 > >> > > > >> > > 以上、宜しくお願いいたします。 > >> > > > >> > > --- On Wed, 2012/10/3, renay****@ybb***** > >> > > <renay****@ybb*****> wrote: > >> > > > >> > >> 長谷川さん > >> > >> > >> > >> こんにちは、山内です。 > >> > >> > >> > >> エラーの意味ですが、crm_verifyを実行した時に内部でcibが保持しているcib.xmlを元にして状態のチェックを行っているのですが... > >> > >> > >> > >> この時、エラーの出たmonitor処理を実行した時と、現在の内容でcrm_verifyでチェックした時で、パラメータに違いがあったということを意味しています。 > >> > >> #パラメータ自体は、monitor処理を実行した時にダイジェストコードで保存 > >> > >> #内部のcibが保持しているmonitorのパラメータからチェック対象のダイジェストコードを作成 > >> > >> #上記の2つを比較してパラメータの変更をチェックしている > >> > >> > >> > >> 事象の発生したバージョンで私も動作させてみますが、 > >> > >> 実行中にリソースのパラメータを変更したりはしていないでしょうか? > >> > >> > >> > >> 以上、宜しくお願いいたします。 > >> > >> > >> > >> > >> > >> --- On Tue, 2012/10/2, 長谷川明 <akira****@gmail*****> wrote: > >> > >> > >> > >> > お世話になります、長谷川と申します。 > >> > >> > > >> > >> > Pacemaker+Heartbeatにてクラスタを構成しているのですが、 > >> > >> > 以下のような問題が発生しております。 > >> > >> > > >> > >> > 原因および対処についてご教示いただけないでしょうか。 > >> > >> > > >> > >> > 【現象概要】 > >> > >> > Pacemakerのログで以下のようなエラーが出続けている。 > >> > >> > > >> > >> > crm_verify[28328]: 2012/09/18_16:12:37 CRIT: check_action_definition: > >> > >> > Parameters to prmVIPDrbd01_monitor_30000 on kndcm01 changed: recorded > >> > >> > dca432defde71f8299348a934edcbc2 vs. 4e3b3650120628f02a6bc2c081c28135 > >> > >> > (reload:3.0.1) 0:0;3:675:0:88951bb5-7d28-4162-a9d6-3fcf15f1b909 > >> > >> > > >> > >> > > >> > >> > 【使用パージョン】 > >> > >> > # uname -a > >> > >> > Linux kndcm01 2.6.32-220.23.1.el6.x86_64 #1 SMP Mon Jun 18 18:58:52 > >> > >> > BST 2012 x86_64 x86_64 x86_64 GNU/Linux > >> > >> > > >> > >> > # rpm -q corosync corosynclib cluster-glue cluster-glue-libs heartbeat > >> > >> > heartbeat-libs resource-agents pacemaker pacemaker-libs pm_crmgen > >> > >> > pm_diskd m_extras pm_logconv-hb libesmtp ipmitool > >> > >> > corosync-1.4.3-1.el6.x86_64 > >> > >> > corosynclib-1.4.3-1.el6.x86_64 > >> > >> > cluster-glue-1.0.9-1.el6.x86_64 > >> > >> > cluster-glue-libs-1.0.9-1.el6.x86_64 > >> > >> > heartbeat-3.0.5-1.1.el6.x86_64 > >> > >> > heartbeat-libs-3.0.5-1.1.el6.x86_64 > >> > >> > resource-agents-3.9.2-90.el6.x86_64 > >> > >> > pacemaker-1.0.12-1.el6.x86_64 > >> > >> > pacemaker-libs-1.0.12-1.el6.x86_64 > >> > >> > pm_crmgen-1.1-1.el6.noarch > >> > >> > pm_diskd-1.1-1.el6.x86_64 > >> > >> > pm_extras-1.2-1.el6.x86_64 > >> > >> > pm_logconv-hb-1.1-1.el6.noarch > >> > >> > libesmtp-1.0.4-16.el6.x86_64 > >> > >> > ipmitool-1.8.11-7.el6.x86_64 > >> > >> > > >> > >> > 詳細は添付資料をご参照いただければと存じます。 > >> > >> > > >> > >> > 以上 > >> > >> > よろしくお願いいたします。 > >> > >> > > >> > >> > >> > >> _______________________________________________ > >> > >> Linux-ha-japan mailing list > >> > >> Linux****@lists***** > >> > >> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > >> > >> > >> > > > >> > > > >> > > _______________________________________________ > >> > > Linux-ha-japan mailing list > >> > > Linux****@lists***** > >> > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > >> > > >> > >> _______________________________________________ > >> Linux-ha-japan mailing list > >> Linux****@lists***** > >> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > >> > > > > _______________________________________________ > > Linux-ha-japan mailing list > > Linux****@lists***** > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan >