[Linux-ha-jp] Pacemakerのエラーメッセージについて

Back to archive index

renay****@ybb***** renay****@ybb*****
2012年 10月 13日 (土) 06:41:02 JST


長谷川さん

こんにちは、山内です。

本問題に対するパッチがglueに適用されました。
 * http://hg.linux-ha.org/glue/rev/579e45f957b6

最新のglueもしくは、次リリースのglueを採用することで、本問題は解消されます。

以上、よろしくお願いいたします。

--- On Fri, 2012/10/5, renay****@ybb***** <renay****@ybb*****> wrote:

> 長谷川さん
> 
> こんにちは、山内です。
> 
> 来週あたりに本家の方へパッチを提供できるかと思いますが、その後、動きがありましたら、このメーリングリストで御連絡いたします。
> 
> #ちょっと、対応は面倒な感じです。ただし、ダイジェストコードの違いは問題はあると私は認識しています。
> 
> 以上、宜しくお願いいたします。
> 
> --- On Fri, 2012/10/5, 長谷川明 <akira****@gmail*****> wrote:
> 
> > 山内さん
> > こんにちは、長谷川です
> > 
> > 早急な調査および丁寧なご回答ありがとうございます。
> > 原因がはっきりわかって大変助かりました。
> > 
> > 今後アップデートおよびパッチの適用を検討したいと思います。
> > 
> > 今後ともよろしくお願いいたします。
> > ありがとうございました。
> > 
> > 
> > 2012年10月5日 14:51  <renay****@ybb*****>:
> > > 長谷川さん
> > >
> > > こんにちは、山内です。
> > >
> > > 結論から言いますと、PM1.0.12でのメッセージ出力の問題のようです。
> > >
> > > PM1.0.13リリース候補では、事象のログはinfoレベルに変更されていて、
> > >
> > > [root @ rh63-heartbeat1 ~]# crm_verify -L
> > >
> > > では、CRITメッセージは表示されず、
> > >
> > > [root @ rh63-heartbeat1 ~]# crm_verify -L -VVV
> > > crm_verify[25766]: 2012/10/05_23:25:29 info: main: =#=#=#=#= Getting XML =#=#=#=#=
> > > crm_verify[25766]: 2012/10/05_23:25:29 info: main: Reading XML from: live cluster
> > > crm_verify[25766]: 2012/10/05_23:25:29 notice: unpack_config: On loss of CCM Quorum: Ignore
> > > crm_verify[25766]: 2012/10/05_23:25:29 info: unpack_config: Node scores: 'red' = -INFINITY, 'yellow' = 0, 'green' = 0
> > > crm_verify[25766]: 2012/10/05_23:25:29 WARN: unpack_nodes: Blind faith: not fencing unseen nodes
> > > crm_verify[25766]: 2012/10/05_23:25:29 info: determine_online_status: Node rh63-heartbeat1 is online
> > > crm_verify[25766]: 2012/10/05_23:25:29 notice: clone_print:  Clone Set: clnDiskd
> > > crm_verify[25766]: 2012/10/05_23:25:29 notice: short_print:      Started: [ rh63-heartbeat1 ]
> > > crm_verify[25766]: 2012/10/05_23:25:29 info: log_data_element: check_action_definition: params:reload <parameters interval="30" name="diskcheck_status_internal" device="/dev/vda" CRM_meta_timeout="60000" />
> > > crm_verify[25766]: 2012/10/05_23:25:29 info: check_action_definition: Parameters to prmDiskd:0_monitor_30000 on rh63-heartbeat1 changed: recorded 7d7c9f601095389fc7cc0c6b29c61a7a vs. d38c85388dea5e8e2568c3d699eb9cce (reload:3.0.1) 0:0;6:1:0:b77751ce-d490-4c92-b3a3-3356d23ef4ee
> > > crm_verify[25766]: 2012/10/05_23:25:29 notice: RecurringOp:  Start recurring monitor (30s) for prmDiskd:0 on rh63-heartbeat1
> > > crm_verify[25766]: 2012/10/05_23:25:29 notice: LogActions: Leave   resource prmDiskd:0  (Started rh63-heartbeat1)
> > >
> > > で、infoログとして出力されています。
> > >
> > > 現状、このCRITログ自体は無視されても問題ないかとは思いますが、1.0.13がリリースされた後でPacemakerのアップデートを推奨します。
> > >
> > > ですが、内部処理でも若干問題がありそうな部分が、1.0.13でも存在していますので、
> > > こちらは別途本家のメーリングリストの方へパッチを投稿しようと思っています。
> > >
> > > 以下は余談ですが、
> > >
> > > 本来、PM1.0.12で事象の報告されるmonitorなどの処理では、prereq="fencing"は処理されないはずなのですが、ダイジェストコードの計算時に含まれないはずですが、含まれているようです。(この事象はPM1.0.13リリース候補でも同じ)
> > >
> > > ①monitor実行時のダイジェストコード
> > > append_digest: ###yamauchi #### Calculated digest 7d7c9f601095389fc7cc0c6b29c61a7a for prmDiskd:0_moni
> > > tor_30000 (0:0;6:1:0:b77751ce-d490-4c92-b3a3-3356d23ef4ee). Source: <parameters device="/dev/vda" name="diskcheck_status_internal" interval="30" prereq="fencing" CRM_meta_timeout="60000"/>
> > >
> > > ②チェック時のダイジェストコード
> > > Oct  5 23:33:59 rh63-heartbeat1 pengine: [25713]: info: log_data_element: check_action_definition: params:reload <parameters interval="30" name="diskcheck_status_internal" device="/dev/vda" CRM_meta_timeout="60000" />
> > > Oct  5 23:33:59 rh63-heartbeat1 pengine: [25713]: info: check_action_definition: Parameters to prmDiskd:0_monitor_30000 on rh63-heartbeat1 changed: recorded 7d7c9f601095389fc7cc0c6b29c61a7a vs. d38c85388dea5e8e2568c3d699eb9cce (reload:3.0.1) 0:0;6:1:0:b77751ce-d490-4c92-b3a3-3356d23ef4ee
> > >
> > > よって、ダイジェストコード比較で同様のログ処理部分に引っかかっていると思われます。(比較時には、monitorのダイジェストコードにはprereqは含まないダイジェストと比較している
> > >
> > > 以上、宜しくお願いいたします。
> > >
> > > --- On Fri, 2012/10/5, 長谷川明 <akira****@gmail*****> wrote:
> > >
> > >> 山内さん
> > >> こんにちは、長谷川です
> > >>
> > >> ご調査ありがとうございます。
> > >> 引き続きよろしくお願いいたします。
> > >>
> > >>
> > >> 2012年10月5日 9:48  <renay****@ybb*****>:
> > >> > 長谷川さん
> > >> >
> > >> > こんにちは、山内です。
> > >> >
> > >> > 事象の方、こちらでも確認できました。
> > >> >
> > >> > 送付を依頼したファイルに関しては送って頂かなくても結構です。
> > >> >
> > >> > 問題の回答は、もう少々お待ちください。
> > >> >
> > >> > 以上、宜しく御願いいたします。
> > >> >
> > >> >
> > >> > --- On Thu, 2012/10/4, renay****@ybb***** <renay****@ybb*****> wrote:
> > >> >
> > >> >> 長谷川さん
> > >> >>
> > >> >> こんにちは、山内です。
> > >> >>
> > >> >> まだ、再現させていませんが、恐らく、再度commitした時にha-conf.crm
> > >> >> から投入した内容が元々投入されていた内容と内部的にリソースのパラメータの
> > >> >> 順番が変更されて投入されたのではないか(もしくはid?などリソース内のパラメータが差分が出来た)と予測しています。
> > >> >>
> > >> >> また、詳細が確認できたら御連絡いたします。
> > >> >>
> > >> >> ちなみに、事象が起きる前の/var/lib/pengine配下のpe-inputファイルもいただけますでしょうか?
> > >> >> 頂いたpe-inputファイルは全て事象が発生した後のようですので。。。。
> > >> >>
> > >> >> 以上、宜しくお願いいたします。
> > >> >>
> > >> >> --- On Thu, 2012/10/4, 長谷川明 <akira****@gmail*****> wrote:
> > >> >>
> > >> >> > 山内さん
> > >> >> > 長谷川です、お世話になります
> > >> >> >
> > >> >> > 改めて、添付の操作を行い、configをクリアして再度適用(commit)
> > >> >> > しましたが再現しております。
> > >> >> >
> > >> >> > 作業時に採取したご依頼のデータと合わせてお送りします。
> > >> >> >
> > >> >> > ご確認よろしくお願いいたします。
> > >> >> >
> > >> >> >
> > >> >> >
> > >> >> > > From:  <renay****@ybb*****>
> > >> >> > > 日付: 2012年10月3日 9:15
> > >> >> > > 件名: Re: [Linux-ha-jp] Pacemakerのエラーメッセージについて
> > >> >> > > To: linux****@lists*****
> > >> >> > >
> > >> >> > >
> > >> >> > > 長谷川さん
> > >> >> > >
> > >> >> > > こんにちは、山内です。
> > >> >> > >
> > >> >> > > 事象と同じPMバージョンで確認してみましたが事象は発生しませんでした。
> > >> >> > >
> > >> >> > > 事象が起きた時に、両ノードのhaログファイル(抜粋でなく全て)と以下のファイルを開示して頂くことは可能でしょうか?
> > >> >> > >
> > >> >> > > ①debugログを取っていればha-debugファイル
> > >> >> > > ②DCノード側での/var/lib/pengineに含まれるpe-***と名のつくファイル
> > >> >> > >
> > >> >> > > 上記があると事象の原因の特定がし易いかと思います。
> > >> >> > >
> > >> >> > > 以上、宜しくお願いいたします。
> > >> >> > >
> > >> >> > > --- On Wed, 2012/10/3, renay****@ybb*****
> > >> >> > > <renay****@ybb*****> wrote:
> > >> >> > >
> > >> >> > >> 長谷川さん
> > >> >> > >>
> > >> >> > >> こんにちは、山内です。
> > >> >> > >>
> > >> >> > >> エラーの意味ですが、crm_verifyを実行した時に内部でcibが保持しているcib.xmlを元にして状態のチェックを行っているのですが...
> > >> >> > >>
> > >> >> > >> この時、エラーの出たmonitor処理を実行した時と、現在の内容でcrm_verifyでチェックした時で、パラメータに違いがあったということを意味しています。
> > >> >> > >> #パラメータ自体は、monitor処理を実行した時にダイジェストコードで保存
> > >> >> > >> #内部のcibが保持しているmonitorのパラメータからチェック対象のダイジェストコードを作成
> > >> >> > >> #上記の2つを比較してパラメータの変更をチェックしている
> > >> >> > >>
> > >> >> > >> 事象の発生したバージョンで私も動作させてみますが、
> > >> >> > >> 実行中にリソースのパラメータを変更したりはしていないでしょうか?
> > >> >> > >>
> > >> >> > >> 以上、宜しくお願いいたします。
> > >> >> > >>
> > >> >> > >>
> > >> >> > >> --- On Tue, 2012/10/2, 長谷川明 <akira****@gmail*****> wrote:
> > >> >> > >>
> > >> >> > >> > お世話になります、長谷川と申します。
> > >> >> > >> >
> > >> >> > >> > Pacemaker+Heartbeatにてクラスタを構成しているのですが、
> > >> >> > >> > 以下のような問題が発生しております。
> > >> >> > >> >
> > >> >> > >> > 原因および対処についてご教示いただけないでしょうか。
> > >> >> > >> >
> > >> >> > >> > 【現象概要】
> > >> >> > >> > Pacemakerのログで以下のようなエラーが出続けている。
> > >> >> > >> >
> > >> >> > >> > crm_verify[28328]: 2012/09/18_16:12:37 CRIT: check_action_definition:
> > >> >> > >> > Parameters to prmVIPDrbd01_monitor_30000 on kndcm01 changed: recorded
> > >> >> > >> > dca432defde71f8299348a934edcbc2 vs. 4e3b3650120628f02a6bc2c081c28135
> > >> >> > >> > (reload:3.0.1) 0:0;3:675:0:88951bb5-7d28-4162-a9d6-3fcf15f1b909
> > >> >> > >> >
> > >> >> > >> >
> > >> >> > >> > 【使用パージョン】
> > >> >> > >> > # uname -a
> > >> >> > >> > Linux kndcm01 2.6.32-220.23.1.el6.x86_64 #1 SMP Mon Jun 18 18:58:52
> > >> >> > >> > BST 2012 x86_64 x86_64 x86_64 GNU/Linux
> > >> >> > >> >
> > >> >> > >> > # rpm -q corosync corosynclib cluster-glue cluster-glue-libs heartbeat
> > >> >> > >> > heartbeat-libs resource-agents pacemaker pacemaker-libs pm_crmgen
> > >> >> > >> > pm_diskd m_extras pm_logconv-hb libesmtp ipmitool
> > >> >> > >> > corosync-1.4.3-1.el6.x86_64
> > >> >> > >> > corosynclib-1.4.3-1.el6.x86_64
> > >> >> > >> > cluster-glue-1.0.9-1.el6.x86_64
> > >> >> > >> > cluster-glue-libs-1.0.9-1.el6.x86_64
> > >> >> > >> > heartbeat-3.0.5-1.1.el6.x86_64
> > >> >> > >> > heartbeat-libs-3.0.5-1.1.el6.x86_64
> > >> >> > >> > resource-agents-3.9.2-90.el6.x86_64
> > >> >> > >> > pacemaker-1.0.12-1.el6.x86_64
> > >> >> > >> > pacemaker-libs-1.0.12-1.el6.x86_64
> > >> >> > >> > pm_crmgen-1.1-1.el6.noarch
> > >> >> > >> > pm_diskd-1.1-1.el6.x86_64
> > >> >> > >> > pm_extras-1.2-1.el6.x86_64
> > >> >> > >> > pm_logconv-hb-1.1-1.el6.noarch
> > >> >> > >> > libesmtp-1.0.4-16.el6.x86_64
> > >> >> > >> > ipmitool-1.8.11-7.el6.x86_64
> > >> >> > >> >
> > >> >> > >> > 詳細は添付資料をご参照いただければと存じます。
> > >> >> > >> >
> > >> >> > >> > 以上
> > >> >> > >> > よろしくお願いいたします。
> > >> >> > >> >
> > >> >> > >>
> > >> >> > >> _______________________________________________
> > >> >> > >> Linux-ha-japan mailing list
> > >> >> > >> Linux****@lists*****
> > >> >> > >> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> > >> >> > >>
> > >> >> > >
> > >> >> > >
> > >> >> > > _______________________________________________
> > >> >> > > Linux-ha-japan mailing list
> > >> >> > > Linux****@lists*****
> > >> >> > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> > >> >> >
> > >> >>
> > >> >> _______________________________________________
> > >> >> Linux-ha-japan mailing list
> > >> >> Linux****@lists*****
> > >> >> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> > >> >>
> > >> >
> > >> > _______________________________________________
> > >> > Linux-ha-japan mailing list
> > >> > Linux****@lists*****
> > >> > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> > >>
> > >
> > > _______________________________________________
> > > Linux-ha-japan mailing list
> > > Linux****@lists*****
> > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> > 
> 
> _______________________________________________
> Linux-ha-japan mailing list
> Linux****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> 





Linux-ha-japan メーリングリストの案内
Back to archive index