[Linux-ha-jp] Pacemakerのエラーメッセージについて

Back to archive index

renay****@ybb***** renay****@ybb*****
2012年 10月 5日 (金) 14:51:46 JST


長谷川さん

こんにちは、山内です。

結論から言いますと、PM1.0.12でのメッセージ出力の問題のようです。

PM1.0.13リリース候補では、事象のログはinfoレベルに変更されていて、

[root @ rh63-heartbeat1 ~]# crm_verify -L 

では、CRITメッセージは表示されず、

[root @ rh63-heartbeat1 ~]# crm_verify -L -VVV
crm_verify[25766]: 2012/10/05_23:25:29 info: main: =#=#=#=#= Getting XML =#=#=#=#=
crm_verify[25766]: 2012/10/05_23:25:29 info: main: Reading XML from: live cluster
crm_verify[25766]: 2012/10/05_23:25:29 notice: unpack_config: On loss of CCM Quorum: Ignore
crm_verify[25766]: 2012/10/05_23:25:29 info: unpack_config: Node scores: 'red' = -INFINITY, 'yellow' = 0, 'green' = 0
crm_verify[25766]: 2012/10/05_23:25:29 WARN: unpack_nodes: Blind faith: not fencing unseen nodes
crm_verify[25766]: 2012/10/05_23:25:29 info: determine_online_status: Node rh63-heartbeat1 is online
crm_verify[25766]: 2012/10/05_23:25:29 notice: clone_print:  Clone Set: clnDiskd
crm_verify[25766]: 2012/10/05_23:25:29 notice: short_print:      Started: [ rh63-heartbeat1 ]
crm_verify[25766]: 2012/10/05_23:25:29 info: log_data_element: check_action_definition: params:reload <parameters interval="30" name="diskcheck_status_internal" device="/dev/vda" CRM_meta_timeout="60000" />
crm_verify[25766]: 2012/10/05_23:25:29 info: check_action_definition: Parameters to prmDiskd:0_monitor_30000 on rh63-heartbeat1 changed: recorded 7d7c9f601095389fc7cc0c6b29c61a7a vs. d38c85388dea5e8e2568c3d699eb9cce (reload:3.0.1) 0:0;6:1:0:b77751ce-d490-4c92-b3a3-3356d23ef4ee
crm_verify[25766]: 2012/10/05_23:25:29 notice: RecurringOp:  Start recurring monitor (30s) for prmDiskd:0 on rh63-heartbeat1
crm_verify[25766]: 2012/10/05_23:25:29 notice: LogActions: Leave   resource prmDiskd:0  (Started rh63-heartbeat1)

で、infoログとして出力されています。

現状、このCRITログ自体は無視されても問題ないかとは思いますが、1.0.13がリリースされた後でPacemakerのアップデートを推奨します。

ですが、内部処理でも若干問題がありそうな部分が、1.0.13でも存在していますので、
こちらは別途本家のメーリングリストの方へパッチを投稿しようと思っています。

以下は余談ですが、

本来、PM1.0.12で事象の報告されるmonitorなどの処理では、prereq="fencing"は処理されないはずなのですが、ダイジェストコードの計算時に含まれないはずですが、含まれているようです。(この事象はPM1.0.13リリース候補でも同じ)

①monitor実行時のダイジェストコード
append_digest: ###yamauchi #### Calculated digest 7d7c9f601095389fc7cc0c6b29c61a7a for prmDiskd:0_moni
tor_30000 (0:0;6:1:0:b77751ce-d490-4c92-b3a3-3356d23ef4ee). Source: <parameters device="/dev/vda" name="diskcheck_status_internal" interval="30" prereq="fencing" CRM_meta_timeout="60000"/>

②チェック時のダイジェストコード
Oct  5 23:33:59 rh63-heartbeat1 pengine: [25713]: info: log_data_element: check_action_definition: params:reload <parameters interval="30" name="diskcheck_status_internal" device="/dev/vda" CRM_meta_timeout="60000" />
Oct  5 23:33:59 rh63-heartbeat1 pengine: [25713]: info: check_action_definition: Parameters to prmDiskd:0_monitor_30000 on rh63-heartbeat1 changed: recorded 7d7c9f601095389fc7cc0c6b29c61a7a vs. d38c85388dea5e8e2568c3d699eb9cce (reload:3.0.1) 0:0;6:1:0:b77751ce-d490-4c92-b3a3-3356d23ef4ee

よって、ダイジェストコード比較で同様のログ処理部分に引っかかっていると思われます。(比較時には、monitorのダイジェストコードにはprereqは含まないダイジェストと比較している

以上、宜しくお願いいたします。

--- On Fri, 2012/10/5, 長谷川明 <akira****@gmail*****> wrote:

> 山内さん
> こんにちは、長谷川です
> 
> ご調査ありがとうございます。
> 引き続きよろしくお願いいたします。
> 
> 
> 2012年10月5日 9:48  <renay****@ybb*****>:
> > 長谷川さん
> >
> > こんにちは、山内です。
> >
> > 事象の方、こちらでも確認できました。
> >
> > 送付を依頼したファイルに関しては送って頂かなくても結構です。
> >
> > 問題の回答は、もう少々お待ちください。
> >
> > 以上、宜しく御願いいたします。
> >
> >
> > --- On Thu, 2012/10/4, renay****@ybb***** <renay****@ybb*****> wrote:
> >
> >> 長谷川さん
> >>
> >> こんにちは、山内です。
> >>
> >> まだ、再現させていませんが、恐らく、再度commitした時にha-conf.crm
> >> から投入した内容が元々投入されていた内容と内部的にリソースのパラメータの
> >> 順番が変更されて投入されたのではないか(もしくはid?などリソース内のパラメータが差分が出来た)と予測しています。
> >>
> >> また、詳細が確認できたら御連絡いたします。
> >>
> >> ちなみに、事象が起きる前の/var/lib/pengine配下のpe-inputファイルもいただけますでしょうか?
> >> 頂いたpe-inputファイルは全て事象が発生した後のようですので。。。。
> >>
> >> 以上、宜しくお願いいたします。
> >>
> >> --- On Thu, 2012/10/4, 長谷川明 <akira****@gmail*****> wrote:
> >>
> >> > 山内さん
> >> > 長谷川です、お世話になります
> >> >
> >> > 改めて、添付の操作を行い、configをクリアして再度適用(commit)
> >> > しましたが再現しております。
> >> >
> >> > 作業時に採取したご依頼のデータと合わせてお送りします。
> >> >
> >> > ご確認よろしくお願いいたします。
> >> >
> >> >
> >> >
> >> > > From:  <renay****@ybb*****>
> >> > > 日付: 2012年10月3日 9:15
> >> > > 件名: Re: [Linux-ha-jp] Pacemakerのエラーメッセージについて
> >> > > To: linux****@lists*****
> >> > >
> >> > >
> >> > > 長谷川さん
> >> > >
> >> > > こんにちは、山内です。
> >> > >
> >> > > 事象と同じPMバージョンで確認してみましたが事象は発生しませんでした。
> >> > >
> >> > > 事象が起きた時に、両ノードのhaログファイル(抜粋でなく全て)と以下のファイルを開示して頂くことは可能でしょうか?
> >> > >
> >> > > ①debugログを取っていればha-debugファイル
> >> > > ②DCノード側での/var/lib/pengineに含まれるpe-***と名のつくファイル
> >> > >
> >> > > 上記があると事象の原因の特定がし易いかと思います。
> >> > >
> >> > > 以上、宜しくお願いいたします。
> >> > >
> >> > > --- On Wed, 2012/10/3, renay****@ybb*****
> >> > > <renay****@ybb*****> wrote:
> >> > >
> >> > >> 長谷川さん
> >> > >>
> >> > >> こんにちは、山内です。
> >> > >>
> >> > >> エラーの意味ですが、crm_verifyを実行した時に内部でcibが保持しているcib.xmlを元にして状態のチェックを行っているのですが...
> >> > >>
> >> > >> この時、エラーの出たmonitor処理を実行した時と、現在の内容でcrm_verifyでチェックした時で、パラメータに違いがあったということを意味しています。
> >> > >> #パラメータ自体は、monitor処理を実行した時にダイジェストコードで保存
> >> > >> #内部のcibが保持しているmonitorのパラメータからチェック対象のダイジェストコードを作成
> >> > >> #上記の2つを比較してパラメータの変更をチェックしている
> >> > >>
> >> > >> 事象の発生したバージョンで私も動作させてみますが、
> >> > >> 実行中にリソースのパラメータを変更したりはしていないでしょうか?
> >> > >>
> >> > >> 以上、宜しくお願いいたします。
> >> > >>
> >> > >>
> >> > >> --- On Tue, 2012/10/2, 長谷川明 <akira****@gmail*****> wrote:
> >> > >>
> >> > >> > お世話になります、長谷川と申します。
> >> > >> >
> >> > >> > Pacemaker+Heartbeatにてクラスタを構成しているのですが、
> >> > >> > 以下のような問題が発生しております。
> >> > >> >
> >> > >> > 原因および対処についてご教示いただけないでしょうか。
> >> > >> >
> >> > >> > 【現象概要】
> >> > >> > Pacemakerのログで以下のようなエラーが出続けている。
> >> > >> >
> >> > >> > crm_verify[28328]: 2012/09/18_16:12:37 CRIT: check_action_definition:
> >> > >> > Parameters to prmVIPDrbd01_monitor_30000 on kndcm01 changed: recorded
> >> > >> > dca432defde71f8299348a934edcbc2 vs. 4e3b3650120628f02a6bc2c081c28135
> >> > >> > (reload:3.0.1) 0:0;3:675:0:88951bb5-7d28-4162-a9d6-3fcf15f1b909
> >> > >> >
> >> > >> >
> >> > >> > 【使用パージョン】
> >> > >> > # uname -a
> >> > >> > Linux kndcm01 2.6.32-220.23.1.el6.x86_64 #1 SMP Mon Jun 18 18:58:52
> >> > >> > BST 2012 x86_64 x86_64 x86_64 GNU/Linux
> >> > >> >
> >> > >> > # rpm -q corosync corosynclib cluster-glue cluster-glue-libs heartbeat
> >> > >> > heartbeat-libs resource-agents pacemaker pacemaker-libs pm_crmgen
> >> > >> > pm_diskd m_extras pm_logconv-hb libesmtp ipmitool
> >> > >> > corosync-1.4.3-1.el6.x86_64
> >> > >> > corosynclib-1.4.3-1.el6.x86_64
> >> > >> > cluster-glue-1.0.9-1.el6.x86_64
> >> > >> > cluster-glue-libs-1.0.9-1.el6.x86_64
> >> > >> > heartbeat-3.0.5-1.1.el6.x86_64
> >> > >> > heartbeat-libs-3.0.5-1.1.el6.x86_64
> >> > >> > resource-agents-3.9.2-90.el6.x86_64
> >> > >> > pacemaker-1.0.12-1.el6.x86_64
> >> > >> > pacemaker-libs-1.0.12-1.el6.x86_64
> >> > >> > pm_crmgen-1.1-1.el6.noarch
> >> > >> > pm_diskd-1.1-1.el6.x86_64
> >> > >> > pm_extras-1.2-1.el6.x86_64
> >> > >> > pm_logconv-hb-1.1-1.el6.noarch
> >> > >> > libesmtp-1.0.4-16.el6.x86_64
> >> > >> > ipmitool-1.8.11-7.el6.x86_64
> >> > >> >
> >> > >> > 詳細は添付資料をご参照いただければと存じます。
> >> > >> >
> >> > >> > 以上
> >> > >> > よろしくお願いいたします。
> >> > >> >
> >> > >>
> >> > >> _______________________________________________
> >> > >> Linux-ha-japan mailing list
> >> > >> Linux****@lists*****
> >> > >> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> >> > >>
> >> > >
> >> > >
> >> > > _______________________________________________
> >> > > Linux-ha-japan mailing list
> >> > > Linux****@lists*****
> >> > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> >> >
> >>
> >> _______________________________________________
> >> Linux-ha-japan mailing list
> >> Linux****@lists*****
> >> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> >>
> >
> > _______________________________________________
> > Linux-ha-japan mailing list
> > Linux****@lists*****
> > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> 





Linux-ha-japan メーリングリストの案内
Back to archive index