[Linux-ha-jp] スプリットブレイン時のSTONITHエラーについて

Back to archive index

renay****@ybb***** renay****@ybb*****
2015年 3月 17日 (火) 10:53:49 JST


福田さん
cc:松島さん

お疲れ様です。山内です。

>標準出力や標準エラー出力はありませんでした。
>
>stonith-helperがおかしいのでしょうか。
>stonith-helperはシェルスクリプトなのでインストールはあまり気にしていなかったのですが。
>stonith-helperはここに配置されています。
>/usr/local/heartbeat/lib/stonith/plugins/external/stonith-helper

このディレクトリにxen0もありますか?
無いようでしたら、問題がありますので、一度、stonith-helperのファイルを属性などはそのまま、xen0と同じディレクトリに
コピーしてみてください。

それで稼働するなら、pm_extrasのインストールに問題があるということになります。

以上です。

----- Original Message -----
>From: Masamichi Fukuda - elf-systems <masamichi_fukud****@elf-s*****>
>To: 山内英生 <renay****@ybb*****>; "linux****@lists*****" <linux****@lists*****> 
>Date: 2015/3/17, Tue 10:31
>Subject: Re: [Linux-ha-jp] スプリットブレイン時のSTONITHエラーについて
> 
>
>山内さん
>cc:松島さん
>
>おはようございます、福田です。
>crmの例をありがとうございます。
>
>早速、こちらの環境に合わせてみました。
>
>$ cat test.crm
>### Cluster Option ###
>property \
>    no-quorum-policy="ignore" \
>    stonith-enabled="true" \
>    startup-fencing="false" \
>    stonith-timeout="710s" \
>    crmd-transition-delay="2s"
>
>### Resource Default ###
>rsc_defaults \
>    resource-stickiness="INFINITY" \
>    migration-threshold="1"
>
>### Group Configuration ###
>group HAvarnish \
>    vip_208 \
>    varnishd
>
>group grpStonith1 \
>    Stonith1-1 \
>    Stonith1-2
>
>group grpStonith2 \
>    Stonith2-1 \
>    Stonith2-2
>
>### Clone Configuration ###
>clone clone_ping \
>    ping
>
>### Fencing Topology ###
>fencing_topology \
>    lbv1.beta.com: Stonith1-1 Stonith1-2 \
>    lbv2.beta.com: Stonith2-1 Stonith2-2
>
>### Primitive Configuration ###
>primitive vip_208 ocf:heartbeat:IPaddr2 \
>    params \
>        ip="192.168.17.208" \
>        nic="eth0" \
>        cidr_netmask="24" \
>    op start interval="0s" timeout="90s" on-fail="restart" \
>    op monitor interval="5s" timeout="60s" on-fail="restart" \
>    op stop interval="0s" timeout="100s" on-fail="fence"
>
>primitive varnishd lsb:varnish \
>    op start interval="0s" timeout="90s" on-fail="restart" \
>    op monitor interval="10s" timeout="60s" on-fail="restart" \
>    op stop interval="0s" timeout="100s" on-fail="fence"
>
>primitive ping ocf:pacemaker:ping \
>    params \
>        name="default_ping_set" \
>        host_list="192.168.17.254" \
>        multiplier="100" \
>        dampen="1" \
>    op start interval="0s" timeout="90s" on-fail="restart" \
>    op monitor interval="10s" timeout="60s" on-fail="restart" \
>    op stop interval="0s" timeout="100s" on-fail="fence"
>
>primitive Stonith1-1 stonith:external/stonith-helper \
>    params \
>        pcmk_reboot_retries="1" \
>        pcmk_reboot_timeout="40s" \
>        hostlist="lbv1.beta.com" \
>        dead_check_target="192.168.17.132 10.0.17.132" \
>        standby_check_command="/usr/local/sbin/crm_resource -r varnishd -W | grep -q `hostname`" \
>        run_online_check="yes" \
>    op start interval="0s" timeout="60s" on-fail="restart" \
>    op stop interval="0s" timeout="60s" on-fail="ignore"
>
>primitive Stonith1-2 stonith:external/xen0 \
>    params \
>        pcmk_reboot_timeout="60s" \
>        hostlist="lbv1.beta.com:/etc/xen/lbv1.cfg" \
>        dom0="xen0.beta.com" \
>    op start interval="0s" timeout="60s" on-fail="restart" \
>    op monitor interval="3600s" timeout="60s" on-fail="restart" \
>    op stop interval="0s" timeout="60s" on-fail="ignore"
>
>primitive Stonith2-1 stonith:external/stonith-helper \
>    params \
>        pcmk_reboot_retries="1" \
>        pcmk_reboot_timeout="40s" \
>        hostlist="lbv2.beta.com" \
>        dead_check_target="192.168.17.133 10.0.17.133" \
>        standby_check_command="/usr/local/sbin/crm_resource -r varnishd -W | grep -q `hostname`" \
>        run_online_check="yes" \
>    op start interval="0s" timeout="60s" on-fail="restart" \
>    op stop interval="0s" timeout="60s" on-fail="ignore"
>
>primitive Stonith2-2 stonith:external/xen0 \
>    params \
>        pcmk_reboot_timeout="60s" \
>        hostlist="lbv2.beta.com:/etc/xen/lbv2.cfg" \
>        dom0="xen0.beta.com" \
>    op start interval="0s" timeout="60s" on-fail="restart" \
>    op monitor interval="3600s" timeout="60s" on-fail="restart" \
>    op stop interval="0s" timeout="60s" on-fail="ignore"
>
>### Resource Location ###
>location HA_location-1 HAvarnish \
>    rule 200: #uname eq lbv1.beta.com \
>    rule 100: #uname eq lbv2.beta.com
>
>location HA_location-2 HAvarnish \
>    rule -INFINITY: not_defined default_ping_set or default_ping_set lt 100
>
>location HA_location-3 grpStonith1 \
>    rule -INFINITY: #uname eq lbv1.beta.com
>
>location HA_location-4 grpStonith2 \
>    rule -INFINITY: #uname eq lbv2.beta.com
>
>
>これを流しこんだところ、昨日とはメッセージが異なります。
>pingのメッセージはなくなっていました。
>
># crm_mon -rfA
>Last updated: Tue Mar 17 10:21:28 2015
>Last change: Tue Mar 17 10:21:09 2015
>Stack: heartbeat
>Current DC: lbv2.beta.com (82ffc36f-1ad8-8686-7db0-35686465c624) - parti
>tion with quorum
>Version: 1.1.12-561c4cf
>2 Nodes configured
>8 Resources configured
>
>
>Online: [ lbv1.beta.com lbv2.beta.com ]
>
>Full list of resources:
>
> Resource Group: HAvarnish
>     vip_208    (ocf::heartbeat:IPaddr2):       Started lbv1.beta.com
>     varnishd   (lsb:varnish):  Started lbv1.beta.com
> Resource Group: grpStonith1
>     Stonith1-1 (stonith:external/stonith-helper):      Stopped
>     Stonith1-2 (stonith:external/xen0):        Stopped
> Resource Group: grpStonith2
>     Stonith2-1 (stonith:external/stonith-helper):      Stopped
>     Stonith2-2 (stonith:external/xen0):        Stopped
> Clone Set: clone_ping [ping]
>     Started: [ lbv1.beta.com lbv2.beta.com ]
>
>Node Attributes:
>* Node lbv1.beta.com:
>    + default_ping_set                  : 100
>* Node lbv2.beta.com:
>    + default_ping_set                  : 100
>
>Migration summary:
>* Node lbv2.beta.com: 
>   Stonith1-1: migration-threshold=1 fail-count=1000000 last-failure='Tue Mar 17
> 10:21:17 2015'
>* Node lbv1.beta.com: 
>   Stonith2-1: migration-threshold=1 fail-count=1000000 last-failure='Tue Mar 17
> 10:21:17 2015'
>
>Failed actions:
>    Stonith1-1_start_0 on lbv2.beta.com 'unknown error' (1): call=31, st
>atus=Error, last-rc-change='Tue Mar 17 10:21:15 2015', queued=0ms, exec=1082ms
>    Stonith2-1_start_0 on lbv1.beta.com 'unknown error' (1): call=31, st
>atus=Error, last-rc-change='Tue Mar 17 10:21:16 2015', queued=0ms, exec=1079ms
>
>
>/var/log/ha-debugのログです。
>
>IPaddr2(vip_208)[7851]: 2015/03/17_10:21:22 INFO: Adding inet address 192.168.17.208/24 with broadcast address 192.168.17.255 to device eth0
>IPaddr2(vip_208)[7851]: 2015/03/17_10:21:22 INFO: Bringing device eth0 up
>IPaddr2(vip_208)[7851]: 2015/03/17_10:21:22 INFO: /usr/libexec/heartbeat/send_arp -i 200 -r 5 -p /var/run/resource-agents/send_arp-192.168.17.208 eth0 192.168.17.208 auto not_used not_used
>
>標準出力や標準エラー出力はありませんでした。
>
>stonith-helperがおかしいのでしょうか。
>stonith-helperはシェルスクリプトなのでインストールはあまり気にしていなかったのですが。
>stonith-helperはここに配置されています。
>/usr/local/heartbeat/lib/stonith/plugins/external/stonith-helper
>
>
>
>宜しくお願いします。
>
>以上
>
>
>
>2015-03-17 9:45 GMT+09:00 <renay****@ybb*****>:
>
>福田さん
>>
>>おはようございます。山内です。
>>
>>念の為、手元にある複数のstonithを利用した場合の例を抜粋してお送りします。
>>(実際には、改行に気を付けてください)
>>
>>以下の例は、PM1.1系での設定で、
>>nodeaは、prmStonith1-1、 prmStonith1-2の順でstonithが実行されます。
>>nodebは、prmStonith2-1、 prmStonith2-2の順でstonithが実行されます。
>>
>>stonith自体は、helperとsshです。
>>
>>
>>(snip)
>>### Group Configuration ###
>>group grpStonith1 \
>>prmStonith1-1 \
>>prmStonith1-2
>>
>>group grpStonith2 \
>>prmStonith2-1 \
>>prmStonith2-2
>>
>>### Fencing Topology ###
>>fencing_topology \
>>nodea: prmStonith1-1 prmStonith1-2 \
>>nodeb: prmStonith2-1 prmStonith2-2
>>(snp)
>>primitive prmStonith1-1 stonith:external/stonith-helper \
>>params \
>>
>>pcmk_reboot_retries="1" \
>>pcmk_reboot_timeout="40s" \
>>hostlist="nodea" \
>>dead_check_target="192.168.28.60 192.168.28.70" \
>>standby_check_command="/usr/sbin/crm_resource -r prmRES -W | grep -qi `hostname`" \
>>run_online_check="yes" \
>>op start interval="0s" timeout="60s" on-fail="restart" \
>>op stop interval="0s" timeout="60s" on-fail="ignore"
>>
>>primitive prmStonith1-2 stonith:external/ssh \
>>params \
>>pcmk_reboot_timeout="60s" \
>>hostlist="nodea" \
>>op start interval="0s" timeout="60s" on-fail="restart" \
>>op monitor interval="3600s" timeout="60s" on-fail="restart" \
>>op stop interval="0s" timeout="60s" on-fail="ignore"
>>
>>primitive prmStonith2-1 stonith:external/stonith-helper \
>>params \
>>pcmk_reboot_retries="1" \
>>pcmk_reboot_timeout="40s" \
>>hostlist="nodeb" \
>>dead_check_target="192.168.28.61 192.168.28.71" \
>>standby_check_command="/usr/sbin/crm_resource -r prmRES -W | grep -qi `hostname`" \
>>run_online_check="yes" \
>>op start interval="0s" timeout="60s" on-fail="restart" \
>>op stop interval="0s" timeout="60s" on-fail="ignore"
>>
>>primitive prmStonith2-2 stonith:external/ssh \
>>params \
>>pcmk_reboot_timeout="60s" \
>>hostlist="nodeb" \
>>op start interval="0s" timeout="60s" on-fail="restart" \
>>op monitor interval="3600s" timeout="60s" on-fail="restart" \
>>op stop interval="0s" timeout="60s" on-fail="ignore"
>>(snip)
>>location rsc_location-grpStonith1-2 grpStonith1 \
>>rule -INFINITY: #uname eq nodea
>>location rsc_location-grpStonith2-3 grpStonith2 \
>>rule -INFINITY: #uname eq nodeb
>>
>>
>>以上です。
>>
>>
>>
>>
>
>-- 
>
>ELF Systems
>Masamichi Fukuda
>mail to: masamichi_fukud****@elf-s*****
>
>




Linux-ha-japan メーリングリストの案内
Back to archive index