Noritaka Sekiyama
moomi****@gmail*****
2014年 4月 30日 (水) 10:23:25 JST
松島さん せきやまです。お返事ありがとうございます。 設定サンプルを見せていただきありがとうございます。 ご提示いただいた設定で正常に動作しているということは、私側の原因切り分けが誤っている可能性が高いと思われます。。。 > SELinuxはPermissiveで構築し、数カ月みていますが、audit2allow -aで何も引っかかりません。 こちらでは当初enforcingでうまく動作しなかったのをdisabledに変えて解決しました。 permissiveでは試してなかったので今試してみましたが、問題なく動作しました。 permissive or disabledならOKでenforcingだとNGのようです。 > bindnetaddrもネットワークアドレスを記述していますが特に問題は出ていません。 bindnetaddrにネットワークアドレスを指定してcorosyncを再起動すると 後に起動した系(ノードB)でのみ、1秒おきに下記のログが出ていました。 Apr 29 20:41:29 corosync [MAIN ] Totem is unable to form a cluster because of an operating system or network fault. The most common cause of this message is that the local firewall is configured improperly. が、、、どうやら指定したネットワークアドレスに問題があったようです。 ネットワーク的に元々設定したネットワークアドレスで届かないことに気づかず。。。 別のインスタンスでネットワークアドレスを指定して問題なく動作することを確認しました。お騒がせしました。 > iptablesで224.0.0.0/4のUDP IN/OUTを叩き落としてみましたが変化ありませんでした。 マルチキャストは使ってないつもりなのですが、 このアドレス(マルチキャストアドレス)でフィルタリングするということは、 どのような動作が想定されることになるでしょうか。 -- Noritaka Sekiyama Twitter: @moomindani Blog: mooapp http://moomindani.wordpress.com (http://moomindani.wordpress.com/) 日付:2014年4月30日水曜日、時刻:9:30、差出人:Takehiro Matsushima: > せきやま さん > > 松島と申します。遅レスで申し訳ございません。 > SELinuxをdisabledにして解決されたとのことでしたが、すこし気になったことがありました。 > > 私の環境は物理マシンなのですが、同じようにUnicastを使っています。 > corosync.confは次のとおりです。 > ---- > aisexec { > user: root > group: root > } > > service { > name: pacemaker > ver: 0 > use_mgmt: yes > } > > totem { > version: 2 > > crypto_cipher: none > crypto_hash: none > > rrp_mode: active > clear_node_high_bit: yes > secauth: off > token: 4000 > consensus: 10000 > rrp_problem_count_timeout: 3000 > > interface { > member { > memberaddr: 192.168.128.32 > } > member { > memberaddr: 192.168.128.33 > } > ringnumber: 0 > bindnetaddr: 192.168.128.0 > mcastport: 5405 > ttl: 1 > } > interface { > member { > memberaddr: 192.168.129.32 > } > member { > memberaddr: 192.168.129.33 > } > ringnumber: 1 > bindnetaddr: 192.168.129.0 > mcastport: 5405 > ttl: 1 > } > transport: udpu > } > > logging { > fileline: off > to_stderr: no > to_logfile: yes > logfile: /var/log/cluster/corosync.log > to_syslog: no > debug: off > timestamp: on > logger_subsys { > subsys: QUORUM > debug: off > } > } > > quorum { > provider: corosync_votequorum > expected_votes: 2 > two_node: 1 > } > ---- > > SELinuxはPermissiveで構築し、数カ月みていますが、audit2allow -aで何も引っかかりません。 > bindnetaddrもネットワークアドレスを記述していますが特に問題は出ていません。 > iptablesで224.0.0.0/4のUDP IN/OUTを叩き落としてみましたが変化ありませんでした。 > > ちなみに環境はCentOS6.5 x86_64にPacemaker1.0.13-1とCorosync1.4.6-1を組み合わせています。 > > 以上、ご不要な情報でしたら無視してください。 > > > 2014年4月29日 16:59 Noritaka Sekiyama <moomi****@gmail***** (mailto:moomi****@gmail*****)>: > > せきやまです。自己解決したので報告します。 > > 両ノードのSELinuxをdisabledにしたら正常に動作しました。 > > お騒がせして大変失礼いたしました。 > > > > -- > > Noritaka Sekiyama > > Twitter: @moomindani > > Blog: mooapp http://moomindani.wordpress.com (http://moomindani.wordpress.com/) > > > > > > 日付:2014年4月28日月曜日、時刻:13:52、差出人:Noritaka Sekiyama: > > > > > せきやまと申します。質問させてください。 > > > > > > Pacemaker(Corosync)を2ノード構成で組んだのですが、crm_monコマンドで状態を確認しようとしたところ > > > Attempting connection to the cluster… > > > というメッセージが出続ける状態で、どうやら正常に動作していないようです。 > > > もし原因と解決方法に心当たりがございましたら教えて頂けないでしょうか。 > > > > > > ■環境 > > > RHEL 6.4(EC2) > > > pacemaker-1.0.13-1.2(Corosync)※Linux-HA提供パッケージ > > > > > > > > > ノードA: 172.31.15.101 > > > ノードB: 172.31.27.99 > > > > > > ■事象 > > > # crm_mon -fA > > > Attempting connection to the cluster…. > > > > > > > > > /var/log/cluster/corosync.logを見たところ、サービス起動後にこんなエラーが出ていました。 > > > Apr 28 00:10:50 corosync [pcmk ] ERROR: pcmk_wait_dispatch: Child process lrmd exited (pid=25948, rc=100) > > > Apr 28 00:10:50 corosync [pcmk ] notice: pcmk_wait_dispatch: Child process lrmd no longer wishes to be respawned > > > Apr 28 00:10:50 corosync [pcmk ] info: update_member: Node ip-172-31-15-101 now has process list: 00000000000000000000000000013302 (78594) > > > Apr 28 00:10:50 corosync [pcmk ] ERROR: pcmk_wait_dispatch: Child process cib exited (pid=25947, rc=100) > > > Apr 28 00:10:50 corosync [pcmk ] notice: pcmk_wait_dispatch: Child process cib no longer wishes to be respawned > > > Apr 28 00:10:50 corosync [pcmk ] info: update_member: Node ip-172-31-15-101 now has process list: 00000000000000000000000000013202 (78338) > > > Apr 28 00:10:50 corosync [pcmk ] ERROR: pcmk_wait_dispatch: Child process crmd exited (pid=25951, rc=100) > > > Apr 28 00:10:50 corosync [pcmk ] notice: pcmk_wait_dispatch: Child process crmd no longer wishes to be respawned > > > Apr 28 00:10:50 corosync [pcmk ] info: update_member: Node ip-172-31-15-101 now has process list: 00000000000000000000000000013002 (77826) > > > Apr 28 00:10:50 corosync [pcmk ] ERROR: pcmk_wait_dispatch: Child process attrd exited (pid=25949, rc=100) > > > Apr 28 00:10:50 corosync [pcmk ] notice: pcmk_wait_dispatch: Child process attrd no longer wishes to be respawned > > > Apr 28 00:10:50 corosync [pcmk ] info: update_member: Node ip-172-31-15-101 now has process list: 00000000000000000000000000012002 (73730) > > > Apr 28 00:10:50 corosync [pcmk ] ERROR: pcmk_wait_dispatch: Child process stonithd exited (pid=25946, rc=100) > > > Apr 28 00:10:50 corosync [pcmk ] notice: pcmk_wait_dispatch: Child process stonithd no longer wishes to be respawned > > > Apr 28 00:10:50 corosync [pcmk ] info: update_member: Node ip-172-31-15-101 now has process list: 00000000000000000000000000010002 (65538) > > > Apr 28 00:10:50 corosync [pcmk ] ERROR: pcmk_wait_dispatch: Child process pengine exited (pid=25950, rc=100) > > > Apr 28 00:10:50 corosync [pcmk ] notice: pcmk_wait_dispatch: Child process pengine no longer wishes to be respawned > > > > > > ERRORを含むログは上記のみのようです。 > > > > > > ■その他 > > > ・rootでserviceコマンドにより起動しています。 > > > # service corosync start > > > > > > ・iptablesはとりあえず停止しています。 > > > > > > ・両ノード間の通信は疎通できているようです。 > > > # tcpdump -s 0 udp and port 5405 > > > tcpdump: verbose output suppressed, use -v or -vv for full protocol decode > > > listening on eth0, link-type EN10MB (Ethernet), capture size 65535 bytes > > > 00:48:24.879086 IP ip-172-31-15-101.ap-northeast-1.compute.internal.netsupport > ip-172-31-27-99.ap-northeast-1.compute.internal.netsupport: UDP, length 70 > > > 00:48:24.881495 IP ip-172-31-27-99.ap-northeast-1.compute.internal.netsupport > ip-172-31-15-101.ap-northeast-1.compute.internal.netsupport: UDP, length 70 > > > 00:48:25.070704 IP ip-172-31-15-101.ap-northeast-1.compute.internal.netsupport > ip-172-31-27-99.ap-northeast-1.compute.internal.netsupport: UDP, length 70 > > > 00:48:25.072995 IP ip-172-31-27-99.ap-northeast-1.compute.internal.netsupport > ip-172-31-15-101.ap-northeast-1.compute.internal.netsupport: UDP, length 70 > > > > > > > > > > > > ・UDPユニキャストを使うためにcorosync.confでudpuについて設定しています。 > > > —corosync.conf (ノードA)--- > > > compatibility: whitetank > > > aisexec { > > > user: root > > > group: root > > > } > > > service { > > > name: pacemaker > > > ver: 0 > > > } > > > totem { > > > version: 2 > > > secauth: off > > > threads: 0 > > > interface { > > > member { > > > memberaddr: 172.31.15.101 > > > } > > > member { > > > memberaddr: 172.31.27.99 > > > } > > > > > > > > > ringnumber: 0 > > > bindnetaddr: 172.31.15.101 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > mcastport: 5405 > > > > > > > > > ttl: 1 > > > } > > > transport: udpu > > > } > > > > > > (省略) > > > > > > —corosync.conf (ノードB)--- > > > bindnetaddr: 172.31.27.99 > > > ※bindnetaddr以外はノードAと同一(当初両ノードで172.31.0.0としていましたが、これだとTOTEMの通信に失敗していたためこのように修正しました。) > > > > > > > > > 恐れ入りますが、よろしくお願いいたします。 > > > > _______________________________________________ > > Linux-ha-japan mailing list > > Linux****@lists***** (mailto:Linux****@lists*****) > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > > > > > > -- > Regards, > Takehiro Matsushima > _______________________________________________ > Linux-ha-japan mailing list > Linux****@lists***** (mailto:Linux****@lists*****) > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan