原田と申します。 CentOS7.x+Pacemaker/Corosync+DRBD8.4にて、 2台構成で運用しています。 今回、セカンダリサーバがどこかの時点でDRBDのディスク障害を起こしていたらしく、 プライマリサーバからセカンダリサーバに正常にフェイルオーバーができませんでした。 設定は下記のように入れております。 primitive drbd ocf:linbit:drbd \ params \ drbdconf="/etc/drbd.conf" \ drbd_resource="drbd0" \ op start interval="0s" timeout="240s" on-fail="restart" \ op monitor role="Master" interval="10s" timeout="20s" on-fail="restart" \ op monitor role="Slave" interval="20s" timeout="20s" on-fail="restart" \ op promote interval="0s" timeout="90s" on-fail="stop" \ op demote interval="0s" timeout="90s" on-fail="restart" \ op stop interval="0s" timeout="100s" on-fail="restart" primitive prmFS ocf:heartbeat:Filesystem \ params \ fstype="xfs" \ run_fsck="force" \ device="/dev/drbd0" \ directory="/var/www" \ op start interval="0s" timeout="60s" on-fail="restart" \ op monitor interval="20s" timeout="40s" on-fail="restart" \ op stop interval="0s" timeout="60s" on-fail="restart" にもかかわらず、プライマリ側のフェイルオーバーの挙動が出るまで、セカンダリ側の /dev/drbd0がstopとなっており、プライマリ側でしばらく運用していた状態でした。 プライマリのステータス(crm_mon -rfA -1 -L)結果のエラーは下記がでておりました。 --------------------------------- Migration Summary: * Node hoge02: drbd: migration-threshold=1 fail-count=1 last-failure='Mon Jun 15 02:00:39 2020' * Node hoge01: Failed Actions: * drbd_monitor_20000 on hoge02 'not installed' (5): call=128, status=complete, exitreason='Setup problem: couldn't find command: drbdadm', last-rc-change='Mon Jun 15 02:00:39 2020', queued=0ms, exec=0ms ------------------------------------------------------------- この場合、リソース再起動を実施したがうまくいかなったため、動作が停止していたと考えるべきでしょうか。 2台ともサーバ再起動を実施し、現在は復旧をしております。 このようなセカンダリ側でDRBDディスク障害が発生した場合、検知する方法などはございますでしょうか。 -------------- next part -------------- HTMLの添付ファイルを保管しました... URL: <https://lists.osdn.me/mailman/archives/linux-ha-japan/attachments/20200709/d82be5ae/attachment.html>