せっかく毎日書いているので今のうちに書いておく。昨日は毎週日曜にやっているメンテ作業をやったのだが、少し手順が違うところがあって大変だった。最後の最後にデータを書き換えるレコードを間違えたかと思ってヒヤっとしたが、コマンドログを見たら合っていた。手順書というほどでもないが、手順メモを作っておいたので、何となくその通りにしていたようだ。本来は複数の人間がチェックすべきところだろう。
途中でテスト手順通りにやったら問題が発生しそうな箇所を発見して、サーバーを緊急停止してやり直すというハプニングがあって、いつもより早く始めたのに終わるのは1時間遅れになってしまった。その程度でも規定の時刻までに終わるように余裕を見ていたから助かったが、余裕がなかったら今日に持ち込んでしまうところだった。
メンテナンスが予定に終わらないというのはよくあることだが、余裕を見てないメンテナンスなど有り得ない。実際は、想定を超えたトラブルが発生しているのである。