トラブル☆しゅーたーず に参加してきました

以前から何度か参加しているインフラエンジニアの勉強会「hbstudy」と他の勉強会合同で開催された、
トラブル☆しゅーたーずに参加してきました。

概要

今回の勉強会では、
"障害をわざと発生させた環境を渡されて、その環境をトラブルシュートする"
という勉強会でした。

ニフティクラウドの使い方

今回の環境はニフティクラウドを使うと言う事で、その事前説明が11時から開催されました。
初めてニフティクラウドを使うし、興味もあったのでこちらも参加しました。

今まで、IDCFのNOAH しか IaaS型のクラウドサービスを利用したことが無かったのですが、
ニフティクラウドも機能が充実していて使いやすそうな印象を受けました。

講師指導の下、仮想サーバを作成して早速
「なかなか出来ないことなので rm -rf / して見ましょう。」という講師の一言に
えぇ!?と驚きましたが・・・。

せっかくなのでやってみました。
思っていたよりすぐに消去が完了してしまって、
実際コレをやってしまったら すぐに対処は出来そうにないな、と実感しました・・・。

トラブル☆しゅーたーず

お昼休憩を挟んで、13時から勉強会が始まりました。

まずは概要説明から。
トラブル☆しゅーたーず読本 - Google スライド
データデフラグメント解消のためにDBのメンテナンスを年1回実施してるのだけど、
新人にやってもらったらお客様からTOPページ以外が正常に表示できないという連絡を受けた。
という内容です。

この障害を復旧し、原因を特定、報告書をまとめましょう。
というのが今回の勉強会における目的。

結果

私はチーム4に所属してトラブルシュートを開始したのですが、
結果として障害を復旧することは出来ませんでした。

反省点をいくつか。

・もうちょっと自分が自分が!と言っても良かった。
→役割分担らしい役割分担をしなかったのですが。
 そこはじゃあ、自分は何の役と進言するくらいでも良かったな、と。

・他の方のレベルが高く、追いつけず、お任せ状態になりすぎた。
→自分なりにやっていたつもりではありますが、
 だいぶ他の方任せになってしまっていました。

WordPressなどのアプリケーションも使っていかないと駄目。
WordPressプラグインで ページをキャッシュするプラグインがあり、
 これがTOPページだけは表示できていた要因だったわけですが、
 そういう話に気付けなかったのは、WordPressを使ったことが無いから。

・システムの状態を知るコマンドを覚えておくべし。
netstat で開いているポートを見ることが出来るのは分かっていても、
 オプションがなんだったかと言うところを忘れている。

反省点ばっかりになってしまった・・・。

まとめ

こういった形式の勉強会は とてもためになるな、と思いました。

今回は他の方に追いつけず、状況が理解できていません。
ですので、障害が起きた理由もなんとなくしか分かっていません。

自分たちのチームが最後まで戻そうとしていたデータベースのファイルは、
実は偽者だったという事らしいのですが。

自分も確認しつつ作業に積極的に参加すれば良かったな、と反省しています。

障害が起きてトラブルシュートするときは、
やはり緊張するし、パニックになってしまうので、
こういった勉強会で場数を踏んで、経験値を増やして行きたいですね。