さてさて、第2回目の定期更新。あいもかわらずビールが美味しいです。
今週は生まれて初めてIT勉強会なるものに行ってきたりとか個人的に色々学びがあったので拙いなりに共有しますよ。ブログを書くまでが勉強会って色んな凄い人達も言ってるしね!
勉強会概要
つわけで以下の勉強会に参加してきました。勉強会内容を超ざっくり言うと運営が振り分けた6チーム(1チーム6人)対抗トラブルが発生したECサイト(※1)を制限時間内に如何に復旧できるかを競う腕試し大会的な勉強会です。
6/2(土) 11:00 ~ 20:00
トラブル☆しゅーたーず#02 ~あいつがまたやらかした~
勉強会内容
もう少し詳しく書くと、クラウド(※2)上にていわゆるLAMP(Linux + Apache + MySQL + PHP)+
ロードバランサー環境で構築されたメガネを販売するWebサーバにて、何かとトラブルメーカーである山◯君が更新作業を行った所、案の定トラブルが発生して客(サーバ/Webサイトの持ち主)からお怒りの問い合わせが入った…。さて、どうする?な状態から、現状の把握/原因の特定/対応/報告を行う…というまさに実際にどこかで起こっていそうな障害対応を行うという勉強会です。(ちなみに、山◯君は既に帰宅済み)
もっと具体的な内容は当日自分が所属したチームのリーダーをかってくださった方が自身のブログ(
みすとるてぃん)にしっかり残していて下さっているので、そちらを参考していただければ…。(他力本願)
勉強会感想/反省
『何も出来なかったなー』と言うのが正直なところです。同じIT業界とは言えLinux以外のパッケージ関連には触ったことが無いに等しくて、何をやってるのかを追うのが精一杯…というか追いきれてすらいませんでした。。
ただ、振り返ってみると分からないなら分からないなりに色々動きようがあったなぁと反省してます。うちのチームは結局指定時間(17:50)までに復旧出来なかったんですが、具体的に言うと…
① 対応している途中で出てきたエラー内容をググる
② 何時までに何をするか…を具体的に提案する
③ 復旧の目処をヒアリングし、無理そうなら代替案を提案する
くらいは出来たかなぁと。
①については言わずもがなな感じで、対応途中で色々エラーメッセージが表示して「なんだこれ!?」みたいな話しが何回か出たんですが、手余ってるなら調べるくらいは出来たろうが的な。
②は自分は一応役割上タイムキーパーをやってたんですが一番最初に、例えば「13:30に一時報告が必要らしいので少なくとも13:15分には一旦手を止めて状況を整理/報告作成しませんか?んで、16:00には番宣が始まるので…」的な提案は出来たかなぁ…と。
③については、例えば締切40分前くらいに「復旧はできそうですか?無理そうであるなら、現状の報告と今後の見通しについて今時点の報告を出しませんか?」的な提案は出来たなぁと思います。
自分もそれなりに長い期間運用やってて何回も障害対応的なことをやってるんですが経験上、一番お客様を怒らせることって何かというと報告がおざなりになる事だと思うんです。(お客様自身は自分の上司やらに報告する必要があるわけで…)
というわけで、リミットまでに復旧できないのであれば、どこか出来るだけ早いタイミングで『見切り』をつけて、リミットまでに復旧出来無い事の報告と代替案とか具体的な復旧の道筋と復旧までにかかる予定時間とかをまとめて報告した方が良かったんじゃないかなぁと思いました。
んで、やっぱ実際に手を動かして対応してる人ってどうしても時間とかが見えなくなっちゃうと思うのでその辺って自分の役割だったかなぁと思うわけです。
まぁ、総じると受け身過ぎたなぁ…と。
なにはともあれ次回開催は何時かわからないんですが、それまでにLAMP環境の対応に対して「今なにの作業してるのか」くらいは分かるようになってたいなと言うのと、もっと積極的に思ったことは提案したりとかしたいなと思います。…ブログには偉そうに色々書きましたが当日はほとんどダンマリしてて存在感0だったと思います。。。情けないね!
勉強の進捗
色々書いて疲れたのでざっくり。
全7章中「
第3章:デバイスとファイルシステム」と「第4章:高度なストレージ管理」についての座学での勉強は終わりました。来週中くらいにはLPI201の全セクションの座学での勉強は終わるんじゃないかなぁと思います。ただ、それだけじゃ受かる気が全くしないので、その後実際にサーバ立ててみたりとかWeb上の問題解いたりとかして理解を固めていきたいと思います。
※1 自社の製品を販売するサイト。
※2
ニフティクラウドっていうブラウザからのGUI操作でサーバ立てたりポートの設定できたりとか何かと凄いサービスです。