Work

障害監視・運用・保守を導入するために考えるべきこととは?~管理職目線編~

自社サービスや社内システムを運用しているサーバーは24時間稼働することが求められています。サーバーやシステムに障害が発生した場合、日中帯であればその時間に働いている担当エンジニアが対応して、被害を最小限に抑えることが出来ると思います。

しかし、サーバー障害が夜間や休日に発生した場合はどうなるのでしょうか。

障害の長時間化となり、顧客満足度の低下や業務に支障が出る事となります。

管理職としてどのような組織作りをしていくべきか、管理職としての心構えをご紹介します。

障害監視・運用・保守における管理職の役割

システム障害が発生した場合、復旧する為の実作業は担当メンバーで行います。障害中、障害発生後の管理職の役割についてご紹介します。

情報共有・統制

障害が発生した場合、監視を行っているメンバーから連絡が入ります。連絡を受けた際に、効率よく情報を収集し、関係各所へ連絡する必要があります。

監視メンバーは連絡後に障害復旧作業が待っているため、管理職側は情報を受け取った後は直ぐにメンバーを解放し復旧業務に充てる必要があります。障害の影響範囲、発生時間、復旧までの想定時間、復旧作業の方法、現状のステータスを聞き取ります。必要であればメンバーの追加アサインを検討します。

障害状況をまとめ、関係各所へ連絡をします。被害状況に応じて、管理職の更に上長やコールセンターへの障害連絡、自社ホームページでの障害告知がされているかを確認し、その担当部署へ別部署連携として連絡します。

復旧対応・社内周知が一通り完了した後は統制が必要となります。

復旧時間目安のアップデートやコールセンターの入電状況確認など逐次情報を受け取り、上長への報告やメンバーへの情報共有を行います。

情報統制が無い場合、部署内で同じ作業を重複して実施していたり、過去の情報を参考に顧客へ案内してクレームに発展するなど障害の長期化、悪化に繋がる可能性があります。

対応方針の決定

障害発生後、障害内容を理解して対応方針の決定を行います。

<監視・運用・保守パターン紹介編>で紹介したように、夜間・休日で自宅待機している場合は出社する許可を出す必要があります。

障害の重さにより、システムとして冗長が取れているのであれば夜間はそのままにして翌日対応とする場合や、緊急で別部隊を導入するなどの判断を行います。

社員の健康面への配慮

<監視・運用・保守パターン紹介編>で紹介したように、夜間・休日対応をしたメンバーに対して健康面の配慮が必要です。夜間対応をしている場合健康被害が起きやすい環境になるため、通常よりも社員の健康に注意しなければいけません。

会社の規定と自分の裁量の範囲内で、社員へフレックス制度の利用や時間有給の提案、1勤務として早上がりさせるなど対応すると良いでしょう。

夜間・休日対応の準備

夜間・休日で監視・運用・保守をする場合は、準備をしっかりとする必要があります。管理職は夜間・休日は会社にいる必要はありません。しかし、障害対応している社員は平日日中帯と異なり、必要最低限の人員で運用することが多いです。

スキルの差や社内基準が策定されていないと、個人によるサービス品質に差が出てしまいます。

エスカレーション基準の策定

エスカレーションとは、社員が必要に応じて上長へ報告をすることです。

夜間・休日の場合はその対応をしている社員のみで上長へ報告するかしないかの判断をしなければいけません。管理職としては報告が欲しかった障害でメンバーから連絡が来なかったり、連絡が不要な軽微な障害でも深夜に電話が来てしまうなどが起こり得ます。

顧客へサービス断が継続している場合、クレームが急に●件に増えてきた場合、原因不明なエラーが出ている場合にエスカレーションをするなどのルールを事前に設けると良いです。

さらに、エスカレーションを判断するまでの時間を決めておくと、事後報告を受けることや情報伝達漏れを防ぐことができます。

社員〜管理職間だけでなく、管理職〜管理職間のルールも制定しておきましょう。

定期訓練

定期的な訓練を行いましょう。復旧担当のメンバーは障害が発生した場合に、連絡・作業など一度に複数のタスクを実施する必要があります。日頃から訓練を行うことにより実障害の時に円滑に障害復旧までできるように準備しておくことが大切です。

24時間365日対応をする場合のメリット

管理職の目線で24時間365日の監視・運用・保守をするメリットをご紹介します。

障害時間短縮

障害発生から復旧までの時間が短縮されます。監視体制を構築していないと、夜間帯に障害が発生した場合は翌朝に対応となり、その分障害の長期化となります。

障害の長時間化は顧客満足度や自社サービスのSLAにも繋がり返金対応、営業許可など会社に大きな損害を出してしまいます。

24時間365日対応することで上記を最小限に抑えることができます。

夜間帯作業

いつでも会社に社員がいる状態となり、夜間帯の作業導入をし易くなります。

夜間帯作業はシステムメンテナンス作業を深夜1:00-5:00に実施すると、サービスのアクティブユーザーが少ないため、借用などが取りやすくなります。

作業での想定外事象によるサービス断などが発生しても、アクティブユーザーが少ないためクレームを最小限に抑える事が出来ます。

24時間365日運用をしていない場合、日勤勤務者からシフトと業務調整を実施して夜間に作業を実施するか、日中帯に作業を実施することとなります。日中帯作業中にヒューマンエラーや想定外事象が起きた際に出るリスクを考える必要があります。

24時間365日対応をする場合のデメリット

管理職の目線で24時間365日の監視・運用・保守をするデメリットをご紹介します。

コスト

1つ目として、コストが高くなります。<監視・運用・保守パターン紹介編>で紹介したように、勤務形態により変わりますが、夜間業務は22時から5時までは夜間手当が必要です。

また、宿直手当や人員の増員が必要となります。

宿直室が無い場合は施設費用やベッドのシーツ交換、清掃費用、自宅待機の場合はテレワークの設備など追加投資が必要です。

社員の業務効率

2つ目は、社員の業務効率が落ちます。夜間帯で上司の目がない且つ深夜帯ということで業務をサボる社員や効率が悪くなる社員が出てきます。

逆に電話やメールの問い合わせ対応がなくなり、効率が上がる社員もいます。

また、夜間宿直対応後に通常通りの日勤業務を行うと、睡眠時間が少なくなり業務に集中できず効率が下がります。

法律・規定

法律や会社規定に則った運用が必要です。宿直対応の場合は、労働基準監督署へ許可が必要となります。労働基準監督署側も各都道府県によって基準が異なり、一元的に述べることはできませんが、宿直時に社員が一晩で平均何回対応する必要があるシステムか、対応する時間はどのくらいか算出して提出・許可する必要があります。

また、宿直室も施錠やベッド、空調などの基準があるため注意が必要です。

会社規定も確認し、問題があるようであれば総務部へ相談することが必要です。

管理職自身の健康

夜間休日の対応メンバーはシフトで毎日変わりますが、上司である管理職は大体1名であることが多いです。1名だけの場合、365日毎日夜間休日も気を抜けない日々を過ごすことになってしまいます。

メンバーだけでなく、自身の健康にも気を付けましょう。自分の上司へ相談し、管理職の増員か部署のリーダークラスのメンバーと日替わりで交代を行うなどしましょう。

管理職としての心構え

障害監視・運用・保守をする上での管理職としての心構えをお伝えします。

メンバーに対して夜間休日いつでも明るく接しましょう

監視メンバーがエスカレーションを誤ってしてしまった場合でも、その失敗を責めてはいけません。深夜に電話が掛かってきても、寝起きが悪いからと言って悪態を付かず、明るく振舞ってください。

メンバーが萎縮して次回の障害時にエスカレーションが遅れてしまうかもしれません。

メンバーが失敗した場合は後日の日中帯に何故失敗が起きたか、エスカレーションルールに不足はないかを再検討しましょう。

極力連絡を取れるようにしましょう

監視メンバーが夜間休日に電話してきた場合に備えましょう。電話の場合は音量を最大、お風呂やトイレでも連絡が取れるようにそばに置いておくとよいです。

旅行に行く際は新幹線や高速道路でトンネルがある場合は、電波が不安定な旨を事前にメンバーへ共有しておきましょう。長時間普通な場合はエスカレーション先を事前に変更しておきましょう。

多面的に判断する

夜間休日対応のメンバーは少ない人数で作業を行うため、細かいところまで考えが及ばないことがあります。管理職として一歩俯瞰で多面的にみて必要な対応を考えましょう。

対応終了後も報告書の作成や時系列の整理などをメンバーに指示して、翌朝に円滑な対応ができる準備をしておきましょう。

まとめ

管理職目線での障害監視・運用・保守を導入する場合の役割、メリット・デメリット、心構えをご紹介しました。

管理職として、監視・運用・保守を担うだけでなく、アウトソーシングという判断もあります。

  • この記事を書いた人

KAITech

大企業/中小企業/ベンチャー企業を経験
AWS/ネットワークのエンジニア
記事執筆やメンタリング等、仕事の依頼はコチラから
https://www.kaitech-media.biz/work/

-Work