NRIのデータセンターにおけるシステム運用のカイゼン事例〜標準化と自動化による品質向上とコスト削減の両立(1/4):企業のIT・経営・ビジネスをつなぐ情報サイト EnterpriseZine (EZ)(情報元のブックマーク数)

IT化が進めば進むほど、プライベートクラウドや仮想化が進めば進むほど、オペレータの仕事は増え、

増大した運用コストの削減に向けて、どの企業においてもサーバー・ネットワークの監視やシステムの運用・保守業務の自動化を実現する運用基盤の導入や、最近では仮想化技術の導入によるサーバーの統合に取り組んでいる。
しかし、それらの施策はオペレータや運用担当者が実施している一部の作業の自動化や、若干のサーバー購入・保守コストを下げることしかできず、最近新たに加わった業務である「IT 全般統制への対応」による作業量の増加にもより、運用コストは減るどころか増える一方になっている。

NRIのデータセンターにおけるシステム運用のカイゼン事例~標準化と自動化による品質向上とコスト削減の両立 (1/4):EnterpriseZine(エンタープライズジン)

オペレータ業務でのありがちな話。これがオペレータとかじゃなくて、通常のシステム管理者が兼任でやっていると、、、もう大変なことはわかりますよね。

ジョブの異常終了やハードウェア障害の検知、IT サービスマネジメントに関するベストプラクティスであるITIL V3 で言うところの「イベント管理」を行っているが、アラートは月間数十万件のレベルに達し、まさしく「アラートの洪水」がオペレータの負荷を増加させていた。しかしアラートを精査したところ、全アラートの40%は無視してよいもの、すなわち1 分間に上がってくる約10 件のアラートのうち4件は無視してよいアラートであった。
「無視」するための稼働負荷は想像以上に大きい。アラートを「見て」、手順書などを見ることでこれは必要がないものだと「確認」し、対応を行わないことを「決定」する、という一連の稼働がほぼすべての「無視すべきアラート」にて発生するのである。
同時にそれらアラートは稼働負荷だけではなく、大量に「無視」活動を行っている合間に重要な検知すべきアラートが発生し、対応が後手に回る可能性もあり、ITサービスの品質にも影響を与えるリスクを常に抱えている状況であった。
NRIでは、システム監視活動の稼働工数削減および運用管理の品質向上に向けて、イベント管理の改善を行った(図1)。順次発見した無視すべきアラートをフィルタリングするのと同時に、システム開発の上流からアラートの数を絞っていく対策を実施したのである。

NRIのデータセンターにおけるシステム運用のカイゼン事例~標準化と自動化による品質向上とコスト削減の両立 (2/4):EnterpriseZine(エンタープライズジン)

確実に無視してもよいアラートを確実に機械で落とすことで効率の向上を図ったとのこと。かなり大きいなぁ。

アラート数を絞るのと同時に、人手で行っていたアラートへの対応の自動化も行った。通常はアラートを検知した後、手順書に基づいたオペレータによるコマンド作業や、連絡先リストなどを見ながらの開発や構築担当者へのメールもしくは電話連絡を行う。そこでアラートに対するコマンド作業を、コマンド結果による作業の分岐も含めてすべて事前に登録しておき、対応を自動化した。さらに単純な電話連絡だけで済む内容については自動電話機能を使うこととした。

NRIのデータセンターにおけるシステム運用のカイゼン事例~標準化と自動化による品質向上とコスト削減の両立 (2/4):EnterpriseZine(エンタープライズジン)

しっかり状況を把握できる慣れ合いも、見方によっては良いが、引き継ぎすべき内容をしっかりできていなかったり、なーなーで運用を開始したりと苦労は絶えなかったことでしょう。

やっぱりリリース管理で、しっかり必要なものを出してもらって引き継ぐということも大切ですね。

担当者同士に信頼関係があることは歓迎されることだが、仲が良すぎるために本来受付けられない緊急の作業などを担当者間で調整され、なし崩し的にリリース作業が実施されていたのである。
その影響は予想以上に大きく、担当者間で日々「調整」のメールと電話がやり取りされることで、対応を行う運用担当者の稼働の14%が「調整業務」で占められるほど、運用担当者の負荷が非常に大きくなっていた。当然、負荷が大きい中で非標準化業務を実施することによるオペレーションミスのリスクや、「メール添付による変更・リリース申請」は後付けに近い形となり、統制上のリスクを抱えていたのである。
そこで変更・リリース業務においてワークフローツール導入し、そのワークフローツールを使用した申請と承認以外は受付けないこととした(図2)。ワークフローツールを導入するということは申請やリリースに関する業務の標準化が行われることも意味し、「調整」の負荷は軽減され、統制上のリスクも小さくなるなどその効果はとても大きい。

NRIのデータセンターにおけるシステム運用のカイゼン事例~標準化と自動化による品質向上とコスト削減の両立 (3/4):EnterpriseZine(エンタープライズジン)

screenshot