サーバー数百台の運用工数を100分の1に改善!
しかも監視コストは6分の1に

株式会社ハンモックのNWS事業本部は、企業が従業員に配布するPCやその操作ログなどあらゆるIT資産を管理できるソフトウェアを自社で開発・提供している。AssetView クラウドソリューションは、そのソフトウェアのサーバーの構築、運用まで請け負うサービスでユーザーも多く、お客様が営業している時間帯の無停止・低遅延が求められる。同社ではこのシステムの安定運用とその効率化を目的にSite24x7を採用。「数百台のサーバーひとつひとつの設定を修正していたものを一元化できたことで運用工数を100分の1に削減できました。こうなるとサーバーに対する設定の修正に前向きになれるので、今では運用の改善を重ねる好循環が生まれています」と担当の小室氏は語る。

ハンモックといえばIT資産管理の「AssetView」

株式会社ハンモック
NWS事業本部 カスタマーサクセス部 サポートセンター 2係
副主任 小室 良博 氏

——御社の事業やチーム、役割について教えてください。

小室氏 弊社は統合型IT運用管理、法人営業支援、データ入力支援の3つの柱で製品・サービスを提供しています。

私が所属するのは統合型IT運用管理の一部を担うチームで、自社で開発、販売しているオンプレミス型のIT資産管理ソフトウェア「AssetView」をAzureやAWSに構築、運用してサービスとしてお客様に使っていただく「AssetView クラウドソリューション」を提供しています。

ソフトウェアのみを購入して使っていただいているユーザー様は国内に数多くいらっしゃいますが、中には自社でそのサーバーの構築や運用、管理はしたくないというお客様もいらっしゃいます。このソリューションは、そういったお客様がある意味で気楽にIT資産管理を始められるサービスです。

そのため、AzureとAWSにはお客様のためのWindowsサーバーが数百台あり、それらは日々増えていきます。そのシステムの安定運用とその効率化を目的にSite24x7を導入しました。

チームメンバーは6名で、Teamsのチャネルに表示されるSite24x7のアラートを見て対応したり、新たに構築したサーバーを監視対象に追加したりするのは私ともうひとりの2名が担当しています。

高い… 不便… 辛い… の三重苦

——Site24x7を導入する前はどのような課題がありましたか?

小室氏 大きく3つありました。1つ目は、既存システムのコストが高かったこと。2つ目は、そのシステムの利便性が悪かったこと。3つ目は、顧客増加に伴う運用負荷の増加と管理の煩雑さへの対応に迫られていたことです。

——それぞれ具体的に伺いたいです。

小室氏 そうですね、既存システムはチケット管理システムとパッケージの監視ソフトウェアを連携したものでした。

コストは当時、確かひと月98,000円でしたね。

使える監視ポイント数も決まっていて、そこから必要に応じて追加でポイントを増やしていくようなライセンス体系だったと思います。ポイントの消費を抑えることを目的に自作の監視ツールも連携していたので、当時からコストの高さは気にしていました。あと、金額面だけでなく、利便性の悪さから生じる無駄と思える工数もコストになっていると感じていましたね。

利便性の悪さは2つありました。

1つ目は、アラートの復旧が手動だったことです。アラートはチケット管理システムのチケットだったのですが、対応して解決したアラートも、自動的に解決するため対応する必要のないアラートも、何もしないと画面に残り続けるんですね。だから、定期的にまとめてクリアしてあげないといけないんです。しかも、結構ボタンをポチポチクリックしていかなきゃいけない。さらに、少し待ち時間があったりするので小さなストレスのようなものはありました。

2つ目は、新規のお客様のサーバーを監視対象に追加する時ですね。サーバーにエージェントを入れて、自作の監視ツールとそれを連携させる作業があります。次に、チケットのシステムと連携させる作業があるんですね。それも別のWebページでボタンをポチポチと押していかなきゃいけなくて、押していくのはいいんですけど、そこでは5分とか10分とかかかるんです。間のページ遷移でグルグル~というのがですね。ですので、全部踏まえると30分くらいかかっていましたね。ここ待つ必要ある?というようなところで5分とか10分とか待たされるので。

——それは大きなストレスですね。

小室氏 はい。

最後に、運用負荷の増加と管理の煩雑さですが、幸いなことに事業は成長していまして、お客様は日々増えています。ビジネス視点では成長スピードはもっともっと高めたいわけですが、私としては先ほど話したようなストレスは増やしたくないわけです。お客様1社あたりの運用負荷をいかに圧縮するかが重要だなと。

例えば、数百台すべてのサーバーのタスクスケジューラーで一部の運用を自動化していたのですが、それらの設定内容は統一されているべきなんですね。設定のばらつきはトラブルの元になりえるので。しかしそれがなかなか難かしい。構築した時期や担当者の違い、対応の抜け漏れなどによって設定が微妙に異なってしまうんです。これはよろしくないなと。

それから、運用負荷が高い例で言うと、そのタスクスケジューラーの設定の修正です。より効率の良い運用を目指して設定を修正することがあるのですが、その修正を数百台のWindowsサーバーすべてに入れていかないといけないんですね。これがなかなか辛い。

——なるほど、それは大変ですね。参考までにタスクスケジューラーで自動化していたことを教えていただけますか?

小室氏 そうですね。

例えば、月に1回、データベースのサービスをちゃんと落としたのを確認してからそのサーバーを再起動するとかですね。

また、あるシステムのログは、自分で30日間超えたら削除してくれるローテーションのような機能がなくて。そうするとどんどん増えていってしまうので、30日以上前のやつは削除するというのもやっていました。

あとは、AssetView自体のログの退避ですね。これは前の話と逆で、ログがローテーションで流れちゃうことがあるので、仮に何かを調査しようとなった時に、過去のログを確認できるようにですね。Azure上の別のストレージ、BLOBに退避しています。そのバッチも各サーバーに入っていて、1日2回動かしています。

その他にもいくつかありました。

サーバー監視SaaSをしっかり比較

——次に、Site24x7に至った経緯を教えてください。

小室氏 まず、自社でサーバーを持ちたくなかったのでSaaSに絞ってネットで検索していました。確か「SaaS 監視ツール」とか「SaaS サーバー監視」とかで検索して。「SaaS」は必ず入れて検索していたと思います。

——比較検討もされたのですか?

小室氏 はい。検索結果に出てきた情報から、Site24x7とMackerelに絞り、2つを検証しながら比較検討しました。

——決め手は何でしたか?

小室氏 そうですね。実は、監視項目で一点だけMackerelでうまく実現できなかったものがあったんです。

AssetViewは資産管理ソフトなので、お客様の従業員の各PCから操作ログを取得しているんですね。どのWebページを見ているとか、どのようなファイル移動やコピーをしているといったログですね。それをサーバーが吸い上げるんです。そうすると、例えば、アプリケーション側とかサーバー側で何か不具合があった際に、ログファイルがデータベースに取り込まれずにどんどん溜まっちゃうんですよね。その事象に気づけないと、お客様から「なんか全然データが更新されないけど」とか「操作ログ、昨日の分が全然ないけど」のように言われちゃう可能性がある。そうなることを回避するためにファイルが滞留していないか監視したかったんです。

要するに、フォルダ内のファイル数の監視ですね。

それを実現するためには、どちらのツールも自分でスクリプトを記載する必要があって四苦八苦しました。結果的には、自力で何とか計測できるようになったSite24x7に決めたという感じですね。

Site24x7で実現したファイル数監視

標準では搭載されていない監視機能も100以上のプラグインで追加できる。

費用としても確かSite24x7の方が安かったと思いますね。

——Site24x7で活用している機能は何ですか?

小室氏 一番使っているのはサーバー監視で、CPU、メモリ、ディスク、Windowsサービスおよびプロセス、ログの監視。それからWindowsカスタムプラグインで先ほど話したファイル数監視ですね。あと、ITオートメーションも使っています。サーバーに対してSite24x7からリモートでバッチやスクリプトを実行するイメージですね。

Webサイト監視も使っています。AssetViewにはすべてのユーザーが特定のURLに意識することなくアクセスすることで機能する仕組みがあるので、そのURLを監視しています。

一部、AWSのアカウントを連携してRDS監視もしています。

あとは、サードパーティー連携ですね。Site24x7のアラートとその内容をTeamsの専用チャネルでチームメンバー全員が確認できるようにしています。

工数100分の1の秘訣「ITオートメーション」

——導入効果を教えてください。

小室氏 そうですね。まず、先ほど話した課題をすべて解決できました。

コストは当時で6分の1になりました。98,000円/月の6分の1ですね。アラートもSite24x7なら対応が終われば自動的にアップ通知が届いてクリアされるので、アラート対応の工数は全体で3分の1くらいになっています。監視対象に新たにサーバーを追加する工数もシステム連携やページ遷移の際の待ち時間もなくなったので30分だったものが10分になりました。

そして何より一番大きいのは、数百台のWindowsサーバーひとつひとつにログインしてタスクスケジューラーの設定を修正していたのをSite24x7のITオートメーションに置き換えることで一元化できたことですね。

これは、サーバーの運用工数を100分の1に削減できたと言えるので。

サーバーの運用工数が100分の1に

ITオートメーションを活用すればサーバーに一括でコマンドやスクリプトを実行できる。

あと、そうです。実際はAzureとAWSという2つのプラットフォームが存在してるんですね。それでも、すべてのサーバーをSite24x7のエージェントという共通のモジュールを介して管理しているので、プラットフォームの違いを意識することがなくなるんですよね。Site24x7の管理画面からどちらも同じように管理できる。これも大きいなと思いますね。

こうなるとサーバーに対する設定の修正に前向きになれるので、今では運用の改善を重ねる好循環が生まれています。

——ありがとうございます。話を聞いていてこちらもとても嬉しくなりました。最後に、Site24x7を検討している方に向けて一言お願いします!

小室氏 顧客向けに数百台のWindowsサーバーを運用しているという現場はそれほど多くないかもしれませんが、もし同じような現場の方がいれば、是非おすすめしたいです。