はじめに

システムを継続して動作させ、改善していく上で、重要なプロセスの1つが監視だと思います。このブログではその監視についてのチップがまとめられている「入門監視」についてまとめます。なお、このブログはあくまで私自身の理解を自分の言葉でまとめるものなので、正しい知識を得たい方は、入門監視を購入されることを強くおすすめします。また、入門監視は二部構成になっていますが、このブログでは第Ⅰ部についてまとめます。

章構成

章の構成は以下のようになっています

第Ⅰ部監視の原則
- 1章監視アンチパターン
- 2章監視のデザインパターン
- 3章アラート、オンコール、インシデント管理
- 4章統計入門
第Ⅱ部監視戦略
- 5章ビジネスを監視する
- 6章フロントエンド監視
- 7章アプリケーション監視
- 8章サーバ監視
- 9章ネットワーク監視
- 10章セキュリティ監視
- 11章アセスメントの実行

前述の通り、第Ⅰ部をまとめます。

第Ⅰ部監視の原則

まず、第一部では関しの原則について述べられていました。監視のアンチパターンから始まり、利用すべきデザインパターン、監視に対する組織としての動き方、そして、監視で得られるデータの利用方法まで関しの基礎について書かれています。

1章監視のアンチパターン

監視のアンチパターンとして以下の

ツールを目的とする
監視を役割としておく
チェックリストを作り考えなく監視を継続させる
監視を頼りに開発を行なう
監視設定を手作業で行なうこと

ツールを目的とする

監視で何を達成したいかよりも、ツールを導入することを目的とする組織が多いことについて言及されていました。監視は単純な問題ではなく、何か一つツールを入れたからすべての目的が達成されるとは限りません（何にでも言えることかもしれませんが）。監視を行なう際は何を何のために監視したいのかを考え、その考えにあったツールを導入する必要があります。監視のツールが増えすぎ、環境が複雑になっていくことに対して恐れを抱く人が多いが、実はさほど問題にならないということがこの章では述べられていました。
また、どこかの組織でうまく行った監視ツールや手順をそのまま自分の組織やチームに導入してもうまく行くはずが無いことも言及されていました。

監視を役割として置く

監視に対して責務を追う専門家を置く組織は多くありますが、これはあまりうまく行かないことが述べられていました。その理由は、監視の対象を知っているのはあくまで開発を行っているエンジニアであり、つまり、「何を何のために監視するのか」を把握できるのは開発を行っているエンジニアであるということです。そのために、チームの監視に対しての知識水準がある程度高くある必要性が述べられていました。
また、役割としての監視とは別に、セルフサービスの監視ツールを他のチームに提供するチームの有用性は述べられていました。しかし、そのチームはあくまで、監視のツールを作ることが役割で、あるアプリケーションに対する監視のシステムそのものを構築することが無いことも述べられていました。

監視のチェックリストを作り考えなく監視を継続させる

一般的な監視のチェックリストを作り、監視を行なう背景などを考えずにそのチェックリストに従うだけの監視は、うるさく、信頼できない監視を作ることにつながり、監視が無いよりもひどいことになると述べられていました。このアンチパターンに陥っている兆候としては以下のような状態があると述べられていました。

色々記録はしているが、システムがダウンした原因がわからない
誤検知が多すぎて、監視を無視するようになる
メトリクスを5分以上長い間隔で監視している
メトリクスの履歴を保存していない

監視を頼りに開発を行なう

アプリケーションが壊れた際に、その壊れた部分に対して監視を追加し、それに頼って開発を進めるのがアンチパターンの一つであることが述べられていました。監視はあくまでの問題を通知するのに長けており、問題を解決するための手段では無いことが述べられていました。問題の根本の解決は監視とは別に行なう必要があることが述べられていました。
監視ではなく、テストとCIで問題の修正を行なうのが良いかと感じました。

監視設定を手作業で行なうこと

手動で監視の設定を行なうことは、他のインフラ設定と同様にアンチパターンであり、可能な限りコード化、自動化を行なう必要があることが述べられていました。

2章監視のデザインパターン

監視をより良くしていくための活動や戦略のデザインパターンがこの章では述べられていました。具体的には以下のような項目について述べられていました。

組み合わせが可能な監視を行なう
ユーザ視点で監視を行なう
はじめは買うことを検討する
継続的に改善する

組み合わせが可能な監視を行なう

All in Oneの監視システムを導入するのではなく、監視の目的に合わせて複数のソフトウェア組み合わせプラットフォームを作ることが重要であると述べられています。これはUnixの哲学にも準ずるものであると述べられていました。組み合わせの監視をプラットフォームを作成することで、一つのツールに依存することなく、必要に応じてコンポーネントを入れ替えることも可能であることが挙げられます。
組み合わせるコンポーネントには以下のようなものがあります。

データの収集
- 収集の方法ではPush型とPull型がある
- collectedなどはPush型のコンポーネントの例である
- 収集対象はログとメトリクスがあ
  - メトリクスはカウンタ（増加していく値）とゲージ（ある時点の値）にわけられる
ストレージ
- 時系列データベース（Time Series Database）を用いる
- Grahiteなどが例である
- 保存データの解像度などは時間が立つごとに間引いたりしデータ容量が圧迫しないようにする
可視化
- 収集したデータを人間に理解しやすい形に可視化する
- Grafanaなどが有名です
分析とレポート
- SLA（Service Level Agreement）などに活かすために監視で得たデータを用いて分析を行なうことがある
アラート
監視はアラートを行なうためにあるわけでな無い
アラートは結果の一つでしか無い

ユーザ視点で監視を行なう

監視はユーザの視点から考え始めることが良いと述べられています。アプリケーションの詳細な実装はユーザは気にせずまずはアプリが"動いているか否か"を気にします。ここに対して効果的な監視はレスポンスコードとリクエスト時間を使うことが効果的です。

はじめは買うことを検討する

サービス開始時などには、SaaSのサービス等を利用することを検討するのが良いと述べられていました。その理由として以下のものが挙げられていました。

自分で環境を構築するより安い
監視の専門家が常にいるとは限らない
プロダクトの開発に集中できる

プロダクトの成長とともにSaaSでは対応できない独自のニーズが出てきた際にはじめて独自の監視システムを構築していくことが良いと述べられていました。

継続的に改善する

監視は何年も改善を加えていくことによって完成することが述べられています。
一度作れば完成ではなく状況や目的の変化に合わせて監視をリファクタリングする必要があります。

3章アラート、オンコール、インシデント管理

この章ではより良いアラートを作り、そのアラートに対する組織としての動き方、アラートの管理の仕方などがまとめられました。

より良いアラートをつくるために
オンコール
インシデント管理
ふりかえり

より良いアラートを作るために

4章統計入門

この章では監視を行なう上での統計基礎知識が述べられました。具体的には以下のような統計手法が紹介されていました。

MeanとAvarage
中央値
周期性
分位数（パーセントタイル）
標準偏差

へのへのもへじ

入門監視を読んだ

はじめに

章構成

第Ⅰ部監視の原則