オブザーバビリティ基礎編：New Relic / Datadog / AWS CloudWatch の実践的な選び方

この記事をシェア

こんにちは、練馬区旭丘で個人事業主として AI コンサル兼 AWS 構築をやっている野口です。

最近、クライアントから「うちの監視、見直したいんですけど、New Relic と Datadog と CloudWatch って何が違うんですか？」という相談を立て続けに受けました。これ、現場で本当によくある質問です。

正直に言うと、この 3 つは「比較表で並べて選ぶもの」ではありません。クラウド構成、運用チームの体制、コスト感、何を観測したいかで答えがまるごと変わります。今回は基礎編として、ツール選定で迷わないための判断軸を、現場目線で整理します。

実践編（次回）では、Terraform で実際に CloudWatch / New Relic / Datadog を連携させる書き方に踏み込みます。

そもそもオブザーバビリティとは何か — 「監視」とは別物

まず言葉の整理から。日本の現場では「監視」と「オブザーバビリティ」がほぼ同じ意味で使われがちですが、実務上はまったく違います。

監視（Monitoring）：想定済みの異常を検知する。CPU 90% 超え、ヘルスチェック失敗、5xx 増加など、「壊れ方を事前に決めてアラートを張る」もの。
オブザーバビリティ（Observability）：想定外の異常が起きた時に、外から観測したデータだけで内部状態を推定して原因に到達できる性質。

たとえば「先週金曜の 21 時、特定ユーザーグループだけレスポンスが遅かった」みたいな話を、ログとメトリクスとトレースを行き来して 30 分以内に原因まで辿れるか。これがオブザーバビリティの本質です。

つまり、オブザーバビリティとは「障害時に原因へ到達する力」です。ツール選定はこの軸でやらないと、後で必ず痛い目を見ます。

まず結論 — ざっくり選定指針

長い記事になるので、最初に結論だけ書いておきます。

AWS 中心・まず安く確実に始めたい → CloudWatch
アプリ性能 / APM・ユーザー体験まで深く見たい → New Relic
マルチクラウド / コンテナ多用 / 横断監視 / チーム運用を回したい → Datadog

この 3 択でだいたい片付きます。以下、その判断根拠を順に説明していきます。

比較表 — 観点別マトリクス

カタログ的になりますが、現場で議論する時の叩き台として置いておきます。あくまで「一般的な傾向」であり、最終判断は自社環境でやってください。

観点	New Relic	Datadog	AWS CloudWatch
APM（アプリ性能監視）	◎ 看板機能。コードレベルまで追える	◎ APM + Profiling が強力	△ X-Ray と組み合わせる必要あり
インフラ監視	○	◎ ホスト / コンテナ網羅	◎ AWS 内なら最強
ログ	○ Logs in Context	◎ Log Management 成熟	○ Logs / Logs Insights
メトリクス	◎ NRDB 一元化	◎ カスタムメトリクス強い	◎ AWS サービスは自動収集
分散トレーシング	◎ OpenTelemetry 標準対応	◎ APM と統合	○ X-Ray で対応
RUM（ユーザー体験計測）	◎ Browser / Mobile	◎ RUM + Session Replay	△ 標準提供なし
アラート	◎ NRQL ベース	◎ Monitor 柔軟	○ Alarm シンプル
ダッシュボード	◎ 高自由度	◎ 高自由度	○ 標準的
AWS 統合	○ 連携設定が必要	○ 連携設定が必要	◎ ネイティブ
Kubernetes 対応	○	◎ コンテナ系の本命	△ Container Insights
導入難易度	中	中	低（AWS 内なら）
コスト管理	データ取り込み量＋ユーザー	ホスト数＋機能別	取り込み量＋保持期間
学習コスト	NRQL を覚える必要あり	UI 主体で入りやすい	AWS コンソールに準ずる

繰り返しますが、表だけ見て決めないでください。次以降の各論を必ず読んでから判断してください。

New Relic — アプリの中身まで追いたいなら本命

特徴

New Relic は APM の老舗で、コードレベルでのトランザクション分析が他より一段深いです。エージェントをアプリに入れると、「どのエンドポイントのどの SQL が遅いか」「どの N+1 で詰まっているか」みたいなのが即座に見えます。

データはすべて NRDB という独自テレメトリ DB に集約され、NRQL（SQL ライクなクエリ言語）で横断的に検索できます。これが慣れると恐ろしく強力です。

強み

APM / トレースが深い。アプリチームが原因切り分けに使うなら一番ハマる
NRQL による横断検索。メトリクスもログもトレースも同じ言語で叩ける
料金体系がデータ取り込み量＋ユーザー数でシンプル（後述の通り取り込み量管理は要注意）
RUM / Browser / Mobile / Synthetics まで一気通貫で揃う

弱み

NRQL の学習コストが地味に高い。最初の数週間はチームの誰かが詰まる
インフラ・コンテナ系の運用機能は Datadog に一歩譲る印象
取り込みデータ量が増えると一気にコストが伸びる。後述のコスト失敗パターンに直結する

向いているケース

Web アプリや API のレスポンス品質を最優先で改善したい
開発チームが性能改善に直接コミットする文化がある
AWS も GCP もオンプレも、とにかくアプリの中身を見たい

向いていないケース

純粋にインフラだけ見たい、アプリには手を入れない
Kubernetes 上で数百ホスト動いていて、ホスト / コンテナの可視化が主目的

Datadog — マルチクラウド・コンテナ運用の本命

特徴

Datadog は「インフラ監視 SaaS の定番」から始まって、APM、ログ、RUM、セキュリティまで全部乗せに進化したプラットフォームです。統合数が異常に多く、AWS / GCP / Azure / Kubernetes / 各種ミドルウェアまで対応しています。

特に Kubernetes / コンテナ環境での運用機能は頭ひとつ抜けていて、Container Map や Live Container でホスト・Pod・コンテナをリアルタイムで把握できます。

強み

マルチクラウド・コンテナで一番強い。EKS / GKE / AKS を跨いでも統一して見られる
ダッシュボード / Monitor が直感的。UI で触って覚えられる
インテグレーションの数が圧倒的。とりあえず繋げば見える、が成立しやすい
チーム運用機能（Incidents、Notebooks、SLO）が成熟していて、組織で回せる

弱み

コスト構造が複雑。Infra / APM / Logs / RUM…と機能別にホスト課金やインデックス課金が積み上がる
ホスト数が増えるとリニアに高くなる。スケールアウトが多い構成だと予算管理が難しい
カスタムメトリクスの高カーディナリティで爆発しがち

向いているケース

Kubernetes でマイクロサービスを多数動かしている
マルチクラウド、あるいはオンプレ＋クラウドのハイブリッド
運用チームが独立していて、SRE が主導で監視を組み立てる
インシデント運用のオペレーションごと整備したい

向いていないケース

監視対象が小規模で、コスト最優先
AWS 単一クラウドで、AWS Native 機能で十分間に合うケース

AWS CloudWatch — AWS オンリーなら最初の選択肢

特徴

AWS がネイティブで提供する監視サービス群です。CloudWatch Metrics / Logs / Logs Insights / Alarms / Dashboards / Synthetics / RUM / Container Insights / Application Signals…と機能はかなり広い。

最大の強みは AWS サービスとの統合がゼロコンフィグに近いこと。EC2、RDS、Lambda、ECS、ALB あたりは何もしなくてもメトリクスが飛んできます。

強み

AWS 統合がネイティブ。IAM ロールベースで他 SaaS のような外部連携設定が要らない
既存の AWS 請求にまとめられる。稟議が通りやすい
Logs Insights が意外と強力。最近は SQL 構文にも対応
Application Signals で APM 相当の機能も提供されている（成熟度は New Relic / Datadog に比べるとまだ追いつき中）
データを社外に出さない。コンプライアンス要件が厳しい現場で楽

弱み

マルチクラウドや非 AWS サーバには弱い
UI と UX が SaaS 勢に比べて素朴。ダッシュボード作り込みは手間
アラートのロジック表現が固い（Metric Math、Composite Alarm で頑張る必要あり）
長期保持のログコストが地味に重い

向いているケース

100% AWS で構成されている
まず最低限の監視を低コストで立ち上げたい
データを外部 SaaS に送りたくない（金融・医療・公共系）
まだチームが小さく、専任の監視担当がいない

向いていないケース

「アプリ性能改善」をデータドリブンで本気でやりたい
マルチクラウド、ハイブリッド構成
チーム横断で運用を統一したい

実装パターン比較 — 現実的な 4 つの組み合わせ

3 ツールの「どれか 1 つ」を選ぶ必要はなく、組み合わせるのが実務では普通です。代表的なパターンを 4 つ挙げます。

パターン 1：CloudWatch 中心の AWS ネイティブ監視

構成：CloudWatch Metrics + Logs + Alarms + Dashboards、必要に応じて X-Ray と Application Signals
向き：AWS オンリー、小〜中規模、コスト最優先
メリット：立ち上げが速い、AWS 請求に統合、社外データ送信なし
デメリット：UI の作り込みが大変、アプリ深部の可視化が弱い

「とりあえず監視を始める」段階の現場では、まずこれで十分です。 ここから不足を感じたら次のパターンへ進む、というのが王道。

パターン 2：CloudWatch + New Relic / Datadog 連携

構成：CloudWatch は AWS サービスメトリクスとログの収集基盤、SaaS 側で可視化・アラート・APM
向き：AWS 中心だがアプリ性能やトレースも深く見たい
メリット：既存の CloudWatch を捨てずに段階移行できる
デメリット：二重課金になりがち、データの重複に注意

CloudWatch Metric Stream や Kinesis Firehose 経由で SaaS に流すと、エージェント未導入の AWS サービスのメトリクスも一気に揃います。実務では一番採用されているパターンです。

パターン 3：SaaS 側を主、CloudWatch はイベント / ログ基盤として最小利用

構成：New Relic か Datadog を主軸、CloudWatch は「AWS が勝手に吐くログの一時バッファ」として割り切る
向き：マルチクラウド、コンテナ多用、運用を一元化したい
メリット：SaaS 側の UI とアラートで統一できる、SRE の認知負荷が下がる
デメリット：SaaS 側のコストが青天井になりやすい。取り込み量と保持期間の設計が命

パターン 4：小さく始めて段階的に拡張するパターン【推奨】

実は多くの現場でこれが現実解です。

まず CloudWatch で基本メトリクスとログ
APM が必要になったら New Relic（または Datadog APM）を本番アプリに導入
コンテナ運用が増えてきたら Datadog で Kubernetes 可視化
RUM が必要になったら SaaS 側を追加

「最初から完璧な構成を組まない」のがポイント。オブザーバビリティは育てるものです。

選定フローチャート風の判断ガイド

質問に上から順に答えていけば、たどり着ける場所が決まります。

Q1. 監視対象は 100% AWS か？
- YES → Q2 へ
- NO（マルチクラウド・オンプレ含む） → Datadog or New Relic（コンテナ多用なら Datadog 寄り）
Q2. アプリのコード深くまで見たいか？（APM / トレース重視）
- YES → New Relic（CloudWatch 併用） がよい
- NO → Q3 へ
Q3. データを外部 SaaS に送れるか？（コンプライアンス的に）
- 送れない → CloudWatch で完結（X-Ray + Application Signals まで使う）
- 送れる → Q4 へ
Q4. 専任の SRE / 監視チームはいるか？
- いる → Datadog（運用機能を活かせる）
- いない → CloudWatch + 必要な部分だけ SaaS（小さく始める）
Q5. Kubernetes / ECS でコンテナを大量に動かしているか？
- YES → Datadog が最も馴染む
- NO → New Relic または CloudWatch で十分なケースが多い

これだけで 9 割の現場は答えが出ます。残り 1 割は「組織の好み」と「過去の負債」で決まる、というのが正直なところです。

ありがちな失敗 — 現場で本当に見た 5 パターン

ここが基礎編で一番大事です。ツール選定よりも、運用設計の失敗の方が圧倒的に多い。

失敗 1：とりあえず全部送ってコスト爆発

「データを送らなければ意味がない」と思って DEBUG ログから高カーディナリティのカスタムメトリクスまで全部 SaaS に送る と、月末の請求で経営に呼び出されます。

対策：取り込み前にフィルタする。CloudWatch Logs から不要なログを除外、メトリクスのディメンション数を制限、サンプリングを入れる
判断軸：「これは障害調査で本当に見るか？」と自問する

失敗 2：ログだけ集めてトレースがない

ログ基盤だけ立派になって、「で、この API が遅い原因はどこから来てるんですか？」が分からないパターン。マイクロサービス化したらトレースは必須です。

対策：OpenTelemetry を最初から入れる。ログだけのフェーズで止まらない
判断軸：サービス間呼び出しが 3 層以上あるなら分散トレーシングは前提

失敗 3：アラートが多すぎて誰も見ない

アラート疲れ。これは 100% 発生すると言ってよい問題で、対策しないと監視チーム全員が壊れます。

対策：SLO / SLI ベースでアラートを再設計する。「ユーザー影響があるもの」だけ PagerDuty / Slack に飛ばす
判断軸：1 日 10 件以上アラートが出ているなら、もうそれは情報ではなくノイズです

失敗 4：ダッシュボードを作って満足する

「立派なダッシュボードができました」で終わり、誰も見ない。よくある。

対策：ダッシュボードは「障害時の調査導線」として設計する。トップ画面から原因まで 3 クリックで辿れるか
判断軸：そのダッシュボードを、深夜の障害対応で 5 分以内に使えるか

失敗 5：本番障害時の調査導線が決まっていない

これが一番痛い失敗。ツールはあるのに、いざ障害が起きると誰がどこから見るか決まっていない。

対策：ランブック（playbook）を書く。「5xx 急増 → このダッシュボード → このログクエリ → このトレース」と手順化
判断軸：ランブックがなければオブザーバビリティはまだ完成していません

コストで気をつけるべき 4 つの変動要因

具体的な金額は省きますが（料金体系は頻繁に変わります）、どのツールでもコストはこの 4 つに連動して増減します。

データ量（Ingest）：1 日に取り込むログ・メトリクス・トレースのバイト数。圧倒的に支配的
ホスト数 / コンテナ数：Datadog 型のホスト課金に効く。スケールアウト系の現場で爆発しがち
保持期間（Retention）：ログを何日残すか。90 日と 13 か月で桁が変わる
カーディナリティ：メトリクスのタグ組み合わせ数。user_id をタグにすると即終了

「とりあえず全部送って、長期保持して、細かくタグ付けする」をやると、どのツールでも破綻します。この 4 軸で取捨選択するのが、コスト管理の本質です。

基礎編としての結論 — まず観測対象を決めよ

ここまで長々と書きましたが、基礎編の結論は以下です。

まず「何を観測したいか」を決める。SLI / SLO から逆算する。ツール選定はその後
メトリクス / ログ / トレース / APM / RUM の責務を分ける。1 ツールで全部やろうとせず、テレメトリ種別ごとに最適解を考える
小さく始めて、不足を感じたら拡張する。最初から完璧な構成を組もうとしない
コストは「データ量・ホスト数・保持期間・カーディナリティ」の 4 軸で管理する
ツールよりランブック（調査導線）が大事。これがないとツールが揃っても障害は止まらない

そして、最初のツールを選ぶときの実用的な目安は以下です。

AWS オンリーで小規模・コスト最優先 → CloudWatch で始める
アプリの性能改善を本気でやる → New Relic を足す
コンテナ・マルチクラウド・チーム運用 → Datadog に寄せる

迷ったら CloudWatch で始めて、不足を感じたところから New Relic か Datadog を足す、これでだいたい間違えません。

次回予告：実践編

次回は 実践編として、Terraform で CloudWatch / New Relic / Datadog 連携を書きます。

CloudWatch Metric Stream → Kinesis Firehose → New Relic / Datadog の構成
New Relic AWS Integration の最小 Terraform
Datadog AWS Integration の最小 Terraform
ログのフィルタリングとサンプリングの実装例

「現場で動かすコード」だけ書くので、次回もぜひ。

まとめ

オブザーバビリティとは「障害時に原因へ到達する力」。監視とは別物
New Relic / Datadog / CloudWatch は比較表で選ぶものではなく、AWS 依存度・アプリ深度・チーム体制で選ぶ
実務では複数併用が普通。小さく始めて段階的に拡張するのが王道
コストは「データ量・ホスト数・保持期間・カーディナリティ」の 4 軸で管理する
ツール選定よりも、ランブック整備とアラート設計の方が成果に効く

「うちはまず CloudWatch で始めて、APM が必要になったら New Relic を足そう」とか、「Kubernetes を本格運用するから Datadog に寄せよう」とか、読後に方針が決まることを目指して書きました。

次回の実践編で、コードに落としていきます。

オブザーバビリティ基礎編：New Relic / Datadog / AWS CloudWatch の実践的な選び方

この記事をシェア

そもそもオブザーバビリティとは何か — 「監視」とは別物

まず結論 — ざっくり選定指針

比較表 — 観点別マトリクス

New Relic — アプリの中身まで追いたいなら本命

特徴

強み

弱み

向いているケース

向いていないケース

Datadog — マルチクラウド・コンテナ運用の本命

特徴

強み

弱み

向いているケース

向いていないケース

AWS CloudWatch — AWS オンリーなら最初の選択肢

特徴

強み

弱み

向いているケース

向いていないケース

実装パターン比較 — 現実的な 4 つの組み合わせ

パターン 1：CloudWatch 中心の AWS ネイティブ監視

パターン 2：CloudWatch + New Relic / Datadog 連携

パターン 3：SaaS 側を主、CloudWatch はイベント / ログ基盤として最小利用

パターン 4：小さく始めて段階的に拡張するパターン【推奨】

選定フローチャート風の判断ガイド

ありがちな失敗 — 現場で本当に見た 5 パターン

失敗 1：とりあえず全部送ってコスト爆発

失敗 2：ログだけ集めてトレースがない

失敗 3：アラートが多すぎて誰も見ない

失敗 4：ダッシュボードを作って満足する

失敗 5：本番障害時の調査導線が決まっていない

コストで気をつけるべき 4 つの変動要因

基礎編としての結論 — まず観測対象を決めよ

次回予告：実践編

まとめ

関連キーワード

この記事が役に立ったらシェアしてください

カテゴリ

公開日

💬 無料技術相談のご案内

お気軽にご相談ください

📚 目次

📖 関連記事

👨💻 著者について

野口真一