オブザーバビリティ

問題を効率的に見つけて修正し、アプリケーションの状態を改善し、より優れたカスタマーエクスペリエンスを提供します。

オブザーバビリティの 3 つの基本的なシグナルは、メトリクス、ログ (半構造化データ)、およびトレース (すべての依存関係の最初から最後までのリクエストのフロー) です。これらのシグナルは、コンテナ、マイクロサービス、アプリケーションなどのモニタリング対象環境の出力です。目標は、DevOps と Site Reliability Engineers のために統合されたエクスペリエンスを提供して、重要なイベントを分離し、すべてのオブザーバビリティシグナルを使用して、任意の場所で実行されているコンテナ化されたアプリケーションとマイクロサービスに問題を分離することです。Amazon OpenSearch Service は、ログとトレースのデータ分析を単一のソリューションに結合します。

オブザーバビリティオペレーション

Amazon OpenSearch Service は、オブザーバビリティの問題を解決するのに役立つ新しい機能を提供します。

特徴

オープンインターフェイスを使用して、テレメトリデータ (OpenTelemetryFluentdFluent BitLogstashData Prepper などを含む) を収集、ルーティング、および変換します。ネイティブ機能を使用して、大量の半構造化データを検索および分析できます。OpenSearch Dashboards の異常検出オブザーバビリティ機能を使用して視覚化、モニタリング、およびアラートを実行し、クエリインターフェイスである Piped Processing Language (PPL) を使用してデータのインタラクティブな分析とビジュアライゼーションを実行できます。

収集

まず、分析のためにデータを収集する必要があります。収集には、複数のソースからのデータの収集、強化、フィルタリング、変換、および正規化が含まれます。

検出

多くの場合、お客様側で問題が発生しても、すぐに検出されません。問題が発生してから通知を受け取るまでに時間がかかることがよくあります。この時間は可能な限り短くすべきです。検出はプロアクティブかつ多面的である必要があります (テレメトリのアラームなど)。異常検出は重要なツールであり、関連するアラームをリンクさせてアラーム疲れを軽減するための機能も備えています。検出のコアコンポーネントにはビジュアライゼーションとモニタリングも含まれており、Amazon OpenSearch Service は OpenSearch Dashboards と呼ばれるコンポーネントを使用してこれを実行します。 PPL などのツールを使用してデータをインタラクティブに分析することもできます。

調査

調査は、運用上のイベント中に最も多くの時間が費やされる段階であり、通常は複数の人員が必要となります。これは、平均インシデント時間 (MTTI) と平均復旧時間 (MTTR) の最大の要因です。混乱を切り抜け、何に注力すべきかを理解することは、依然として困難な課題です。ログ、メトリクス、トレースを使用して、AWS、オンプレミス、またはその他のクラウドでメトリクス、ログ、およびトレースを相互に関連付けながら、根本原因の分析を迅速に実施できます。OpenSearch Dashboard ノートブックを使用して調査に協力し、分析結果を文書化します。

修復

障害の原因を特定したら、それを是正する必要があります。何かを修復しようとして状況を悪化させることほど悪いことはありません。障害の発生に先立って失敗を防ぐにはどうすればよかったのかを判断するために、事後分析を実施することを忘れないでください。問題の再発を防ぐことができるように、提案された変更を文書化します。目標は、同じ問題が再発しないようにすることですが、再発した場合は、それを自動的に特定して修正できるようにする必要があります。

アプリケーションパフォーマンスモニタリング

場合によっては、アプリケーションパフォーマンスモニタリング (APM) がオブザーバビリティの最初の成熟度レベルになります。しかし、APM だけでは十分ではありません。アプリケーションモニタリングダッシュボードがすべて緑色であっても、アプリケーションは実際に想定どおりに動作していますか? お客様には必要なユーザーエクスペリエンスが提供されていますか? アプリケーションの用途は何ですか? アプリケーションのどの部分がスケール制限に達していますか? 最も大きく成長しているのはどの地域ですか? どの傾向を視覚化して計画できますか? メトリクスを収集できれば、新しいコードをデプロイしたり、インフラストラクチャを変更したりするときに、これらの変更の影響を確認できるので、確信に基づいて対応できます。オブザーバビリティにより、APM はこれらの追加の質問に対する回答を提供できます。

パフォーマンスモニタリングを表示するコンピュータ

お客様

Chase International: スケールアップした常時接続のカスタマーエクスペリエンス
Dow Jones と 3M: Amazon OpenSearch Service によるオブザーバビリティ

オブザーバビリティのリソース

1 - 8 (11) を表示中

ページトピック

全般

全般

Trace Analytics は、Amazon OpenSearch Service の新機能であり、デベロッパーと IT オペレーターが分散アプリケーションのパフォーマンスの問題を見つけて修正できるようにします。これにより、問題解決に要する時間を短縮できます。Trace Analytics は、分散トレースおよびメトリクスをキャプチャするための API、ライブラリ、エージェント、およびコレクターサービスの単一のセットを提供する Cloud Native Computing Foundation (CNCF) プロジェクトである OpenTelemetry を使用して構築されています。これにより、お客様はアプリケーションを再インストルメント化することなく Trace Analytics を活用できます。Trace Analytics は、OpenSearch を利用しており、オープンソースで、どなたでも無料でダウンロードしてご利用いただけます。

デベロッパーと IT Ops は、分散アプリケーションのパフォーマンスの問題を見つけて修正するために Trace Analytics を必要としています。Amazon OpenSearch Service に既に備わっているログ分析機能に、新たなトレースデータを追加することで、このサービスを、パフォーマンスの問題の発生源を切り離すことや、その根本原因を探ることにも利用できるようになりました。さらに、OpenTelemetry 標準のサポートにより、Trace Analytics は、Jaeger および Zipkin SDK といった 2 つの人気のあるオープンソース分散トレースシステムとの統合をサポートします。これにより、デベロッパーは、アプリケーションを再インストルメント化することなく、これらの SDK を引き続き使用できます。

Trace Analytics は、Amazon OpenSearch Service の統合機能です。すべてのお客様は、追加料金なしでご利用いただけます。Trace Analytics は、トレースデータを視覚化および探索するための OpenSearch ダッシュボードおよび Kibana をベースにしたユーザーインターフェイスを備えており、異常検出、アラート、きめ細かいアクセスコントロール、エンタープライズセキュリティなどの Amazon OpenSearch Service の主要機能と統合されています。Trace Analytics は、アプリケーションのパフォーマンスの問題を解決する際のログデータの検索と分析のために、お客様による Amazon OpenSearch Service のご利用を補完します。

現在、Trace Analytics は、オープンソースの OpenTelemetry Collector と互換性のあるアプリケーションライブラリと SDK の一連のトレースデータをサポートしています。これには、JaegerZipkinX-Ray SDK が含まれます。また、Trace Analytics は、OpenTelemetry API、SDK、およびエージェント/コレクターのディストリビューションである AWS Distro for OpenTelemetry とも統合されています。これは、OpenTelemetry コンポーネントのパフォーマンスが高く安全なディストリビューションであり、本稼働環境での使用がテストされており、AWS によってサポートされています。AWS Distro for OpenTelemetry を使用することにより、複数のモニタリングソリューションで使用するためにトレースやメトリクスを収集できます。これらのソリューションには、Amazon OpenSearch Service や AWS X-Ray (トレースデータ用)、Amazon CloudWatch (メトリクス用) などが含まれます。

Trace Analytics の使用を開始するには、こちらのドキュメントに従ってください。