問題を効率的に見つけて修正し、アプリケーションの状態を改善し、より優れたカスタマーエクスペリエンスを提供します。
オブザーバビリティの 3 つの基本的なシグナルは、メトリクス、ログ (半構造化データ)、およびトレース (すべての依存関係の最初から最後までのリクエストのフロー) です。これらのシグナルは、コンテナ、マイクロサービス、アプリケーションなどのモニタリング対象環境の出力です。目標は、DevOps と Site Reliability Engineers のために統合されたエクスペリエンスを提供して、重要なイベントを分離し、すべてのオブザーバビリティシグナルを使用して、任意の場所で実行されているコンテナ化されたアプリケーションとマイクロサービスに問題を分離することです。Amazon OpenSearch Service は、ログとトレースのデータ分析を単一のソリューションに結合します。
オブザーバビリティオペレーション
Amazon OpenSearch Service は、オブザーバビリティの問題を解決するのに役立つ新しい機能を提供します。
特徴
オープンインターフェイスを使用して、テレメトリデータ (OpenTelemetry、Fluentd、Fluent Bit、Logstash、Data Prepper などを含む) を収集、ルーティング、および変換します。ネイティブ機能を使用して、大量の半構造化データを検索および分析できます。OpenSearch Dashboards の異常検出オブザーバビリティ機能を使用して、視覚化、モニタリング、およびアラートを実行し、クエリインターフェイスである Piped Processing Language (PPL) を使用してデータのインタラクティブな分析とビジュアライゼーションを実行できます。
収集
まず、分析のためにデータを収集する必要があります。収集には、複数のソースからのデータの収集、強化、フィルタリング、変換、および正規化が含まれます。
検出
多くの場合、お客様側で問題が発生しても、すぐに検出されません。問題が発生してから通知を受け取るまでに時間がかかることがよくあります。この時間は可能な限り短くすべきです。検出はプロアクティブかつ多面的である必要があります (テレメトリのアラームなど)。異常検出は重要なツールであり、関連するアラームをリンクさせてアラーム疲れを軽減するための機能も備えています。検出のコアコンポーネントにはビジュアライゼーションとモニタリングも含まれており、Amazon OpenSearch Service は OpenSearch Dashboards と呼ばれるコンポーネントを使用してこれを実行します。 PPL などのツールを使用してデータをインタラクティブに分析することもできます。
調査
調査は、運用上のイベント中に最も多くの時間が費やされる段階であり、通常は複数の人員が必要となります。これは、平均インシデント時間 (MTTI) と平均復旧時間 (MTTR) の最大の要因です。混乱を切り抜け、何に注力すべきかを理解することは、依然として困難な課題です。ログ、メトリクス、トレースを使用して、AWS、オンプレミス、またはその他のクラウドでメトリクス、ログ、およびトレースを相互に関連付けながら、根本原因の分析を迅速に実施できます。OpenSearch Dashboard ノートブックを使用して調査に協力し、分析結果を文書化します。
修復
障害の原因を特定したら、それを是正する必要があります。何かを修復しようとして状況を悪化させることほど悪いことはありません。障害の発生に先立って失敗を防ぐにはどうすればよかったのかを判断するために、事後分析を実施することを忘れないでください。問題の再発を防ぐことができるように、提案された変更を文書化します。目標は、同じ問題が再発しないようにすることですが、再発した場合は、それを自動的に特定して修正できるようにする必要があります。
アプリケーションパフォーマンスモニタリング
場合によっては、アプリケーションパフォーマンスモニタリング (APM) がオブザーバビリティの最初の成熟度レベルになります。しかし、APM だけでは十分ではありません。アプリケーションモニタリングダッシュボードがすべて緑色であっても、アプリケーションは実際に想定どおりに動作していますか? お客様には必要なユーザーエクスペリエンスが提供されていますか? アプリケーションの用途は何ですか? アプリケーションのどの部分がスケール制限に達していますか? 最も大きく成長しているのはどの地域ですか? どの傾向を視覚化して計画できますか? メトリクスを収集できれば、新しいコードをデプロイしたり、インフラストラクチャを変更したりするときに、これらの変更の影響を確認できるので、確信に基づいて対応できます。オブザーバビリティにより、APM はこれらの追加の質問に対する回答を提供できます。