Amazon EC2 Inf2 インスタンスを使用すべき理由
Amazon Elastic Compute Cloud (Amazon EC2) Inf2 インスタンスは、深層学習 (DL) 推論専用に構築されています。大規模言語モデル (LLM) やビジョントランスフォーマーなどの生成系人工知能 (AI) モデル向けに、Amazon EC2 で最小のコストで高いパフォーマンスを実現します。Inf2 インスタンスを使用して、テキストの要約、コード生成、ビデオと画像の生成、音声認識、パーソナライズ、不正検出などの推論アプリケーションを実行できます。
Inf2 インスタンスは、第 2 世代の AWS Inferentia チップである AWS Inferentia2 を搭載しています。Inf1 インスタンスと比較し、Inf2 インスタンスは、最大 3 倍のコンピューティングパフォーマンス、最大 4 倍のアクセラレーターメモリ、最大 4 倍のスループット、10 分の 1 以下の低レイテンシーのパフォーマンス向上を実現します。Inf2 インスタンスは Inferentia チップ間の超高速接続を備えた、スケールアウト分散推論をサポートする、Amazon EC2 で最初の推論最適化インスタンスです。Inf2 インスタンス上の複数のチップにわたって、数千億のパラメータを持つモデルを効率的かつコスト効率よくデプロイできるようになりました。
AWS Neuron SDK は、デベロッパーが AWS Inferentia チップのモデルをデプロイし、AWS Trainium チップでそれらをトレーニングするのに役立ちます。PyTorch や TensorFlow などのフレームワークとネイティブに統合されているため、既存のワークフローやアプリケーションコードを引き続き使用し、Inf2 インスタンスを実行することができます。
利点
特徴
製品の詳細
インスタンスサイズ | Inferentia2 チップ | アクセラレーター メモリ (GB) |
vCPU | メモリ (GiB) |
ローカル ストレージ |
チップ間 相互接続 |
ネットワーク 帯域幅 (Gbps) |
EBS 帯域幅 (Gbps) |
オンデマンドの料金 | 1 年契約リザーブドインスタンス | 3 年契約リザーブドインスタンス |
inf2.xlarge | 1 | 32 | 4 | 16 | EBS のみ | 該当なし | 最大 15 | 最大 10 | 0.76 USD | 0.45 USD | 0.30 USD |
inf2.8xlarge | 1 | 32 | 32 | 128 | EBS のみ | 該当なし | 最大 25 | 10 | 1.97 USD | 1.81 USD | 0.79 USD |
inf2.24xlarge | 6 | 192 | 96 | 384 | EBS のみ | はい | 50 | 30 | 6.49 USD | 3.89 USD | 2.60 USD |
inf2.48xlarge | 12 | 384 | 192 | 768 | EBS のみ | はい | 100 | 60 | 12.98 USD | 7.79 USD | 5.19 USD |
お客様とパートナーの声
お客様とパートナーが Amazon EC2 Inf2 インスタンスを使用してビジネス目標を達成した例をいくつかご紹介します。
-
Leonardo.ai
Leonardo のチームは生成 AI を活用して、クリエイティブなプロフェッショナルや、クリエイティブなことに熱心に取り組む人々が、比類のない品質、スピード、スタイルの一貫性を備えたビジュアルアセットを制作できるようにしています。AWS Inf2 の価格対パフォーマンス AWS Inf2 を利用することで、パフォーマンスを犠牲にすることなくコストを 80% 削減でき、お客様に提供できる価値提案を根本的に変え、最も高度な機能をより手頃な価格で利用できるようになりました。また、当社の成長と規模拡大に伴ってますます重要になる補助 AI サービスのコストと容量の可用性に関する懸念も緩和されます。生成 AI の可能性を広げ続け、ユーザーの創造性と表現力の新時代を実現する上で、これは当社にとって重要なイネーブリングテクノロジーです。
Leonardo.ai、Head of AI、Pete Werner 氏 -
Runway
Runway の AI Magic Tools スイートにより、ユーザーはこれまでにない方法でコンテンツを生成および編集できます。私たちは常に、AI を活用したコンテンツ制作で可能なことの限界を押し広げています。そして AI モデルが複雑になるにつれて、これらのモデルを大規模に実行するための基盤となるインフラストラクチャのコストが高くなる可能性があります。AWS Inferentia を搭載した Amazon EC2 Inf2 インスタンスとのコラボレーションにより、同等の GPU ベースのインスタンスよりも最大 2 倍のスループットで一部のモデルを実行できるようになりました。このハイパフォーマンスで低コストな推論により、より多くの機能を導入し、より複雑なモデルをデプロイして、最終的に Runway を使用する何百万人ものクリエイターにより優れたエクスペリエンスを提供できるようになりました。
Runway、共同創業者兼 CEO、Cristóbal Valenzuela 氏 -
Qualtrics
Qualtrics は、エクスペリエンス管理ソフトウェアを設計および開発しています。
Qualtrics では、お客様、従業員、ブランド、製品のエクスペリエンスギャップを解消するテクノロジーを構築することに重点を置いています。そのために、複雑なマルチタスク、マルチモーダル DL モデルを開発して、テキスト分類、シーケンスのタグ付け、談話分析、キーフレーズ抽出、トピック抽出、クラスタリング、エンドツーエンドの会話理解などの新機能をリリースしています。これらの複雑なモデルをより多くのアプリケーションで活用するにつれ、非構造化データの量は増加し、お客様に最高のエクスペリエンスを提供するためには、Inf2 インスタンスなど、これらの要求に対応できる、より性能の高い推論最適化ソリューションが必要です。新しい Inf2 インスタンスは、レイテンシーを劇的に低減しながら、より多くのスループットを達成できるだけでなく、分散推論や拡張された動的入力形状サポートといった機能も導入しており、より大規模で、より複雑なモデルへのデプロイニーズを満たすためのスケールに役立つため、当社は高揚感を覚えています。
Qualtrics、Head of Core Machine Learning、Aaron Colak 氏 -
Finch Computing
Finch Computing は、政府、金融サービス、データインテグレーターのクライアント向けに人工知能アプリケーションを提供する自然言語テクノロジー企業です。
リアルタイムの自然言語処理に対するお客様のニーズに応えるため、大規模な本番ワークロードにスケールする最先端の DL モデルを開発しています。グローバルなデータフィードを処理するために、低レイテンシーのトランザクションを提供し、高いスループットを達成する必要があります。私たちはすでに多くの本番ワークロードを Inf1 インスタンスに移行し、GPU に比べて 80% のコスト削減を達成しました。現在、私たちは、書かれたテキストからより深く、よりインサイトに満ちた意味を導き出す、より大規模で複雑なモデルを開発しています。多くのお客様がこれらのインサイトにリアルタイムでアクセスする必要があります。そして Inf2 インスタンスのパフォーマンスは、Inf1 インスタンスよりも低いレイテンシーと高いスループットを実現するのに役立ちます。Inf2 のパフォーマンス改善と、動的入力サイズのサポートなどの Inf2 の新機能により、当社はコスト効率を改善し、リアルタイムのカスタマーエクスペリエンスを改善するとともに、お客様がデータから新しいインサイトを得られるようサポートしています。
Finch Computing、Chief Architect、Franz Weckesser 氏 -
Money Forward Inc.
株式会社マネーフォワードは、オープンでフェアな金融プラットフォームを企業や個人に提供しています。このプラットフォームの一部として、マネーフォワードのグループ企業である株式会社 HiTTO は、カスタマイズされた自然言語処理 (NLP) モデルを使用して企業顧客の多様なニーズに対応する AI チャットボットサービスを提供しています。
Amazon EC2 Inf1 インスタンスで大規模な AI チャットボットサービスを開始し、同等の GPU ベースのインスタンスと比較して推論レイテンシーを 97% 低減するとともに、コストを削減できました。Amazon EC2 Inf2 インスタンスでの最初のテスト結果で、さらなるパフォーマンスの向上を確認できたことは非常に喜ばしいことです。同じカスタム NLP モデルを使用して、AWS Inf1 と比較して、Inf2 はさらにレイテンシーを 10 倍削減することができました。数十億を超える大規模なパラメータモデルに移行するにあたり、Inf2 はお客様に優れたエンドツーエンドのユーザーエクスペリエンスを提供し続けることができるという自信を与えてくれます。
株式会社マネーフォワード、CTO、中出 匠哉 氏 -
Fileread
Fileread.ai では、質問をするのと同じくらい簡単にドキュメントを操作できるソリューションを構築しています。これにより、ユーザーはすべてのドキュメントから探しているものを見つけて、適切な情報をより早く得ることができます。新しい Inf2 EC2 インスタンスに切り替えてから、NLP の推論能力が大幅に向上しました。コスト削減をするだけで、品質を犠牲にすることなくリソースをより効率的に割り当てることができるため、画期的なことでした。推論のレイテンシーが 33% 削減し、スループットが 50% 向上しました。このより速い転向の実現により、お客様に喜ばれています。当社のチームは、古い G5 インスタンスと比較して Inf2 のスピードとパフォーマンスに深い感銘を受けました。これが将来の NLP モデルのデプロイであることは明らかです
Fileread、CEO、Daniel Hu 氏 -
Yaraku
八楽の使命は、人々が言葉の壁を越えてコミュニケーションをとるのに役立つインフラを構築することです。当社の主力製品であるヤラクゼンを使用すると、プロの翻訳者からモノリンガルの個人まで、誰でも自信を持ってテキストや文書を翻訳し、ポストエディットすることができます。このプロセスをサポートするために、翻訳、バイテキストの単語の整列、文章の分割、言語モデリングなど、様々なタスクをカバーする、深層学習モデルに基づいたさまざまな高度なツールを提供しています。Inf1 インスタンスを使用することで、GPU ベースのインスタンスと比較して、推論コストを 50% 以上削減しながら、増え続ける需要を満たすためにサービスをスピードアップすることが可能になりました。現在、次世代の大規模モデルの開発に移行しています。そのためには、低レイテンシーを維持しながら需要を満たすことのできる、Inf2 インスタンスの拡張機能が必要です。Inf2 を使用すると、同様のスループットを維持しながらモデルを 10 倍にスケールアップでき、さらに高いレベルの質をお客様に提供できるようになります。
Yaraku、NLP Lead、Giovanni Giacomo 氏 -
Hugging Face
Hugging Face のミッションは、世界中の ML デベロッパーが実世界の問題を解決できるよう、優れた ML を民主化することです。そのための鍵は、最新かつ最高のモデルを、クラウド内の最高の ML チップで可能な限り高速かつ効率的に実行できるようにすることです。私たちは Inferentia2 が、生成 AI モデルを大規模に展開するための新しい標準方法になる可能性があることに、非常に興奮しています。Inf1 では、従来の GPU ベースのインスタンスと比較し、最大 70% のコスト削減を実現し、Inf2 では、BERT のようなトランスフォーマーのレイテンシーが Inferentia1 と比較して最大 8 倍低くなりました。Inferentia2 により、私たちのコミュニティは、このパフォーマンスを 100B 以上のパラメータ規模の LLM や、最新の拡散モデルやコンピュータビジョンモデルにも容易にスケールできるようになるでしょう。
-
PyTorch
PyTorch は、ML デベロッパーのために、研究用プロトタイピングから本番デプロイまでのプロセスを加速しています。私たちは AWS チームと協力して、新しい AWS Inferentia2 搭載の Amazon EC2 Inf2 インスタンスにネイティブ PyTorch サポートを提供してきました。コミュニティで大規模な生成 AI モデルのデプロイを検討するメンバーが増えるにつれ、AWS チームと提携して、チップ間の高速 NeuronLink 接続により Inf2 インスタンスの分散推論を最適化できることを嬉しく思います。Inf2 により、PyTorch を使用する開発者は超大型 LLM やビジョントランスフォーマーモデルを簡単にデプロイできるようになりました。さらに、Inf2 インスタンスは、効率的なデータタイプ、動的形状、カスタム演算子、ハードウェアに最適化された確率的丸めなど、PyTorch デベロッパーに他の革新的な機能をもたらしており、PyTorch コミュニティでの幅広い採用に適したインスタンスとなっています。
-
Nextira
LLM、そしてさらに広くエンタープライズレベルの生成 AI アプリケーションにおける歴史的な課題は、高性能 DL モデルのトレーニングと実行に関連するコストです。AWS Trainium と合わせて、AWS Inferentia2 は、お客様が高性能なトレーニングを必要とする場合に生じる経済的な妥協を排除します。今では、トレーニングと推論のメリットを求めているお客様が、より少ない費用でより良い結果を達成できるようになりました。Trainium と Inferentia は、今日の大企業が抱える最も厳しい DL 要件にも対応できるようにスケールを加速します。大規模な AI ワークロードを実行している Nextira の多くのお客様は、これらの新しいチップセットの恩恵を直接受け、コスト削減とパフォーマンスの効率を高め、市場での成果をより早く得られるようになるでしょう。
Nextira、創業者兼 CEO、Jason Cutrer 氏 -
Amazon CodeWhisperer
Amazon CodeWhisperer は、統合開発環境 (IDE) で単一行コードまたは完全関数コードの推奨をリアルタイムで生成する AI コーディングコンパニオンで、ソフトウェアをすばやく構築するのに役立ちます。
CodeWhisperer では、生成 AI モデルを使用してコードに関するレコメンデーションを提供することで、ソフトウェアデベロッパーの生産性を高めています。非常に効果的なコード推奨を開発するために、DL ネットワークを数十億のパラメーターにスケーリングしました。お客様は、入力中にリアルタイムで推奨されるコードを必要としています。そのため、応答の低レイテンシー化が不可欠です。大規模な生成系 AI モデルでは、ほんの一瞬で応答時間を達成するために高性能なコンピューティングが必要です。Inf2 では、大規模な入出力シーケンス用に最適化された GPU インスタンスのトレーニングで CodeWhisperer を実行するのと同じレイテンシーを実現しています。そのため、Inf2 インスタンスは、デベロッパーに可能な限り最高のエクスペリエンスを提供しながら、コストと電力を節約するのに役立っています。
Amazon CodeWhisperer、General Manager、Doug Seven -
Amazon Search
Amazon の商品検索エンジンは、何十億もの商品をインデックス化し、毎日何十億ものお客様のクエリに対応しており、世界で最も利用されているサービスの 1 つです。
Inf2 の一般公開に大きな高揚感を覚えています。Inf2 の優れたパフォーマンスと、数十億のパラメーターを持つ大規模なモデルを処理する能力が相まって、当社のサービスに最適な選択肢となり、モデルの複雑さと精度の点で新しい可能性を切り開くことができます。Inf2 によって実現される大幅なスピードアップとコスト効率により、Amazon Search のサービスインフラストラクチャに統合することで、お客様からの高まる需要に応えることができます。Inf2 と生成 LLM を使用して、新しいショッピングエクスペリエンスを強化するつもりです。
Amazon Search、VP、Trishul Chilimbi