AWS Trainium

Dapatkan performa tinggi untuk pelatihan AI generatif dan deep learning sekaligus mengurangi biaya

Mengapa memilih Trainium?

AWS Trainium adalah chip machine learning (ML) yang dibuat secara khusus oleh AWS untuk pelatihan deep learning (DL) lebih dari 100 miliar model parameter. Setiap instans Trn1 Amazon Elastic Compute Cloud (Amazon EC2) melakukan deployment hingga 16 akselerator Trainium untuk menghadirkan solusi berbiaya rendah dan berperforma tinggi untuk pelatihan DL di cloud. Meski penggunaan DL dan AI generatif makin cepat, banyak tim developer memiliki anggaran tetap, yang membatasi cakupan dan frekuensi pelatihan yang diperlukan untuk meningkatkan model dan aplikasi mereka. Instans Trn1 Amazon EC2 berbasis Trainium memecahkan tantangan ini dengan menghadirkan waktu pelatihan yang lebih cepat sekaligus menawarkan penghematan biaya pelatihan hingga 50% dibandingkan instans EC2 yang setara. Trainium telah dioptimalkan untuk melatih model pemrosesan bahasa alami, penglihatan komputer, dan pemberi rekomendasi yang digunakan dalam beragam aplikasi, seperti peringkasan teks, pembuatan kode, penjawab pertanyaan, pembuatan gambar dan video, rekomendasi, serta deteksi kecurangan.

SDK AWS Neuron membantu developer melatih model pada akselerator Trainium (dan melakukan deployment pada model tersebut di akselerator AWS Inferentia). SDK AWS Neuron terintegrasi secara native dengan kerangka kerja populer, seperti PyTorch dan TensorFlow, sehingga Anda dapat terus berlatih di akseleretor Trainium dan menggunakan kode dan alur kerja yang ada.

Manfaat Trainium

Instans Trn1 yang didukung Trainium memberikan performa tinggi sekaligus mengurangi biaya pelatihan hingga 50% dibandingkan instans Amazon EC2 lainnya yang sebanding. Setiap akselerator Trainium mencakup dua NeuronCore generasi kedua yang dibuat khusus untuk algoritma DL. Untuk mendukung paralelisme data dan model yang efisien, setiap akselerator Trainium memiliki memori bandwidth tinggi sebesar 32 GB, menghasilkan daya komputasi FP16/BF16 hingga 190 TFLOPS, dan dilengkapi NeuronLink, sebuah teknologi interkoneksi intra-instans dengan kecepatan yang sangat tinggi dan tanpa blok.

SDK AWS Neuron, yang mendukung Trainium, terintegrasi secara native dengan PyTorch dan TensorFlow. Hal ini memastikan bahwa Anda dapat terus menggunakan alur kerja yang ada dalam kerangka kerja populer ini dan mulai menggunakan Trainium dengan hanya beberapa baris perubahan kode. Untuk pelatihan model terdistribusi, SDK Neuron mendukung pustaka seperti Megatron-LM dan PyTorch Fully Sharded Data Parallel (FSDP). Untuk segera memulai instans Trn1 Amazon EC2 yang didukung Trainium, lihat contoh model populer di dokumentasi Neuron.

Untuk memberikan performa tinggi sekaligus memenuhi tujuan akurasi, Trainium dioptimalkan untuk FP32, TF32, BF16, FP16, UINT8, dan tipe data FP8 (cFP8) baru yang dapat dikonfigurasi.
Untuk mendukung pesatnya inovasi DL dan AI generatif, Trainium memiliki beberapa inovasi yang membuatnya fleksibel dan dapat diperluas untuk melatih model DL yang terus berkembang. Trainium memiliki optimasi perangkat keras dan dukungan perangkat lunak untuk bentuk input dinamis. Untuk memungkinkan dukungan bagi operator baru yang akan datang, operator kustom yang ditulis dalam C++ didukung. Trainium juga mendukung pembulatan stokastik, suatu metode pembulatan secara probabilistik untuk mencapai performa tinggi dan akurasi yang lebih tinggi dibandingkan dengan mode pembulatan warisan.
Instans Trn1 yang didukung oleh Trainium lebih hemat energi hingga 25% untuk pelatihan DL dibandingkan instans EC2 komputasi terakselerasi yang setara. Instans Trn1 membantu Anda mencapai tujuan keberlanjutan saat melatih model ultra-besar.

Video

Tayangan di balik layar Infrastruktur AI generatif di Amazon
Percepat DL dan berinovasi lebih cepat dengan AWS Trainium
Memperkenalkan Instans Trn1 Amazon EC2 yang ditenagai oleh AWS Trainium