Amazon SageMaker HyperPod

Reduzieren Sie den Zeitaufwand für das Training von Fundamentmodellen um bis zu 40 % und skalieren Sie effizient über mehr als tausend KI-Beschleuniger

Was ist Amazon SageMaker HyperPod?

Mit Amazon SageMaker HyperPod entfällt die undifferenzierte Schwerstarbeit, die mit der Entwicklung und Optimierung der Machine Learning (ML)-Infrastruktur verbunden ist. SageMaker HyperPod ist mit den verteilten Trainingsbibliotheken von SageMaker vorkonfiguriert, die es Ihnen ermöglichen, Trainings-Workloads automatisch auf über Tausend KI-Beschleunigern aufzuteilen, so dass Workloads für eine verbesserte Modellleistung parallel verarbeitet werden können. SageMaker HyperPod sorgt dafür, dass Ihr FM-Training nicht unterbrochen wird, indem es regelmäßig Checkpoints speichert. Es erkennt automatisch einen Hardwarefehler, wenn dieser auftritt, repariert oder ersetzt die fehlerhafte Instance und setzt das Training ab dem zuletzt gespeicherten Checkpoint fort, sodass Sie diesen Vorgang nicht mehr manuell verwalten müssen. Die robuste Umgebung ermöglicht es Ihnen, Modelle wochen- oder monatelang in einer verteilten Umgebung ohne Unterbrechung zu trainieren und so die Trainingszeit um bis zu 40 % zu reduzieren. SageMaker HyperPod ist außerdem hochgradig anpassbar, sodass Sie FM-Workloads effizient ausführen und skalieren und Rechenkapazität problemlos zwischen verschiedenen Workloads teilen können, von groß angelegten Trainings bis hin zur Inferenz.

Vorteile von SageMaker HyperPod

Amazon SageMaker HyperPod ist mit verteilten Trainingsbibliotheken von Amazon SageMaker vorkonfiguriert, sodass Sie Ihre Modelle und Trainingsdatensätze automatisch auf mehrere AWS-Cluster-Instances aufteilen können und so eine effiziente Skalierung der Trainingsworkloads erzielen.
Die verteilten Trainingsbibliotheken von Amazon SageMaker optimieren Ihren Trainingsauftrag für die AWS-Netzwerkinfrastruktur und Clustertopologie durch zwei Techniken: Datenparallelität und Modellparallelität. Bei der Modellparallelität werden Modelle, die für eine einzelne GPU zu groß sind, in kleinere Teile unterteilt, ehe sie für das Training auf mehrere GPUs verteilt werden. Bei der Datenparallelität werden große Datensätze aufgeteilt, um sie gleichzeitig zu trainieren und so die Trainingsgeschwindigkeit zu erhöhen.
SageMaker HyperPod ermöglicht eine belastbarere Trainingsumgebung, indem es Fehler automatisch erkennt, diagnostiziert und behebt, sodass Sie FMs über Monate hinweg ohne Unterbrechung trainieren können.

Automatische Zustandsprüfung und Reparatur von Clustern

Wenn Instances während eines Trainings-Workloads defekt werden, erkennt SageMaker HyperPod automatisch fehlerhafte Knoten und tauscht sie gegen gesunde aus. Um fehlerhafte Hardware zu erkennen, führt SageMaker HyperPod regelmäßig eine Reihe von Zustandsprüfungen für GPU- und Netzwerkintegrität durch. 

Leistungsstarke verteilte Trainingsbibliotheken

Mit den verteilten Trainingsbibliotheken von SageMaker können Sie hoch skalierbare und kostengünstige benutzerdefinierte Daten parallel ausführen und parallele Deep-Learning-Trainingsaufträge modellieren. SageMaker HyperPod ist mit verteilten SageMaker-Bibliotheken vorkonfiguriert. Mit nur wenigen Codezeilen können Sie Datenparallelität in Ihren Trainingsskripten aktivieren. Mit SageMaker HyperPod können Sie verteilte Trainings schneller durchführen, indem Sie Ihre Modelle und Trainingsdatensätze automatisch auf AWS-GPU-Instances aufteilen.

Weitere Informationen

Skalierbarkeit und optimierte Ressourcennutzung

Sie können SageMaker-HyperPod-Cluster mit einem konsistenten, Kubernetes-basierten Administratorerlebnis verwalten und betreiben. Auf diese Weise können Sie FM-Workloads effizient ausführen und skalieren, vom Training über die Feinabstimmung, das Experimentieren bis hin zur Inferenz. Sie können Rechenkapazität problemlos gemeinsam nutzen und für verschiedene Arten von Workloads zwischen Slurm und EKS wechseln.

Erweiterte Beobachtbarkeit für verbesserte Leistung

Sie können die integrierten ML-Tools in SageMaker HyperPod verwenden, um die Modellleistung zu verbessern. Amazon SageMaker mit TensorBoard hilft Ihnen beispielsweise, Entwicklungszeit zu sparen, indem die Modellarchitektur visualisiert wird, um Konvergenzprobleme zu identifizieren und zu beheben. Amazon SageMaker Debugger erfasst Metriken und profiliert Trainingsaufträge in Echtzeit. Die Integration mit Amazon CloudWatch Container Insights bietet tiefere Einblicke in die Leistung, den Zustand und die Auslastung von Clustern. 

Weitere Informationen »

Workload-Planung und -Orchestrierung

Die Benutzeroberfläche von SageMaker HyperPod ist mithilfe von Slurm oder Amazon EKS in hohem Maße anpassbar. Sie können alle benötigten Frameworks und Tools auswählen und installieren. Alle Cluster werden mit dem von Ihnen gewählten Instance-Typ und der von Ihnen gewählten Anzahl bereitgestellt und bleiben für Ihre Verwendung bei verschiedenen Workloads erhalten.