O que é o SageMaker HyperPod?
O AmazonSageMaker HyperPod elimina o trabalho pesado indiferenciado envolvido na criação e na otimização da infraestrutura de machine learning (ML) para o treinamento de modelos de base (FMs), reduzindo o tempo de treinamento em até 40%. O SageMaker HyperPod é pré-configurado com as bibliotecas de treinamento distribuídas do SageMaker, que permitem que os clientes dividam automaticamente as workloads de treinamento em milhares de aceleradores, para que as workloads possam ser processadas em paralelo para melhorar a performance do modelo. O SageMaker HyperPod também garante que os clientes possam continuar o treinamento do FM sem interrupções, salvando periodicamente os pontos de verificação. Quando ocorre uma falha de hardware durante o treinamento, o SageMaker HyperPod detecta automaticamente a falha, repara ou substitui a instância defeituosa e retoma o treinamento a partir do último ponto de verificação salvo, eliminando a necessidade de os clientes gerenciarem manualmente esse processo e ajudando-os a treinar por semanas ou meses em um ambiente distribuído sem interrupções.
Benefícios do SageMaker HyperPod
Depure e melhore a performance do modelo
Você pode usar ferramentas de ML criadas especificamente no SageMaker HyperPod para melhorar a performance do treinamento. O Amazon SageMaker com TensorBoard ajuda você a economizar tempo de desenvolvimento visualizando a arquitetura do modelo para identificar e corrigir problemas de convergência, como perda de validação que não convergem ou gradientes que estão desaparecendo.
Bibliotecas de treinamento distribuídas otimizadas
O SageMaker HyperPod é pré-configurado com bibliotecas distribuídas do SageMaker. Com apenas algumas linhas de código, você pode habilitar o paralelismo de dados em seus scripts de treinamento. O SageMaker HyperPod agiliza a execução de treinamentos distribuídos ao dividir automaticamente seus modelos e conjuntos de dados de treinamento em instâncias de GPU da AWS.
Saiba mais »
Verificação e reparo automáticos da integridade do cluster
Se alguma instância apresentar defeito durante uma workload de treinamento, o SageMaker HyperPod detecta e troca automaticamente nós defeituosos por outros saudáveis. Para detectar hardware defeituoso, o SageMaker HyperPod executa regularmente uma série de verificações de integridade da GPU e da rede.