logo della società zoox

Zoox impiega AWS per il calcolo scalabile ad alte prestazioni per testare rapidamente i veicoli autonomi

2021

Zoox, società indipendente controllata da Amazon e azienda dedita alla creazione di veicoli autonomi, ha dovuto guardare oltre la sua infrastruttura locale per effettuare simulazioni che convalidassero la sicurezza dei suoi veicoli. I carichi di lavoro delle simulazioni erano soggetti a picchi, il che significa che Zoox sperimentava più domanda di potenza di calcolo rispetto alle macchine che poteva gestire. La società ha scelto di creare un modello di infrastruttura ibrida, rivolgendosi ad Amazon Web Services (AWS) per il calcolo ad alte prestazioni allo scopo di integrare il suo cluster supercomputer in-house. 

Sfruttando Amazon Elastic Compute Cloud (Amazon EC2), che offre una vasta soluzione per il calcolo con processore, opzioni di archiviazione e networking, sistema operativo e modalità di acquisto a scelta, in parallelo con Slurm Workload Manager open-source del Partner AWS SchedMD, Zoox ha velocizzato l’esecuzione dei test e lo sviluppo di grandi quantità di dati e migliorato la velocità di commercializzazione. Entro la fine del 2024 intende utilizzare centinaia di petabyte di dati su AWS.

Zoox Fully Autonomous Vehicle at Coit Tower San Francsico
kr_quotemark

Possiamo creare fino a 1.000 nodi in una singola regione AWS ed eseguire un processo nell’ordine di ore per ottenere velocemente dei risultati sulla ricerca critica ed esperimenti sullo sviluppo.”

Conrad Herrmann
Staff Software Engineer, Zoox

Espandere la potenza di calcolo in modo efficiente

Fondata nel 2014, Zoox sta costruendo una flotta di veicoli elettrici a batteria autonomi, simmetrici e bidirezionali, che verranno impiegati per il servizio di ride-hailing, progettato per ridurre la congestione e l’inquinamento negli ambienti urbani. I suoi veicoli danno priorità all’esperienza del passeggero rispetto a quella del guidatore; i posti a sedere promuovono l’interazione sociale, poiché i passeggeri siedono l’uno di fronte all’altro. Ogni veicolo a guida bidirezionale può raggiungere un parcheggio, fare scendere i passeggeri e quindi uscire dallo spazio di sosta come se stesse avanzando.  La simulazione di ampi e vari scenari è fondamentale per lo sviluppo e la produzione di questi veicoli al fine di verificarne la sicurezza.

Zoox ha un cluster locale che fornisce molta della potenza di calcolo richiesta per i diversi carichi di lavoro – perlopiù simulazioni, ma anche machine learning per migliorare la capacità percettiva, nonché l’importazione e l’elaborazione di dati. Tuttavia, seppure l’azienda sia cresciuta, i suoi carichi di lavoro hanno registrato fortissime fluttuazioni, talvolta superando la capacità del cluster locale, che è difficile da dimensionare in modo efficiente. Zoox ha dovuto espandere il numero delle macchine per gestire il volume di calcolo.

La società ha quindi scelto AWS perché le avrebbe dato la scalabilità e la flessibilità per utilizzare e pagare solo la potenza di calcolo laddove è necessaria. Zoox sarebbe quindi in grado di reindirizzare le sue risorse verso nuovi progetti innovativi per risolvere complesse sfide tecniche. “Utilizziamo AWS per gestire carichi di lavoro specializzati che devono avvicinarsi ai dati”, afferma Conrad Herrmann, Staff Software Engineer di Zoox. Anche Slurm Workload Manager di SchedMD, che ottimizza la velocità, il throughput e il consumo di risorse di carichi di lavoro mission-critical per il calcolo ad alte prestazioni e l’intelligenza artificiale, utilizza AWS. “Vi è solo un numero limitato di controller di processi che le persone utilizzano nel mondo del calcolo ad alte prestazioni e Slurm è un vecchio standby”, afferma Herrmann. “Eravamo convinti che fosse perfetto per noi.”

Utilizzo di un modello ibrido per aumentare velocità, collaborazione e risparmi

Per cominciare, Zoox ha iniziato a testare un carico di lavoro su AWS che estrae dati da Amazon Simple Storage Service (Amazon S3) – che i clienti possono impiegare per archiviare e proteggere qualsiasi quantità di dati per una serie di casi d’uso – e quindi a indicizzarlo per individuare i problemi che sarebbero potuti emergere. Quindi Zoox ha creato delle versioni sperimentali del suo software, come un’attività di machine learning progettata per l’esecuzione su AWS, abbinandola a un’istanza di Amazon EC2 per misurarne il livello di prestazioni. Successivamente, Zoox ha realizzato dei carichi di lavoro di produzione e li ha eseguiti su AWS per verificare se si sarebbero conclusi in un certo lasso di tempo. “Utilizziamo AWS per queste situazioni allo scopo di ottenere dei risultati più rapidamente, in modo da poter accelerare lo sviluppo”, spiega Herrmann. “Se il veicolo non agisce come dovrebbe nelle simulazioni di sicurezza, modifichiamo il comportamento del sistema di guida e riproviamo fino a quando non otteniamo il comportamento appropriato in milioni di situazioni diverse.”

Basandosi su AWS per la potenza di calcolo, Zoox può selezionare le istanze di Amazon EC2 che si adattano alle esigenze di prezzo, affidabilità e disponibilità, con scale diverse di accesso a computer, memoria e rete. “Dobbiamo scoprire qual è la migliore architettura dell’ambiente quanto a costi e risultati”, sostiene Herrmann. “Se si riducono tutti gli altri costi, ma poi si devono attendere i risultati, si aumenta il costo complessivo per l’azienda. Su AWS possiamo elaborare un modo efficace di sviluppare il veicolo senza ritardi.” Inoltre, la flessibilità permette ai team di Zoox di collaborare in modo più efficiente: “Vi è una complicata serie di interazioni tra costi, architettura e processi”, dice Herrmann. “Dobbiamo operare in stretta collaborazione in diverse discipline per equilibrare ogni aspetto. Utilizzare AWS ci consente di mettere insieme tutte le tessere del mosaico per eseguire questi processi in modo efficiente.”

Inoltre, Zoox impiega AWS per poter gestire i periodi di elaborazione intensiva. “Quando i progettisti dei veicoli apportano una modifica al sistema di controllo di guida, tali modifiche devono essere convalidate con centinaia di ore di tempo CPU e GPU”, spiega Herrmann. “Utilizzando Slurm e AWS, il nostro cluster è in grado di aumentare a più del doppio il numero di CPU e GPU disponibili per le attività di calcolo. Questa capacità di espansione accelera la percezione del sensore, il machine learning e gli scenari di guida simulati che sono gli elementi essenziali per realizzare un sistema di guida autonomo che sia comodo e sicuro.”

Per gestire le istanze di Amazon EC2 per servizi a esecuzione prolungata e processi occasionali, Zoox utilizza Amazon Elastic Kubernetes Service (Amazon EKS), che aiuta le aziende a gestire i cluster e le applicazioni Kubernetes in ambienti ibridi. Slurm utilizza cloud privati virtuali contenenti istanze di Amazon EC2 che sono allocate in modo dinamico in base alla domanda. Quando si invia un processo al controller di Slurm, questo può scegliere di eseguire il processo nel cloud e selezionare quante istanze utilizzare. “Possiamo creare fino a 1.000 nodi in una singola regione AWS ed eseguire un processo nell’ordine di ore per ottenere dei risultati sulla ricerca critica ed esperimenti sullo sviluppo, senza attendere che tali nodi siano disponibili nei nostri data center locali o senza costruire un altro data center”, afferma Herrmann.

Zoox archivia decine di petabyte di dati in Amazon S3. “Il nostro storage deve dimensionare molto velocemente ai petabyte di dati mentre aumentiamo il numero di veicoli e di elaborazioni e simulazioni che eseguiamo”, spiega Herrmann. Slurm lancia le istanze di Amazon EC2 che possono accedere velocemente ai dati ed eseguire elaborazioni in modo efficiente. Zoox monitora i dati in Amazon S3 tramite Amazon CloudWatch, che raccoglie i dati operativi e di monitoraggio e fornisce una visualizzazione unificata delle risorse, delle applicazioni e dei servizi AWS eseguiti su AWS e i server locali. “Grazie ad Amazon CloudWatch siamo in grado di comprendere cosa avviene e cosa funziona”, spiega Herrmann.

Dimensionare per archiviare e simulare con centinaia di petabyte di dati su AWS

Nel corso dei prossimi anni, Zoox porterà i suoi carichi di lavoro dalla fase sperimentale alla fase di produzione, che prevede utilizzerà centinaia di petabyte di dati. Su AWS, Zoox ha creato un’infrastruttura ibrida che importa una massiccia quantità di dati in modo rapido ed economico ed esegue ampie simulazioni, accelerando i test e lo sviluppo dei veicoli autonomi. “Grazie ai servizi AWS gestiti possiamo creare dei sistemi complessi che ci permettono di concentrarci sulla nostra mission, senza preoccuparci di tutti gli altri sistemi”, afferma Herrmann. “Se troviamo un problema, AWS lo risolve per noi.”


Informazioni su Zoox

Fondata nel 2014, Zoox è un’azienda dedita alla creazione di veicoli autonomi che sta costruendo una flotta di veicoli elettrici a batteria autonomi, simmetrici e bidirezionali, che verranno impiegati per il servizio di ride-hailing, progettato per ridurre la congestione e l’inquinamento negli ambienti urbani.

Vantaggi di AWS

  • Archivia ed elabora decine di petabyte di dati
  • Crea velocemente fino a 1.000 nodi
  • Facilita un’infrastruttura ibrida
  • Intensifica la collaborazione tra i team
  • Ottimizza i carichi di lavoro tramite le istanze di Amazon EC2
  • Intende utilizzare centinaia di petabyte di dati nei prossimi anni

Servizi AWS utilizzati

Amazon EC2

Amazon Elastic Compute Cloud (Amazon EC2) è un servizio Web che fornisce capacità di elaborazione sicura e scalabile nel cloud. È concepito per rendere più semplice il cloud computing su scala Web per gli sviluppatori.

Ulteriori informazioni »

Amazon S3

Amazon Simple Storage Service (Amazon S3) è un servizio di archiviazione di oggetti che offre scalabilità, disponibilità dei dati, sicurezza e prestazioni all'avanguardia nel settore.

Ulteriori informazioni »

Amazon EKS

Amazon Elastic Kubernetes Service (Amazon EKS) è un servizio gestito di container per eseguire e dimensionare le applicazioni Kubernetes nel cloud oppure on-premise.

Ulteriori informazioni »

Amazon CloudWatch

Amazon CloudWatch è un servizio di monitoraggio e osservabilità creato per ingegneri, sviluppatori, ingegneri responsabili dell'affidabilità del sito (SRE) e manager IT DevOps.

Ulteriori informazioni »


Nozioni di base

Organizzazioni di tutte le dimensioni in tutti i settori trasformano il proprio business e realizzano le loro missioni ogni giorno utilizzando AWS. Contatta i nostri esperti e inizia subito il tuo viaggio in AWS Cloud