Questa guida ti aiuta a connettere strumenti di dati e file di sistema di laboratorio per le scienze della vita al cloud AWS, tramite Internet o una connessione diretta a bassa latenza. Puoi ridurre le spese di archiviazione per i dati a cui si accede con meno frequenza o renderli accessibili per attività di calcolo ad alte prestazioni in ambiti come la genomica e l'imaging, oltre ad altri carichi di lavoro intensivi, tutto su AWS.
Diagramma dell'architettura
Fase 1
Un tecnico di laboratorio esegue un esperimento o un test e i risultati vengono scritti in una cartella su un file server on-premise. Un'attività AWS DataSync è impostata per sincronizzare i dati dall'archiviazione locale a un bucket in Amazon Simple Storage Service (Amazon S3).
Fase 2
I dati vengono trasferiti nel cloud AWS tramite Internet o attraverso una connessione diretta a bassa latenza che evita Internet, come AWS Direct Connect.
Fase 3
I notebook di laboratorio elettronici (ELN) e i sistemi di gestione delle informazioni di laboratorio (LIMS) condividono i metadati di esperimenti e test in modo bidirezionale con il cloud AWS tramite eventi e API. Scopri di più su questa integrazione nella Guida per l'implementazione di un data mesh di laboratorio su AWS.
Fase 4
Le entità partner come un'organizzazione di ricerca a contratto (CRO) possono caricare i risultati degli studi su Amazon S3 utilizzando AWS Transfer Family per FTP, SFTP o FTPS.
Fase 5
È possibile ottimizzare i costi di archiviazione scrivendo i dati degli strumenti in un bucket S3 configurato per un accesso non frequente. Identifica i modelli di accesso all'archiviazione S3 per configurare in modo ottimale la policy del ciclo di vita dei bucket S3 e trasferire i dati su Amazon S3 Glacier.
Fase 6
Attraverso l'uso di Amazon FSx per Lustre, i dati vengono resi disponibili per il calcolo ad alte prestazioni (HPC) nel cloud, supportando attività in ambiti come la genomica e l'imaging, oltre ad altri carichi di lavoro intensivi, al fine di offrire un file system condiviso con una bassa latenza nell'ordine dei millisecondi.
Fase 7
Le pipeline bioinformatiche sono orchestrate con AWS Step Functions, AWS HealthOmics e Batch AWS per un calcolo flessibile in termini di CPU e GPU.
Fase 8
Il machine learning è condotto con un kit di strumenti di intelligenza artificiale e machine learning (IA/ML) che utilizza Amazon SageMaker per l'ingegneria delle funzionalità, l'etichettatura dei dati, l'addestramento dei modelli, l'implementazione e le operazioni di machine learning. Amazon Athena viene utilizzato per query SQL flessibili.
Fase 9
I ricercatori che utilizzano applicazioni on-premise per l'analisi e il reporting dei dati possono visualizzare e accedere ai dati in Amazon S3 utilizzando Network File System (NFS) o Server Message Block (SMB) tramite Gateway di file Amazon S3.
Principi di Well-Architected
Il framework AWS Well-Architected consente di valutare i pro e i contro delle decisioni prese durante il processo di creazione di sistemi nel cloud. I sei principi del framework consentono di apprendere le best practice architetturali per la progettazione e il funzionamento di sistemi affidabili, sicuri, efficienti, convenienti e sostenibili. Grazie allo strumento AWS Well-Architected, disponibile gratuitamente nella Console di gestione AWS, puoi rivedere i tuoi carichi di lavoro rispetto a queste best practice rispondendo a una serie di domande per ciascun principio.
Il diagramma dell'architettura sopra riportato è un esempio di una soluzione creata tenendo conto delle best practice Well-Architected. Per essere completamente Well-Architected, dovresti seguire il maggior numero possibile di best practice.
-
Eccellenza operativa
Con l'emergere di nuove origini dati e nuovi partner, è possibile impiegare diversi servizi di trasferimento dati per adattarsi a questi cambiamenti nei modelli di accesso. Per ambienti distribuiti su più siti, Gateway di file S3 può essere utilizzato per effettuare il trasferimento mantenendo una cache locale per altre applicazioni. Transfer Family consente alle entità partner come le CRO di caricare facilmente i risultati degli studi.
-
Sicurezza
Per garantire la sicurezza dei dati, ti consigliamo di proteggere le credenziali degli account AWS e configurare account utente individuali mediante AWS Identity and Access Management (IAM), assegnando ad ogni utente solo le autorizzazioni necessarie per le proprie attività lavorative. Inoltre, ti consigliamo l'uso della crittografia a riposo, mentre i servizi offrono per impostazione predefinita la crittografia in transito.
-
Affidabilità
DataSync sfrutta uno o più endpoint VPC per garantire che se una zona di disponibilità non è disponibile, l'agente possa raggiungere un altro endpoint. DataSync è un servizio scalabile che si avvale di una gamma di agenti per spostare i dati. Le attività e gli agenti possono essere dimensionati in base alla richiesta e alla quantità di dati da migrare.
DataSync registra tutti gli eventi su Amazon CloudWatch. Se un'attività non può essere completata, è possibile intraprendere operazioni per comprendere meglio il problema e dove si verifica l'errore. Una volta completate le attività, è possibile avviare processi post-elaborazione per completare la fase successiva della procedura della pipeline.
Amazon S3 offre un'infrastruttura di archiviazione estremamente durevole, concepita per l'archiviazione di dati mission-critical e primari.
-
Efficienza delle prestazioni
L'archiviazione offerta da FSx per Lustre assicura latenze inferiori al millisecondo, velocità di trasmissione effettiva fino a centinaia di gigabyte al secondo e milioni di IOPS.
-
Ottimizzazione dei costi
Grazie all'utilizzo di tecnologie serverless che si dimensionano on demand, pagherai soltanto le risorse che utilizzi. Per ottimizzare ulteriormente i costi, puoi interrompere gli ambienti notebook in SageMaker quando non li utilizzi. Se decidi di non utilizzare il pannello di controllo di visualizzazione di Amazon QuickSight, puoi optare per non implementarlo al fine di risparmiare sui costi.
I costi di trasferimento dati si suddividono in due aree principali: DataSync, per il quale si applica una tariffa di trasferimento per GB, e i dati trasferiti tramite Direct Connect o VPN. Inoltre, potrebbero essere addebitati costi aggiuntivi per le zone di disponibilità incrociata se vengono utilizzati endpoint VPC.
-
Sostenibilità
I parametri di CloudWatch forniscono agli utenti la possibilità di prendere decisioni informate basate sui dati, attraverso l'uso di avvisi e l'analisi delle tendenze. Tramite un ampio utilizzo dei servizi gestiti e della scalabilità dinamica, potrai ridurre l'impatto ambientale dei servizi di back-end. La maggior parte dei componenti è autosufficiente.
Risorse per l'implementazione
Viene fornita una guida dettagliata da sperimentare e utilizzare all'interno del tuo account AWS. Ogni fase della creazione della guida, inclusa l'implementazione, l'utilizzo e la pulizia, viene esaminata per prepararla all'implementazione.
Il codice di esempio è un punto di partenza. È convalidato dal settore, prescrittivo ma non definitivo, ed è il punto di partenza per iniziare a lavorare.
Contenuti correlati
Building Digitally Connected Labs with AWS
Questo post illustra gli strumenti, le best practice e i partner che aiutano i laboratori di scienze biologiche a sfruttare appieno la scalabilità e le prestazioni del cloud AWS.
Linee guida per un data mesh di laboratorio su AWS
Questa guida dimostra come creare un sistema di gestione dei dati scientifici che integri sia i dati che il software degli strumenti di laboratorio con pipeline di governance dei dati, scoperta dei dati e bioinformatica nel cloud, catturando gli eventi chiave dei metadati lungo il percorso.
Resilience crea un data mesh globale per la connettività di laboratorio su AWS
Questo studio di caso illustra come Resilience, un innovatore nel campo della bioproduzione, stia rivoluzionando il metodo di produzione dei nuovi farmaci attraverso una rete connessa per il trasferimento dei dati su AWS.
Avvertenza
Il codice di esempio, le librerie software, gli strumenti della linea di comando, le proof of concept, i modelli e le altre tecnologie correlate (comprese tutte le tecnologie di cui sopra fornite dal nostro personale) vengono forniti all'utente sotto forma di contenuto AWS ai sensi dell'Accordo cliente AWS o del relativo accordo scritto stipulato tra l'utente e AWS (a seconda dei casi). Non bisogna utilizzare il contenuto AWS in questione negli account di produzione o sui dati di produzione o altri dati fondamentali. L'utente è responsabile dei test, della sicurezza e dell'ottimizzazione del contenuto AWS, come il codice di esempio, in modo appropriato per l'utilizzo in produzione sulla base delle pratiche e degli standard di qualità specifici. L'implementazione del contenuto AWS può comportare costi AWS per la creazione o l'utilizzo di risorse AWS addebitabili, quali le istanze Amazon EC2 in esecuzione o l'archiviazione Amazon S3.
Eventuali riferimenti a servizi o organizzazioni di terze parti contenuti in questa guida non implicano alcuna approvazione, sponsorizzazione o affiliazione tra Amazon o AWS e dette terze parti. La guida di AWS è un punto di partenza tecnico e l'integrazione con servizi di terze parti può essere personalizzata al momento dell'implementazione dell'architettura.