Le DDRCC de l'université de Stanford utilise AWS pour la recherche en médecine de précision en exploitant des données multimodales
2022
Le Deep Data Research Computing Center (DDRCC) de l'université de Stanford, l'une des nombreuses initiatives émanant de Stanford Synder Labs, fait partie du département de génétique de Stanford Medicine à Palo Alto, en Californie. Son objectif est de créer des outils qui comblent le fossé entre la biologie et l'informatique et d'aider les chercheurs en médecine de précision à fournir des solutions médicales tangibles.
Pour faciliter la recherche en médecine de précision, le DDRCC a créé My Personal Health Dashboard (MyPhD), un système de gestion de la santé sécurisé, pouvant être mis à l'échelle et interopérable destiné aux consommateurs. MyPhD fournit des fonctionnalités efficaces d'acquisition, de stockage et d'analyse en temps quasi réel aux chercheurs utilisant Amazon Web Services (AWS). L'équipe a également développé Stanford Data Ocean (SDO), la première solution pédagogique de médecine de précision sans serveur permettant aux chercheurs de former, d'innover et de collaborer sur du code et des données. En s'appuyant sur AWS, le DDRCC utilise l'élasticité, la capacité de mise à l'échelle et la sécurité du cloud pour bénéficier à la fois aux consommateurs et aux biologistes, et faire progresser la médecine de précision.
Vous pouvez vous trouver n'importe où dans le monde et accéder à ces grands jeux de données médicales. Nous sommes parvenus à ce résultat en exécutant notre infrastructure sur AWS. »
Dr Amir Bahmani
Directeur du Deep Data Research Computing Center (DDRCC), Stanford
Conception de solutions pour la recherche en médecine de précision à l'aide de données multimodales
La recherche en médecine de précision repose sur une compréhension individualisée des données multimodales (telles que les données génomiques, microbiomiques et protéomiques) afin que les cliniciens et les chercheurs puissent personnaliser le traitement pour les patients. La grande quantité de données dérivées de capteurs portables, de dossiers médicaux électroniques et de profils moléculaires ajoute une autre dimension. Cette échelle et cette complexité accrues soulèvent de nouveaux défis en matière de disponibilité, d'acquisition, de stockage, d'intégration et d'analyse des données. Il est donc impératif pour les chercheurs de disposer d'une stratégie de données agile et élastique. « Les données profondes sont l'avenir de la médecine. Nous en avons besoin pour surveiller la santé et pour établir des diagnostics, des pronostics et des traitements, le tout à un niveau personnel », explique le Dr Michael Snyder, président et professeur de génétique à l'université de Stanford.
MyPhD de DDRCC fournit un environnement sécurisé et complet pour l'analyse de données biométriques à grande échelle. Il peut stocker, organiser et traiter des jeux de données de santé complexes et prendre en charge l'analyse et la visualisation des données en temps quasi réel au niveau de l'individu et du groupe. Il est destiné à affiner la précision des diagnostics et des prescriptions médicales, et à améliorer la médecine de précision. Pour soutenir l'analyse à grande échelle des données des participants pour la gestion individuelle de la santé, le DDRCC peut mettre à l'échelle les ressources de MyPhD en fonction du nombre de charges de travail. Il utilise également les services de sécurité AWS comme base pour ses applications médicales, qui traitent de grands volumes de données personnelles très sensibles.
La médecine de précision repose sur l'intégration de jeux de données multimodaux disparates pour tirer des conclusions. En général, ces jeux de données sont volumineux et cloisonnés entre des sources disparates. Pour les chercheurs, il est important de déterminer les configurations de calcul et de stockage appropriées, nécessaires à l'application d'algorithmes de calcul complexes à ces jeux de données volumineux. L'équipe du DDRCC a développé SDO pour aider les chercheurs à allouer efficacement des ressources pour expérimenter du code. À l'aide de SDO, les chercheurs peuvent explorer des questions importantes relatives à la médecine de précision et développer des solutions innovantes. En exécutant des charges de travail SDO sur AWS, le DDRCC a atteint une capacité de mise à l'échelle élevée tout en répondant à des exigences de sécurité strictes.
Création de solutions innovantes sur AWS pour l'analyse des données multimodales
Pour améliorer la capacité des biologistes à mener à bien des recherches vitales en matière de santé, le DDRCC utilise Amazon SageMaker et Service Workbench sur AWS. À l'aide de SageMaker, les bioinformaticiens peuvent créer, former et déployer des modèles de machine learning pour pratiquement tous les cas d'utilisation avec une infrastructure, des outils et des flux de travail entièrement gérés. L'équipe utilise Service Workbench sur AWS pour faciliter le contrôle sécurisé, fédéré et renouvelable de l'accès aux données, aux outils et à la puissance de calcul dont les chercheurs ont besoin. Les chercheurs peuvent accéder en toute sécurité à des jeux de données volumineux sur Amazon Simple Storage Service (Amazon S3), un service de stockage d'objets doté d'une capacité de mise à l'échelle, d'une disponibilité des données, d'une sécurité et de performances de pointe.
Le DDRCC nécessite une capacité de mise à l'échelle élevée pour traiter les données issues de MyPhD et de SDO, et il s'appuie sur Amazon Elastic Compute Cloud (Amazon EC2), un service web qui fournit une capacité de calcul sécurisée et redimensionnable dans le cloud. « Non seulement nous pouvons mettre à l'échelle MyPhD et prendre en charge un nombre différent d'utilisateurs, mais nous pouvons également mettre à l'échelle nos algorithmes en fonction du nombre de charges de travail », explique le Dr Arash Alavi, responsable de la recherche et du développement du DDRCC à l'université de Stanford. Pour exécuter des pipelines de prétraitement pour des applications génomiques et transcriptomiques à grande échelle, l'équipe utilise également Amazon Genomics CLI, un outil open source destiné aux clients de la génomique et des sciences de la vie, et AWS Batch, un service de traitement par lots entièrement géré à pratiquement n'importe quelle échelle. Amazon Genomics CLI simplifie et automatise les déploiements d'infrastructures cloud, tandis qu'AWS Batch simplifie l'exécution de centaines de milliers de tâches de traitement par lots sur AWS.
Le DDRCC utilise également Amazon Athena, un service de requête interactif, pour faciliter l'analyse des données stockées dans Amazon S3 à l'aide du code SQL standard. Ce service étant très élastique, les chercheurs peuvent interroger les données collectées par SDO et MyPhD à la demande et avancer plus rapidement dans leurs projets. En outre, Athena fonctionne sans serveur, de sorte que le DDRCC ne dispose d'aucune infrastructure à gérer. L'équipe ne paie que pour les requêtes qu'elle exécute, ce qui réduit les coûts. « La capacité à mettre à l'échelle les ressources de manière dynamique en fonction de la taille de la charge de travail, grâce à ce modèle de paiement à l'utilisation, est étonnante », déclare le Dr Amir Bahmani, directeur du DDRCC à l'université de Stanford.
La sécurité est une exigence majeure pour les applications qui traitent des données médicales. Les solutions du DDRCC n'utilisent, ne stockent ni ne traitent d'informations de santé protégées, et toutes les données en transit et au repos sont entièrement chiffrées et anonymisées. Pour maintenir un haut niveau de sécurité, le DDRCC a adopté des services AWS tels qu'Amazon Cognito, un service qui permet aux équipes d'ajouter l'inscription, la connexion et le contrôle d'accès des utilisateurs aux applications web et mobiles. « Les fonctionnalités de sécurité prêtes à l'emploi fournies par AWS incluent la journalisation, l'audit et la surveillance que nous utilisons pour protéger nos données », explique Amir Bahmani.
Collaborer en matière de médecine de précision
À propos du Deep Data Research Computing Center de Stanford
Le Deep Data Research Computing Center de Stanford fait partie du département de génétique de Stanford Medicine à Palo Alto, en Californie. L'équipe travaille à la conception et au développement de solutions systématiques et intelligentes pour des applications biomédicales à grande échelle.
Avantages d'AWS
- Améliore la sécurité des solutions de médecine de précision
- Assure la capacité de mise à l'échelle de MyPhD pour pratiquement n'importe quel nombre d'utilisateurs
- Améliore l'élasticité de SDO à des fins pédagogiques
- Réduit les coûts grâce au modèle de paiement à l'utilisation
- Améliore l'adaptabilité pour la recherche collaborative
Services AWS utilisés
Service Workbench sur AWS
Amazon Athena
Amazon Athena est un service de requête interactif qui facilite l'analyse des données dans Amazon S3 à l'aide de la syntaxe SQL standard.
Amazon S3
Amazon Simple Storage Service (Amazon S3) est un service de stockage d'objets offrant une évolutivité, une disponibilité des données, une sécurité et des performances de pointe.
Amazon EC2
Amazon EC2 offre une capacité de calcul sécurisée et redimensionnable pouvant prendre en charge quasiment tout type de charge de travail.
Amazon Cognito
Démarrer
Les entreprises de toutes tailles et de tous les secteurs d'activités transforment et exécutent chaque jour leurs missions à l'aide d'AWS.
Contactez nos spécialistes et entamez votre transition vers le cloud AWS dès aujourd'hui.