Stanford DDRCC 로고

다중 모달 데이터를 활용하는 정밀 의학 연구에 AWS를 사용하는 Stanford University의 DDRCC

2022년

Stanford University의 Deep Data Research Computing Center(DDRCC)는 Stanford Synder Labs에서 시작된 여러 이니셔티브 중 하나로, 캘리포니아 팔로 알토에 있는 Department of Genetics at Stanford Medicine의 산하 기관입니다. 이 센터는 생물학과 컴퓨터 과학 간의 격차를 해소하고 정밀 의학 분야의 연구원들이 실질적인 의료 솔루션을 제공하도록 돕는 도구를 만드는 것을 목표로 합니다.

정밀 의학 연구를 지원하기 위해 DDRCC는 소비자를 위한 안전하고 확장 가능하며 상호 운용 가능한 건강 관리 시스템인 My Personal Health Dashboard(MyPHD)를 만들었습니다. MyPHD는 Amazon Web Services(AWS)를 사용하는 연구원에게 효율적인 데이터 수집 기능, 저장 기능, 실시간에 가까운 분석 기능을 제공합니다. 또한 이 팀은 연구원들이 코드와 데이터를 교육하고 혁신하며 관련 협업을 진행할 수 있는 최초의 서버리스 정밀 의학 교육 솔루션인 Stanford Data Ocean(SDO)을 개발했습니다. AWS를 기반으로 구축한 DDRCC는 클라우드의 탄력성, 확장성 및 보안을 활용하여 소비자와 생물학자 모두에게 이점을 제공하며 정밀 의학 분야를 개선하고 있습니다.

DDRCC 팀
kr_quotemark

전 세계 어디에서든 이 대규모 의료 데이터 세트에 액세스할 수 있습니다. AWS에서 인프라를 운영한 덕분에 이 같은 환경을 구축할 수 있었습니다.”

Amir Bahmani 박사
Stanford, Deep Data Research Computing Center(DDRCC) 소장

다중 모달 데이터를 사용한 정밀 의학 연구용 솔루션 설계

정밀 의학 연구는 다중 모달 데이터(예: 유전체, 미생물 및 단백질 데이터)를 개인별로 분석하여 임상의와 연구원이 환자를 위한 개인별 맞춤 치료를 제공할 수 있게 합니다. 웨어러블 센서, 전자 의료 기록, 분자 프로필에서 파생된 대량의 데이터는 여기에 또 다른 측면의 정보를 추가로 제공합니다. 확장성이 높아지고 복잡성이 커짐에 따라, 데이터 가용성, 획득, 저장, 통합 및 분석과 관련한 새로운 해결 과제가 발생합니다. 따라서 연구원은 민첩하고 탄력적인 데이터 전략을 필수적으로 갖추어야 합니다. Stanford University 유전학과 학과장 겸 교수인 Michael Snyder 박사는 “딥 데이터는 의학의 미래입니다. 개인별로 건강 상태를 모니터링하고 진단, 예후 관리 및 치료를 지원하려면 딥 데이터가 필요합니다”라고 말합니다.

DDRCC의 MyPHD는 대규모 생체 인식 데이터 분석을 위한 안전하고 포괄적인 환경을 제공합니다. 또한 복잡한 건강 데이터 세트를 저장, 구성 및 처리하고, 개인별/모집단별로 실시간에 가까운 데이터 분석과 시각화를 지원할 수 있습니다. 이 시스템은 진단 및 의료 처방의 정확성을 높이고 정밀 의학을 개선하도록 설계되었습니다. DDRCC는 워크로드 수에 따라 MyPHD용 리소스를 확장하여 개인별 건강 관리를 위한 참가자 데이터의 대규모 분석을 지원할 수 있습니다. 또한 대량의 매우 민감한 개인 정보를 처리하는 의료 애플리케이션의 기반으로서 AWS 보안 서비스를 사용합니다.

정밀 의학에서는 다양한 다중 모달 데이터 세트를 통합하여 추론을 도출하는 것이 중요합니다. 일반적으로 이러한 데이터 세트는 크기가 크며 다양한 소스에 분산되어 있습니다. 연구원에게는 이러한 대규모 데이터 세트에 복잡한 계산 알고리즘을 적용하는 데 필요한 컴퓨팅 및 스토리지 구성을 적절하게 결정하는 것이 중요합니다. DDRCC 팀은 연구원들이 코드를 사용한 실험에 리소스를 효율적으로 할당할 수 있도록 SDO를 개발했습니다. 연구원들은 SDO를 사용하여 정밀 의학과 관련한 중요한 문제를 탐구하고 혁신적인 솔루션을 확장할 수 있습니다. DDRCC는 AWS에서 SDO 워크로드를 실행함으로써 엄격한 보안 요구 사항을 충족하는 동시에 높은 확장성을 실현했습니다.

AWS를 기반으로 다중 모달 데이터 분석을 위한 혁신적인 솔루션 구축

생물학자들이 중요한 의학 연구를 완수할 수 있도록 돕기 위해 DDRCC는 Amazon SageMakerService Workbench on AWS를 사용합니다. 생물정보학자들은 SageMaker에서 완전관리형 인프라, 도구 및 워크플로를 활용해 거의 모든 사용 사례에 맞는 기계 학습 모델을 구축, 훈련, 배포할 수 있습니다. DDRCC 팀에서는 Service Workbench on AWS를 사용하여 연구자에게 필요한 데이터, 도구 및 컴퓨팅 파워에 대한 안전하고 반복 가능한 연동 액세스 제어를 지원합니다. 연구원들은 업계 최고의 확장성과 데이터 가용성 및 보안과 성능을 갖춘 객체 스토리지 서비스인 Amazon Simple Storage Service(S3)에서 대규모 데이터 세트에 안전하게 액세스할 수 있습니다.

MyPHD 및 SDO의 데이터를 처리하려면 높은 확장성이 요구되므로, DDRCC는 클라우드에서 안전하고 규모 조정이 가능한 컴퓨팅 파워를 제공하는 웹 서비스인 Amazon Elastic Compute Cloud(Amazon EC2)를 사용합니다. Stanford University DDRCC의 연구 개발 책임자인 Arash Alavi 박사는 “이제 저희는 MyPHD의 규모를 조정하여 다양한 사용자 수를 지원할 수 있을 뿐만 아니라 워크로드 수에 따라 알고리즘을 확장할 수도 있습니다”라고 말합니다. 또한 DDRCC 팀은 대규모 유전체학 및 전사체학 애플리케이션의 전처리 파이프라인을 실행하기 위해, 유전체학 및 생명 과학 고객을 위한 오픈 소스 도구인 Amazon Genomics CLI와 거의 모든 규모에서 완전관리형 배치 처리를 지원하는 서비스인 AWS Batch를 사용합니다. Amazon Genomics CLI는 클라우드 인프라 배포를 간소화하고 자동화하며, AWS Batch는 AWS에서 수십만 개의 배치 컴퓨팅 작업을 간단하게 실행하도록 지원합니다.

또한 DDRCC는 Amazon S3에 저장된 데이터를 표준 SQL로 손쉽게 분석할 수 있는 대화식 쿼리 서비스인 Amazon Athena를 사용합니다. 이 서비스는 매우 탄력적이기 때문에 연구원이 필요에 따라 SDO와 MyPHD에서 수집한 데이터를 쿼리하고 프로젝트 진행 속도를 높일 수 있습니다. 또한 Athena는 서버리스 서비스이므로 DDRCC가 인프라를 관리할 필요가 없습니다. DDRCC 팀은 실행한 쿼리에 대해서만 비용을 지불하므로 비용이 절감됩니다. Stanford University DDRCC 소장인 Amir Bahmani 박사는 “워크로드의 규모에 따라 리소스를 동적으로 조정할 수 있는 이 종량제 모델은 놀랍습니다”라고 말합니다.

보안은 의료 데이터를 처리하는 애플리케이션의 주요 요구 사항입니다. DDRCC의 솔루션은 보호 대상인 개인 건강 정보를 사용하거나 저장하거나 처리하지 않으며, 전송 중 데이터와 저장된 데이터는 모두 완전히 암호화되고 익명화됩니다. 고도의 보안을 유지하기 위해 DDRCC는 팀이 웹 및 모바일 앱에 사용자 가입, 로그인 및 액세스 제어를 추가할 수 있도록 하는 서비스인 Amazon Cognito를 비롯한 AWS 서비스를 도입했습니다. Bahmani는 “AWS가 제공하는 보안 기능에는 저희가 데이터를 보호하는 데 사용하는 기본 로깅, 감사, 모니터링 기능이 포함됩니다”라고 말합니다. 

정밀 의학과 관련한 협업

DDRCC 팀은 AWS를 기반으로 MyPhD 및 SDO 솔루션을 설계하여 대규모 의료 데이터베이스를 안전하고 빠르게, 낮은 비용으로 가져오고, 쿼리하고, 분석할 수 있도록 했습니다. VA Palo Alto Health Care System의 정밀 의학국 부국장이자 Stanford University 의대 교수인 Philip Tsao 박사는 “저희가 사용하는 도구마다 고유한 요구 사항이 있습니다. 특히 연구 환경 외부로 이동하여 임상용으로 사용하는 도구인 경우 더욱 그렇습니다”라며, “확장 가능하고 안전한 의료 애플리케이션을 설계하려면 다분야 전문가 팀을 구성하고 효과적인 협업을 증진하는 것이 중요합니다”라고 덧붙입니다.
 
AWS의 지원은 DDRCC에게 있어 매우 중요했고, 이 회사는 앞으로도 계속 AWS 서비스를 사용하여 클라우드를 기반으로 혁신적이고 창의적인 정밀 의학 솔루션을 설계할 계획입니다. Bahmani는 “세계 어디에서든 이러한 대규모 의료 데이터 세트에 액세스할 수 있습니다. 저희는 AWS를 기반으로 인프라를 운영함으로써 이를 실현했습니다”라고 말합니다.

Stanford Deep Data Research Computing Center 소개

Stanford Deep Data Research Computing Center는 캘리포니아 팔로 알토의 Stanford Medicine 유전학부 산하 기관입니다. 이 팀은 대규모 생물의학 애플리케이션을 위한 체계적이고 지능화된 솔루션을 설계하고 개발합니다.

AWS의 이점

  • 정밀 의학 솔루션의 보안 강화
  • 거의 모든 사용자 수에 맞추어 MyPHD의 확장성 보장
  • 교육용 SDO의 탄력성 개선
  • 종량제 모델로 비용 절감
  • 공동 연구를 위한 적응성 개선

사용된 AWS 서비스

Service Workbench on AWS

Service Workbench on AWS는 IT 팀에서 연구자에게 필요한 데이터, 도구 및 컴퓨팅 파워에 대한 안전하고 반복 가능한 연동 액세스 제어를 제공하도록 지원합니다.

자세히 알아보기 »

Amazon Athena

Amazon Athena는 표준 SQL을 사용해 Amazon S3에 저장된 데이터를 간편하게 분석할 수 있는 대화식 쿼리 서비스입니다.

자세히 알아보기 »

Amazon S3

Amazon Simple Storage Service(Amazon S3)는 업계 최고의 확장성과 데이터 가용성 및 보안과 성능을 제공하는 객체 스토리지 서비스입니다.

자세히 알아보기 »

Amazon EC2

Amazon EC2는 안전하고 크기 조정이 가능한 컴퓨팅 용량으로 거의 모든 워크로드를 지원합니다.

자세히 알아보기 »

Amazon Cognito

Amazon Cognito를 사용하면 웹과 모바일 앱에 사용자 가입, 로그인 및 액세스 제어 기능을 빠르고 쉽게 추가할 수 있습니다.

자세히 알아보기 »


시작하기

모든 산업에서 다양한 규모의 조직이 AWS를 통해 매일 혁신하고 임무를 수행하고 있습니다.
지금 전문가와 상담하고 AWS 클라우드로의 여정을 시작하세요.