Illumina DRAGEN on AWS를 사용하여 유전체학 데이터를 빠르게 분석하는 Baylor College of Medicine의 HGSC

2022년

Baylor College of Medicine(Baylor)의 Human Genome Sequencing Center(HGSC)는 미국 국립보건원의 All of Us 연구 프로그램에서 자금을 지원하는 몇 안 되는 유전체 시퀀싱 연구소 중 하나입니다. 2019년, HGSC는 대규모 유전체학 데이터 세트에 대한 확장성이 뛰어나고 안전한 분석 기능을 제공할 솔루션을 찾기 시작했습니다. HGSC는 AWS 어드밴스드 파트너인 Illumina와 협력하여, 시퀀싱 데이터에 대한 매우 정확하고 포괄적이며 효율적인 2차 유전체 분석을 제공하며 Field Programmable Gate Array(FPGA) 기술을 사용하여 가속화를 구현하는 생물정보학 솔루션인 Illumina DRAGEN(유전체학을 위한 동적 읽기 분석) Bio-IT 플랫폼을 철저히 평가했습니다. 

HGSC는 DRAGEN을 AWS 서비스와 함께 사용하여 하루에 수백 개의 게놈 샘플을 분석할 수 있게 되었습니다. 이 솔루션을 통해 Baylor는 미국 국립보건원의 All of Us 연구 프로그램과 같은 연구 이니셔티브에 대한 참여도를 높일 수 있었습니다. All of Us는 지원자 백만 명의 건강 및 유전자 데이터를 수집하고 분석하여 정밀 의학으로의 발전을 가속화하기 위한 전국적으로 시행되는 프로그램입니다.

컴퓨터로 작업하는 과학자
kr_quotemark

시퀀싱 기기에서 대량의 데이터가 수집되면 저희는 AWS에서 FPGA를 사용하여 해당 데이터를 신속하게 처리합니다.” 

Eric Venner
Baylor College of Medicine, Human Genome Sequencing Center 임상 정보학 그룹 부교수 겸 책임자

연구를 가속화할 솔루션 찾기

Baylor는 텍사스 휴스턴에 있는 보건 과학 대학입니다. 이 대학은 미국 국립보건원 기금의 평가 순위에서 20위를 차지했으며 유전학 분야에서는 1위를 차지했습니다. 2016년 Baylor는 임상용 유전체학 데이터를 준비하는 대규모 시퀀싱 작업을 지원하기 위해 HGSC 임상 연구소를 출범했습니다. HGSC는 Human Genome Project와 All of Us 연구 프로그램에서 중요한 역할을 수행했습니다. Baylor는 Johns Hopkins University 및 휴스턴의 University of Texas Health Science Center, 그리고 미국의 다른 그룹과 함께 유전자 연구 센터로 All of Us 프로그램에 참여하고 있습니다. 

Baylor가 이 프로그램에 참여하기 위해서는 HGSC를 확장하여 대규모 시퀀싱 워크로드를 지원하고 컴퓨팅 및 스토리지 관리를 간소화해야 했습니다. 또한 데이터 접근성과 기밀 정보를 통제하는 100여 가지 보안 요건과 연방 규정으로 이루어진 ISO/IEC 27001 등의 엄격한 규정 준수 표준을 충족해야 했습니다. 유전자 데이터는 통제 비기밀 정보(Controlled Unclassified Information)로 간주되며 추가적인 보호 통제가 적용됩니다. HGSC의 Richard Gibbs 이사는 “지금까지의 HIPAA 기준보다 몇 단계 더 높은 기준을 충족해야 했습니다”라고 말합니다. 

Baylor는 이전에 시퀀싱 및 소프트웨어 기술을 제공하는 파트너로서 Illumina와 협력해왔으며 2012년부터 유전체학 컴퓨팅에 AWS를 사용해왔습니다. All of Us 연구 프로그램에 참여하는 모든 연구 센터는 2차 분석을 위해 DRAGEN을 기반으로 표준화했습니다. 하지만 HGSC는 온프레미스에서 클라우드의 DRAGEN으로 마이그레이션하는 것이 팀원을 유치하고 유지하는 데 도움이 되는 등, 가장 즉각적이고 장기적인 효과가 있다는 것을 깨달았습니다. HGSC의 임상 정보학 그룹 책임자이자 부교수인 Eric Venner는 “사람들은 향후 수십 년 동안 인기를 끌 기술을 배우고 싶어하기 때문에 클라우드에서 작업하는 업무 환경은 직원을 유치하는 데 유리합니다. 이제 저희는 매우 유능한 신입 엔지니어들을 영입할 수 있게 되었습니다”라고 말합니다.

DRAGEN on AWS를 사용하여 정확성, 확장성 및 보안 확보

2019년 봄, Baylor 팀은 시퀀싱 데이터에서 변이를 식별하는 변이 호출 기술과 관련해 Illumina와 협력하기 시작했습니다. 2019년 가을, 이 팀의 엔지니어인 Noora Siddiqui는 구성 가능한 DRAGEN용 AWS 환경을 설정하는 AWS Quick Start인 Illumina DRAGEN on AWS를 사용하여 프로덕션 파이프라인을 구축하기 시작했습니다. 3주 후 첫 번째 확장 테스트가 수행되었고 3개월이 조금 넘었을 때 파이프라인이 가동되었습니다. Venner는 “AWS 기술 지원을 통해 파이프라인을 완성했습니다. 저희 엔지니어는 Illumina DRAGEN on AWS를 사용하여 새로운 프로덕션 시스템에 이 솔루션을 구축할 수 있었습니다”라고 말합니다.

 Baylor는 Illumina의 DRAGEN on AWS를 사용하여 필요에 따라 확장하고 이전보다 훨씬 빠르게 데이터를 처리할 수 있습니다. HGSC는 매월 약 5,000개의 게놈을 처리합니다. Gibbs는 “염기서열 분석기와 계획을 누구나 갖고 있지만, 한 달에 5,000개의 게놈을 안정적으로 생성하기는 엄청나게 어렵습니다. 그게 저희가 여기서 하는 일입니다. 수많은 엔지니어링 기술과 지원이 필요하지만 이는 업계에 큰 도움이 됩니다”라고 말합니다. 

Baylor의 DRAGEN 솔루션은 Amazon Elastic Compute Cloud(Amazon EC2) F1 인스턴스를 사용하여 게놈 데이터 분석을 가속화합니다. DRAGEN은 FPGA를 사용하여 맞춤형 하드웨어 가속화를 구현합니다. Venner는 “저희 워크로드에서는 짧은 시간에 갑작스러운 버스트가 발생합니다. 시퀀싱 기기에서 대량의 데이터가 수집되면 저희는 AWS에서 FPGA를 사용하여 해당 데이터를 신속하게 처리합니다”라고 말합니다. 이 센터에서는 Amazon EC2 F1 인스턴스를 Amazon EC2 스팟 인스턴스와 함께 사용하므로, 사용자가 Amazon EC2 온디맨드 인스턴스에 비해 90% 할인된 요금으로 내결함성 워크로드를 실행할 수 있습니다. Venner는 “저희는 스팟 인스턴스를 사용하여 컴퓨팅 비용을 절감할 수 있습니다”라고 말합니다. 

HGSC는 어디서나 원하는 양의 데이터를 검색할 수 있도록 구축된 객체 스토리지 서비스인 Amazon Simple Storage Service(S3)를 사용하여 라이브 데이터를 저장합니다. 즉시 사용할 필요가 없는 데이터는 자동으로 Amazon S3 Glacier로 전달됩니다. Amazon S3 Glacier는 데이터 아카이빙 및 장기 백업을 위한 안전하고 내구성이 뛰어나며 매우 저렴한 클라우드 스토리지 클래스를 제공합니다. Venner는 “AWS의 스토리지 관리와 자동화된 데이터 수명 주기는 매우 중요합니다”라고 말합니다. HGSC의 정보 기술 팀은 AWS를 사용하여 보안 및 규정 준수 표준을 충족합니다. Venner는 “새로운 클라우드 솔루션에서는 내장된 구성 요소가 많은 레거시 환경보다 더 간단하게 보안 감사를 수행할 수 있습니다”라고 말합니다.

HGSC의 DRAGEN 솔루션은 컨테이너화된 애플리케이션을 배포, 관리 및 확장하기 위한 완전관리형 컨테이너 오케스트레이션 서비스인 Amazon Elastic Container Service(Amazon ECS) 를 사용하므로, HGSC가 컴퓨팅 환경을 신속하게 구축할 수 있습니다. Venner는 “작업이 실행되는 환경을 캡처하는 것은 매우 중요합니다. 전통적으로 사람들은 한곳에서 다양한 유형의 작업을 수행하기 위해 복잡한 환경을 만들고 관리하곤 했습니다. 이제 저희는 실행 중인 작업에 적합한 환경을 만들기만 하면 되므로, 디버깅이 더 간단해졌습니다”라고 말합니다. 

의료 분야에 Illumina와 AWS 솔루션 적용

HGSC는 Illumina의 DRAGEN on AWS를 사용하여 자사 기술을 의료 실무에 완전히 통합하고자 합니다. HGSC의 인간 유전체 분석을 통해 개인의 건강상 위험을 예측하고, 기저 질환을 설명하고, 임상 관리 방식을 변경하여 환자에게 보다 포괄적인 치료 서비스를 제공할 수 있습니다. 예를 들어 HGSC는 최근 Texas Medical Center의 심혈관 클리닉과 공동으로 심혈관 질환과 관련한 유전자를 식별하는 데 초점을 맞춘 HeartCare 연구를 수행했습니다. Venner는 “저희는 주요 유전자의 고침투 심혈관 대립 유전자를 살펴보고 임상 치료 모델에서 개인이 해당 정보를 통해 어떤 이점을 얻을 수 있는지 살펴보았습니다”라고 말합니다.

앞으로 Baylor는 데이터 처리의 보안과 속도를 더욱 개선하기 위해 AWS 서비스와 Illumina 솔루션의 활용 방안을 계속 모색할 계획입니다. Gibbs는 “특히 저희는 의료 시스템에서 소외된 사람들이나 의료 서비스에서 차별을 많이 경험한 사람들의 유전자 데이터에 대한 접근성을 확대하기를 희망합니다. 이러한 사람들이 저희 연구의 최전선에 서게 될 것입니다. 저희는 그들이 건강 프로필에서 유용한 유전 정보에 접근하도록 돕고 싶습니다”라고 말합니다.


Baylor College of Medicine 소개

텍사스 휴스턴에 위치한 Baylor College of Medicine은 미국 국립보건원으로부터 자금을 지원받는 몇 안 되는 유전체 시퀀싱 센터 중 하나인 Human Genome Sequencing Center를 운영하고 있습니다.

AWS의 이점

  • 불과 3개월 만에 데이터 파이프라인 구축
  • 이전 파이프라인보다 더 빠르게 데이터 처리
  • 월간 약 5,000개의 게놈 처리
  • 최고의 엔지니어링 인재 채용
  • 보안 및 규정 준수 간소화
  • 스토리지 관리 및 데이터 수명 주기 프로세스 자동화
  • 폭증하는 볼륨에 맞춰 자동으로 크기 조정

사용된 AWS 서비스

Amazon EC2

Amazon Elastic Compute Cloud(Amazon EC2)는 안전하고 크기 조정이 가능한 컴퓨팅 파워를 클라우드에서 제공하는 웹 서비스입니다. 개발자가 더 쉽게 웹 규모의 클라우드 컴퓨팅 작업을 할 수 있도록 설계되었습니다.

자세히 알아보기 »

Amazon EC2 F1 인스턴스

Amazon EC2 F1 인스턴스에서 FPGA를 사용하여 사용자 지정 하드웨어 가속화를 제공할 수 있습니다. F1 인스턴스는 프로그래밍이 간단할 뿐만 아니라 FPGA Developer AMI 및 클라우드의 하드웨어 레벨 개발 지원을 비롯하여 하드웨어 가속화 코드를 개발, 시뮬레이션, 디버깅 및 컴파일하는 데 필요한 모든 것을 제공합니다.

자세히 알아보기 »

Amazon EC2 스팟 인스턴스

Amazon EC2 스팟 인스턴스를 사용하면 AWS 클라우드에서 미사용 EC2 용량을 활용할 수 있습니다. 스팟 인스턴스는 온디맨드 요금과 비교하여 최대 90% 할인된 금액으로 제공됩니다.

자세히 알아보기 »

Illumina DRAGEN on AWS

DRAGEN Bio-IT Platform을 사용하면 차세대 시퀀싱(NGS) 데이터를 매우 빠르게 분석하고, 게놈 데이터를 분석하는 데 걸리는 시간을 단축하며, 정확도를 높일 수 있습니다.

자세히 알아보기 »


시작하기

모든 산업에서 다양한 규모의 조직이 AWS를 통해 매일 비즈니스를 혁신하고 임무를 수행하고 있습니다. 지금 전문가와 상담하고 AWS로의 여정을 시작하세요.