이 지침은 인터넷을 통해 또는 지연 시간이 짧은 직접 연결을 통해 생명 과학 데이터 기기 및 실험실 시스템 파일을 AWS 클라우드에 연결할 수 있도록 도와줍니다. AWS를 통해 액세스 빈도가 낮은 데이터의 스토리지 비용을 줄이거나 유전체학, 이미징 및 기타 집약적인 워크로드를 위한 고성능 컴퓨팅에 모두 액세스할 수 있습니다.
아키텍처 다이어그램
1단계
실험실 기술자가 실험 또는 테스트를 실행하고 결과는 온프레미스 파일 서버의 폴더에 기록됩니다. AWS DataSync 태스크는 로컬 스토리지의 데이터를 Amazon Simple Storage Service(S3)의 버킷으로 동기화하도록 설정됩니다.
2단계
데이터는 인터넷을 통해 또는 AWS Direct Connect와 같이 인터넷을 사용하지 않는 지연 시간이 짧은 직접 연결을 통해 AWS 클라우드로 전송됩니다.
3단계
전자 실험실 노트북(ELN) 및 실험실 정보 관리 시스템(LIMS)은 이벤트 및 API를 통해 실험 및 테스트 메타데이터를 AWS 클라우드와 양방향으로 공유합니다. AWS 기반 실험실 데이터 메시 지침에서 이 통합에 대해 자세히 알아보세요.
4단계
계약 연구 기관(CRO)과 같은 협력 기관은 FTP, SFTP 또는 FTPS용 AWS Transfer Family를 사용하여 연구 결과를 Amazon S3에 업로드할 수 있습니다.
5단계
빈번하지 않은 액세스를 위해 구성된 S3 버킷에 기기 데이터를 기록하여 스토리지 비용을 최적화할 수 있습니다. S3 스토리지 액세스 패턴을 식별하여 S3 버킷 수명 주기 정책을 최적으로 구성하고 데이터를 Amazon S3 Glacier로 전송하세요.
6단계
Amazon FSx for Lustre를 사용하면 유전체학, 이미징 및 기타 집약적인 워크로드에 대해 클라우드의 고성능 컴퓨팅(HPC)에서 데이터에 액세스할 수 있어 지연 시간이 밀리초로 짧은 공유 파일 시스템을 제공합니다.
7단계
생물 정보학 파이프라인은 플렉서블 CPU 및 GPU 컴퓨팅을 위해 AWS Step Functions, AWS HealthOmics, AWS Batch로 오케스트레이션됩니다.
8단계
기계 학습은 특성 추출, 데이터 레이블링, 모델 훈련, 배포 및 ML 운영을 위해 Amazon SageMaker를 사용하는 인공 지능 및 기계 학습(AI/ML) 도구 키트로 수행됩니다. Amazon Athena는 플렉서블 SQL 쿼리에 사용됩니다.
9단계
데이터 분석 및 보고를 위해 온프레미스 애플리케이션을 사용하는 연구원은 Amazon S3 File Gateway를 통해 네트워크 파일 시스템(NFS) 또는 서버 메시지 블록(SMB)을 사용하여 Amazon S3에 있는 데이터를 보고 액세스합니다.
Well-Architected 원칙
AWS Well-Architected Framework는 클라우드에서 시스템을 구축하는 동안 사용자가 내리는 의사 결정의 장단점을 이해하는 데 도움이 됩니다. 이 프레임워크의 6가지 원칙을 통해 안정적이고 안전하며 효과적이고 비용 효율적이며 지속 가능한 시스템을 설계 및 운영하기 위한 아키텍처 모범 사례를 배울 수 있습니다. AWS Management Console에서 추가 요금 없이 사용할 수 있는 AWS Well-Architected Tool을 사용하면 각 원칙에 대한 여러 질문에 답하여 이러한 모범 사례와 비교하며 워크로드를 검토할 수 있습니다.
위의 아키텍처 다이어그램은 Well-Architected 모범 사례를 고려하여 생성된 솔루션의 예시입니다. Well-Architected를 완전히 충족하려면 가능한 많은 Well-Architected 모범 사례를 따라야 합니다.
-
운영 우수성
새로운 데이터 소스와 파트너가 등장함에 따라, 이러한 변화하는 액세스 패턴에 적응하기 위해 다양한 데이터 전송 서비스를 사용할 수 있습니다. 다중 사이트 환경의 경우 S3 File Gateway를 사용하여 다른 애플리케이션을 위한 온사이트 캐시를 유지하면서 전송할 수 있습니다. Transfer Family를 사용하면 CRO와 같은 파트너 기관이 연구 결과를 쉽게 업로드할 수 있습니다.
-
보안
데이터 보호를 위해 AWS 계정 보안 인증 정보를 보호하고 AWS Identity and Access Management(IAM)를 사용하여 개별 사용자 계정을 설정하여 각 사용자에게 업무 수행에 필요한 권한만 부여하는 것이 좋습니다. 또한 저장 중 암호화를 사용하는 것이 좋으며, 서비스에는 기본적으로 전송 중 암호화가 사용됩니다.
-
신뢰성
DataSync는 가용 영역을 사용할 수 없는 경우 에이전트가 다른 엔드포인트에 도달할 수 있도록 단일 또는 다중 VPC 엔드포인트를 활용합니다. DataSync는 에이전트 집합을 활용하여 데이터를 이동하는 확장 가능한 서비스입니다. 마이그레이션해야 하는 데이터 양의 요구에 따라 태스크와 에이전트를 확장할 수 있습니다.
DataSync는 모든 이벤트를 Amazon CloudWatch에 기록합니다. 작업이 실패하는 경우 문제와 태스크의 실패 위치를 더 잘 이해하기 위한 조치를 취할 수 있습니다. 태스크가 완료되면 사후 처리 작업을 시작하여 파이프라인 프로세스의 다음 단계를 완료할 수 있습니다.
Amazon S3는 미션 크리티컬 및 기본 데이터 스토리지에 적합하게 설계된, 내구성이 뛰어난 스토리지 인프라를 제공합니다.
-
성능 효율성
FSx for Lustre 스토리지는 밀리초 미만의 지연 시간, 최대 수백 GB/s 처리량, 수백만 IOPS를 제공합니다.
-
비용 최적화
온디맨드로 조정되는 서버리스 기술을 사용하면 사용한 리소스에 대한 요금만 지불할 수 있습니다. 비용을 추가로 최적화하려면 SageMaker에서 사용하지 않는 노트북 환경을 중지합니다. Amazon QuickSight 시각화 대시보드를 사용하지 않으려는 경우 비용 절감을 위해 대시보드를 배포하지 않도록 선택할 수 있습니다.
데이터 전송 요금은 크게 두 가지 영역으로 구성됩니다. 하나는 GB당 전송 요금으로 청구되는 DataSync이고 다른 하나는 전송된 Direct Connect 또는 VPN 데이터입니다. 또한 VPC 엔드포인트를 사용하는 경우 교차 가용 영역 요금이 적용될 수 있습니다.
-
지속 가능성
CloudWatch 지표를 통해 사용자는 알림과 추세를 기반으로 데이터에 기반한 결정을 내릴 수 있습니다. 관리형 서비스와 동적 크기 조정을 광범위하게 사용하면 백엔드 서비스가 환경에 미치는 영향을 최소화할 수 있습니다. 대부분의 구성 요소는 자립적입니다.
구현 리소스
실험 및 사용을 위한 자세한 안내는 AWS 계정 내에서 제공됩니다. 배포, 사용, 정리를 포함한 지침 구축의 각 단계는 검토되어 배포를 위해 준비됩니다.
시작점으로서 샘플 코드를 제공합니다. 이 샘플 코드는 업계에서 검증되었고 규범적이지만 최종적인 것은 아니며, 시작하는 데 도움을 줄 것입니다.
관련 콘텐츠
AWS로 디지털 커넥티드 랩 구축
이 게시물에서는 생명 과학 연구소에서 AWS 클라우드의 규모와 성능을 최대한 활용할 수 있도록 지원하는 도구, 모범 사례 및 파트너에 대해 설명합니다.
Guidance for a Laboratory Data Mesh on AWS
이 지침은 실험실 기기 데이터와 소프트웨어를 클라우드 데이터 거버넌스, 데이터 검색, 생물정보학 파이프라인과 통합하고 그 과정에서 주요 메타데이터 이벤트를 수집하는 과학 데이터 관리 시스템을 구축하는 방법을 보여줍니다.
Resilience, AWS에서 랩 연결을 위한 글로벌 데이터 메시 구축
이 사례 연구에서는 바이오 제조 혁신 기업인 Resilience가 AWS에서 데이터 전송을 위해 연결된 네트워크를 통해 새로운 의약품을 생산하는 방식을 혁신하는 방법을 설명합니다.
고지 사항
샘플 코드, 소프트웨어 라이브러리, 명령줄 도구, 개념 증명, 템플릿 또는 기타 관련 기술(AWS 직원을 통해 제공되는 상기 항목 포함)은 AWS 이용계약 또는 귀하와 AWS 간의 서면 계약(적용되는 것)에 따라 AWS 콘텐츠로 제공됩니다. 이 AWS 콘텐츠를 프로덕션 계정, 프로덕션 또는 기타 중요한 데이터에 사용해서는 안 됩니다. 귀하는 특정 품질 제어 방식 및 표준에 따라 프로덕션급 사용에 적절하게 샘플 코드와 같은 AWS 콘텐츠를 테스트, 보호 및 최적화할 책임이 있습니다. AWS 콘텐츠를 배포하면 Amazon EC2 인스턴스를 실행하거나 Amazon S3 스토리지를 사용할 때와 같이 요금이 부과되는 AWS 리소스를 생성하거나 사용하는 것에 대한 AWS 요금이 발생할 수 있습니다.
본 지침에 서드 파티 서비스 또는 조직이 언급되어 있다고 해서 Amazon 또는 AWS와 서드 파티 간의 보증, 후원 또는 제휴를 의미하지는 않습니다. AWS의 지침을 기술적 시작점으로 사용할 수 있으며 아키텍처를 배포할 때 서드 파티 서비스와의 통합을 사용자 지정할 수 있습니다.