Panduan ini membantu pengguna menyiapkan data genomika, klinis, mutasi, ekspresi, serta pencitraan untuk analisis skala besar dan melakukan kueri interaktif terhadap danau data. Panduan ini juga mencakup otomatisasi infrastruktur sebagai kode (IaC), integrasi berkelanjutan dan pengiriman berkelanjutan (CI/CD) untuk iterasi cepat, jalur penyerapan untuk menyimpan dan mengubah data, serta notebook dan dasbor untuk analisis interaktif. Kami juga mendemonstrasikan cara varian genomika dan data anotasi disimpan dan dilakukan kueri menggunakan notebook AWS HealthOmics, Amazon Athena, dan Amazon SageMaker. Panduan ini dibuat dengan berkolaborasi dengan Bioteam.

Diagram Arsitektur

Unduh PDF diagram arsitektur 
  • Arsitektur
  • CI/CD

Pilar Well-Architected

Kerangka Kerja AWS Well-Architected membantu Anda memahami keuntungan dan kerugian dari keputusan yang Anda buat saat membangun sistem di cloud. Enam pilar dari Kerangka Kerja ini memungkinkan Anda mempelajari praktik terbaik arsitektur untuk merancang dan mengoperasikan sistem yang andal, aman, efisien, hemat biaya, dan berkelanjutan. Dengan Alat AWS Well-Architected yang tersedia secara gratis di Konsol Manajemen AWS, Anda dapat meninjau beban kerja dan membandingkannya terhadap praktik terbaik ini dengan menjawab serangkaian pertanyaan untuk setiap pilar.

Diagram arsitektur di atas adalah contoh Solusi yang dibuat dengan mempertimbangkan praktik terbaik Well-Architected. Untuk menjadi Well-Architected sepenuhnya, Anda harus mengikuti praktik terbaik Well-Architected sebanyak mungkin.

  • Panduan ini menggunakanCodeBuild dan CodePipeline untuk membangun, mengemas, dan melakukan deployment semua yang diperlukan dalam solusi untuk menyerap dan menyimpan File Panggilan Varian (VCF) serta bekerja dengan data multimodal dan multiomik dari set data di Atlas Genom Kanker (The Cancer Genome Atlas (TCGA)) dan Atlas Pencitraan Kanker (The Cancer Imaging Atlas (TCIA)). Analisis dan penyerapan data genomika nirserver ditampilkan menggunakan layanan terkelola penuh - Amazon Omics. Perubahan kode yang dibuat dalam repositori CodeCommitsolusi dengan dilakukan deployment melalui pipeline deployment CodePipeline yang disediakan.

    Baca laporan resmi Keunggulan Operasional 
  • Panduan ini menggunakan akses berbasis peran dengan IAM dan semua bucket yang sudah terenkripsi, bersifat privat, dan memblokir akses publik. Katalog data di AWS Glue sudah terenkripsi dan semua data meta yang ditulis oleh AWS Glue ke Amazon S3 juga terenkripsi. Semua peran ditentukan dengan hak akses paling rendah dan semua komunikasi di antara layanan tetap berada dalam akun pelanggan. Administrator dapat mengontrol notebook Jupyter, data Penyimpanan Varian Amazon Omics dan akses data Katalog AWS Glue terkelola penuh menggunakan Lake Formation, dan akses data Athena, Notebook SageMaker, dan Amazon QuickSight dikelola melalui peran IAM yang disediakan.

    Baca laporan resmi Keamanan 
  • AWS Glue, Amazon S3, Amazon Omics, dan Athena semuanya bersifat nirserver dan akan menskalakan performa akses data saat volume data Anda meningkat. AWS Glue menyediakan, mengonfigurasi, dan menskalakan sumber daya yang diperlukan untuk menjalankan tugas integrasi data Anda. Athena bersifat nirserver sehingga Anda dapat dengan cepat melakukan kueri data Anda tanpa harus menyiapkan dan mengelola server atau gudang data apa pun. Penyimpanan dalam memori QuickSight SPICE akan menskalakan eksplorasi data Anda ke ribuan pengguna.

    Baca laporan resmi Keandalan 
  • Dengan menggunakan teknologi nirserver, Anda hanya menyediakan sumber daya seperti yang Anda gunakan. Tiap tugas AWS Glue akan menyediakan klaster Spark sesuai permintaan untuk mengubah data dan menghilangkan penyediaan sumber daya saat selesai. Jika Anda memilih untuk menambahkan set data TCGA baru, Anda dapat menambahkan tugas AWS Glue baru dan perayap AWS Glue juga akan memprediksi sumber daya sesuai permintaan. Athena secara otomatis mengeksekusi kueri secara paralel sehingga sebagian besar hasilnya akan kembali dalam hitungan detik. Amazon Omics mengoptimalkan performa kueri varian dalam skala besar dengan mengubah file menjadi Apache Parquet.

    Baca laporan resmi Efisiensi Performa 
  • Dengan menggunakan teknologi nirserver yang sesuai permintaan, Anda hanya membayar sumber daya yang Anda gunakan. Untuk lebih mengoptimalkan biaya, Anda dapat menghentikan lingkungan notebook di SageMaker saat tidak digunakan. Dasbor QuickSight juga dilakukan deployment melalui templat CloudFormation terpisah, jadi jika Anda tidak bermaksud menggunakan dasbor visualisasi, Anda dapat memilih untuk tidak melakukan deployment untuk menghemat biaya. Amazon Omics mengoptimalkan biaya penyimpanan data varian dalam skala besar. Biaya kueri ditentukan berdasarkan jumlah data yang dipindai oleh Athena dan dapat dioptimalkan dengan menulis kueri yang sesuai.

    Baca laporan resmi Optimisasi Biaya 
  • Dengan menggunakan layanan terkelola dan penskalaan dinamis secara ekstensif, Anda meminimalkan dampak lingkungan dari layanan backend. Komponen penting untuk keberlanjutan adalah memaksimalkan penggunaan instans server notebook. Anda harus menghentikan lingkungan notebook saat tidak digunakan.

    Baca laporan resmi Keberlanjutan 

Pertimbangan Tambahan

Transformasi Data

Arsitektur ini memilih AWS Glue untuk Extract, Transform, and Load (ETL) yang diperlukan untuk menyerap, menyiapkan, dan membuat katalog set data dalam solusi untuk kueri dan performa. Anda dapat menambahkan Tugas AWS Glue dan Perayap AWS Glue baru untuk menyerap set data Atlas Genom Kanker (The Cancer Genome Atlas (TCGA)) dan Atlas Citra Kanker (The Cancer Image Atlas (TCIA)) baru sesuai kebutuhan. Anda juga dapat menambahkan tugas dan perayap baru untuk menyerap, menyiapkan, dan membuat katalog set data milik Anda sendiri.

Analisis Data

Arsitektur ini memilih Notebook SageMaker untuk menyediakan lingkungan notebook Jupyter untuk analisis. Anda dapat menambahkan notebook baru ke lingkungan yang ada atau buat lingkungan baru. Jika Anda lebih memilih RStudio daripada notebook Jupyter, Anda dapat menggunakan RStudio di Amazon SageMaker.

Visualisasi Data

Arsitektur ini memilih QuickSight untuk menyediakan dasbor interaktif untuk visualisasi dan eksplorasi data. Dasbor QuickSight disiapkan melalui templat CloudFormation terpisah sehingga jika Anda tidak bermaksud menggunakan dasbor, Anda tidak perlu menyediakannya. Di QuickSight, Anda dapat membuat analisis sendiri, menjelajahi filter atau visualisasi tambahan, dan berbagi set data dan analisis dengan rekan kerja.

Sumber Daya Implementasi

Repositori ini membuat lingkungan yang dapat diskalakan di AWS untuk menyiapkan data genomika, klinis, mutasi, ekspresi, dan pencitraan untuk analisis skala besar dan melakukan kueri interaktif terhadap danau data. Solusi menunjukkan cara 1) menggunakan Penyimpanan Varian & Penyimpanan Anotasi HealthOmics untuk menyimpan data varian genomika dan data anotasi, 2) menyediakan jalur penyerapan data nirserver untuk persiapan dan pembuatan katalog data multimodal, 3) memvisualisasikan dan menjelajahi data klinis melalui antarmuka interaktif, serta 4) menjalankan kueri analitik interaktif terhadap danau data multimodal menggunakan Amazon Athena dan Amazon SageMaker.

Panduan terperinci disediakan untuk bereksperimen dan digunakan dalam akun AWS Anda. Setiap tahap pembuatan Panduan, termasuk deployment, penggunaan, dan pembersihan, diperiksa guna mempersiapkannya untuk deployment

Kode sampel adalah titik awal. Kode sampel ini diivalidasi industri, bersifat preskriptif, tetapi tidak definitif, dan coba periksa kode sampel ini untuk memulai.

Panduan

Panduan untuk Analisis Data Multimodal dengan Layanan AI dan ML Kesehatan di AWS

Panduan ini menunjukkan cara menyiapkan kerangka kerja ujung ke ujung untuk menganalisis data layanan kesehatan dan ilmu hayati (HCLS) multimodal.

Kontributor

BioTeam adalah perusahaan konsultasi IT ilmu hayat yang memiliki misi untuk mempercepat penemuan ilmiah dengan menutup celah antara apa yang ingin para ilmuwan lakukan dengan data—dan apa yang dapat mereka lakukan. Bekerja di bidang seputar sains, data, dan teknologi sejak tahun 2002, BioTeam memiliki kemampuan interdisipliner untuk menerapkan strategi, teknologi canggih, dan layanan IT yang memecahkan masalah penelitian, teknis, dan operasional yang paling menantang. Terampil dalam menerjemahkan kebutuhan ilmiah ke dalam ekosistem data ilmiah yang kuat, kami bangga dengan kemampuan kami untuk bermitra dengan berbagai pemimpin dalam penelitian ilmu hayati, mulai dari perusahaan rintisan biotek hingga perusahaan farmasi global terbesar dan mulai dari lembaga pemerintah federal hingga lembaga penelitian akademik.

Penafian

Kode sampel; pustaka perangkat lunak; alat baris perintah; bukti konsep; templat; atau teknologi terkait lainnya (termasuk yang sebelumnya disediakan oleh personel kami) disediakan untuk Anda sebagai Konten AWS berdasarkan Perjanjian Pelanggan AWS, atau perjanjian tertulis yang relevan antara Anda dan AWS (mana saja yang berlaku). Anda tidak boleh menggunakan Konten AWS ini di akun produksi Anda, atau pada produksi atau data penting lainnya. Anda bertanggung jawab untuk menguji, mengamankan, dan mengoptimalkan Konten AWS, seperti kode sampel, yang sesuai untuk penggunaan tingkat produksi berdasarkan praktik dan standar kontrol kualitas spesifik Anda. Melakukan deployment Konten AWS mungkin dikenakan biaya AWS untuk membuat atau menggunakan sumber daya AWS berbayar, seperti menjalankan instans Amazon EC2 atau menggunakan penyimpanan Amazon S3.

Referensi ke layanan atau organisasi pihak ketiga dalam Panduan ini tidak menyiratkan dukungan, sponsor, atau afiliasi antara Amazon atau AWS dan pihak ketiga. Panduan dari AWS adalah titik awal teknis, dan Anda dapat menyesuaikan integrasi Anda dengan layanan pihak ketiga saat melakukan deployment arsitektur.

Apakah halaman ini membantu?