Lors de sa conférence annuelle re:Invent, Amazon Web Services a lancé mardi un service baptisé Omics, conçu pour aider les bioinformaticiens, les chercheurs et les scientifiques à stocker et analyser des données génomiques et d'autres types de données biologiques afin d'accélérer les avancées scientifiques pour la médecine de précision. Les omiques font généralement référence à des domaines d'étude en biologie qui se terminent par le suffixe « omique », tels que la génomique, la transcriptomique (l'étude de l'ARN dans une cellule), la protéomique (l'étude des protéomes, ou ensembles de protéines) et la métabolomique (l'étude des molécules dans les cellules). Les omiques impliquent généralement des études à grande échelle avec de grands ensembles de données. 

Selon la société, ce service peut être utilisé par les scientifiques non seulement pour créer un énorme data store, mais aussi pour importer des fichiers de données brutes volumineux tels que des séquences génomiques ou d'autres fichiers de données utilisés dans la médecine de précision - un domaine médical qui utilise les données sur le génome et les protéines pour optimiser le traitement des maladies. Omics peut également aider à mettre en place un flux de travail bioinformatique de base et à analyser les résultats à l'aide des services d'analyse et d'apprentissage automatique AWS existants, a déclaré le fournisseur de services cloud, ajoutant que son produit fournit automatiquement l'infrastructure sous-jacente à mesure que l'utilisation augmente.

Un stockage de données optimisé pour la bioinformatique

Ce service fonctionne sur la base de trois composants principaux : un stockage optimisé, un calcul géré pour les flux de travail et des magasins de données adaptés à des types spécifiques d'analyse, a écrit Channy Yun, principal défenseur des développeurs chez Amazon, dans un billet de blog.  Afin de réduire les coûts, Omics utilise des options de stockage adaptées à la bioinformatique pour stocker les données de séquence brutes. Afin d'optimiser les données pour l'analyse en cours, Omics importe les données brutes dans un magasin de variantes et les transforme en un schéma prêt à être interrogé, disponible sous forme de table Apache Iceberg, selon la société.

Le service est proposé avec deux classes de stockage - active et archive. « L'archivage automatique est activé par défaut, ce qui signifie qu'Amazon Omics déplacera automatiquement les données vers la classe de stockage la moins chère si elles ne sont pas régulièrement consultées (pendant plus de 30 jours), de manière similaire à la classe de stockage Intelligent-Tiering d'Amazon Simple Storage Service (Amazon S3), ce qui permet aux clients de réaliser des économies », a écrit Tehsin Syed, directeur général de Health AI chez AWS, dans un billet de blog. Amazon Omics prend également en charge l'importation de données brutes dans un magasin d'annotation. Les données qui sont marquées ou étiquetées par des types de fichiers sont appelées données annotées. Les scientifiques et autres utilisateurs peuvent commencer à importer des données dans le stockage d'objets via la console du service.

Distiller de grandes quantités de données

Le composant de calcul géré du service fournit des ressources aux scientifiques pour exécuter des flux de travail bioinformatiques qui contiennent des scripts d'une série de tâches coordonnées conçues pour distiller de grandes quantités de données de séquence brutes, à partir du stockage Omics ou S3, en petites quantités de données analytiques, telles que les mutations du génome, a déclaré la société, ajoutant que les scientifiques et autres utilisateurs doivent simplement spécifier les ressources de calcul nécessaires pour chaque tâche. « Cela permet de supprimer toutes les tâches lourdes et indifférenciées associées à l'exécution et à la gestion de ces flux de travail à l'échelle », a écrit M. Syed, ajoutant que les scripts à l'intérieur des flux de travail peuvent être écrits dans des langages tels que Nextflow ou Workflow Description Language.

Le service, qui peut être utilisé en combinaison avec d'autres services tels que Amazon HealthLake, est désormais disponible dans les régions suivantes : États-Unis Est (Virginie du Nord), États-Unis Ouest (Oregon), Asie-Pacifique (Singapour), Europe (Francfort), Europe (Irlande) et Europe (Londres). La prise en charge d'autres régions devrait suivre prochainement, mais les détails concernant la tarification du service n'étaient pas immédiatement disponibles.