Le laboratoire Feltus du département de génétique et de biochimie de l'université de Clemson, Caroline du Sud (Etats-Unis) abrite une équipe interdisciplinaire de généticiens, d'informaticiens et de bio-ingénieurs qui associent génie logiciel et techniques de bio-programmation pour faire des découvertes moléculaires utiles dans les systèmes biologiques humains et végétaux. « Le laboratoire s’appuie sur la bio-informatique, les statistiques et les datasciences pour mettre en évidence des modèles », a expliqué Alex Feltus, professeur au sein du département. « Les sets de données biologiques que nous analysons se situent dans une échelle de l’ordre du téraflop jusqu’au pétaflop, et nous concevons des workflows de traitement optimisés à forte intensité de données qui adaptent les données à une myriade de plates-formes informatiques », y compris celles de plusieurs fournisseurs de clouds.

Ces dernières années, le laboratoire a concentré ses efforts de développement sur les flux de travail exécutés sur des systèmes Kubernetes. « Nous pensons que Kubernetes sera, pour les années à venir, une plate-forme standard commune pour le traitement intensif de données, d’où notre choix de concentrer nos efforts de génie logiciel sur une seule architecture », a déclaré M. Feltus. « Les bases de données biologiques augmentent géométriquement », a ajouté M. Feltus, et l’analyse des sets de données permet de tirer des informations biologiques pour résoudre certains des plus grands défis de sécurité médicale et alimentaire. « Aujourd’hui, même les petits laboratoires de biologie ont besoin en permanence d'énormes ressources informatiques », a-t-il ajouté.

Kubernetes offre des bacs à sable de calcul à grande échelle

« Bientôt, tous les chercheurs voudront explorer leurs données biologiques au niveau du pétaflop, ce qui nécessitera l'accès à d'énormes ordinateurs, ce que permettent uniquement les clouds de fournisseurs commerciaux. Les clusters Kubernetes offrent une excellente plateforme pour effectuer du calcul à grande échelle ». Avant de passer au cloud, « les chercheurs en biologie ont besoin de bacs à sable de cloud démocratisés et qui ne grèvent pas leurs crédits, dans lesquels ils peuvent concevoir et tester des flux de travail à l'échelle », a expliqué M. Feltus. Ces « bacs à sable » démocratisés sont essentiels, car 90 % des expériences scientifiques aboutissent à des impasses, et sans eux, les chercheurs épuiseraient leurs budgets clouds avant de déboucher sur une découverte ».

Le laboratoire Feltus travaille avec de nombreux autres groupes de recherche pour piloter des ressources à l’échelle selon un mix de services sur site et clouds, et Kubernetes et les conteneurs pourront jouer un rôle énorme. « Kubernetes et les conteneurs représentent la plateforme de référence pour l'ingénierie des flux de travail en bio-programmation », a déclaré Alex Feltus. « Ces systèmes ont permis à mes étudiants de contourner de nombreux aléas liés à la configuration des environnements HPC [calcul haute performance] ». Le laboratoire a déployé une Cisco Container Platform qui permet à son équipe de gérer plusieurs clusters de différents fournisseurs clouds à travers une plateforme unique. Dès que le laboratoire a testé ses flux de travail dans les clusters Kubernetes, il peut exécuter les flux de travail conteneurisés dans plusieurs clouds commerciaux. « Ce processus rationalise la formation des utilisateurs finaux et leur permet de se concentrer sur le travail scientifique », a encore expliqué M. Feltus.