Le système HPC bullx annoncé aujourd'hui par Bull s'adresse à la clientèle bien particulière des entreprises friandes de simulation numérique. Ce type d'applications particulièrement complexe simule la réalité pour mieux la comprendre et est insatiable en ce qui concerne la puissance machine. Les utilisateurs potentiels sont aussi bien les industries automobile, l'aéronautique, l'exploration pétrolière, les finances, le nucléaire, les laboratoires scientifiques, la médecine, la climatologie, la défense, etc. La clientèle ne manque pas et son besoin en puissance est toujours croissant. « Un supercalculateur qui n'est pas utilisé aujourd'hui, ça n'existe pas, » insiste Fabio Gallo, responsable HPC de Bull. Après avoir examiné de près les besoins de ses clients, le constructeur français a opté pour des clusters Xeon 5500 qu'il a poussés dans leurs derniers retranchements. « Aucun compromis », selon Bull. Tous les moyens ont aussi été utilisés pour donner au système une performance énergétique optimale.

Bull a veillé aux exigences de ses clients HPC

Pour concevoir bullx en allant au-delà de la seule puissance, Bull a identifié une série de besoins auprès de ses clients. Pour commencer, ceux-ci veulent que le système soit capable d'une performance soutenue tout au long de l'exécution d'une application et pas uniquement d'une performance de crête, obtenue uniquement dans certaines conditions. Les entreprises sont aussi attachées à l'efficacité énergétique. Inutile de préciser que l'enveloppe énergétique d'un supercalculateur n'échappe pas à la forte croissance qui frappe toutes les infrastructures serveurs. De fait, pas question de gâcher le moindre watt.
Autre exigence des clients Bull dans le HPC, la protection de leur investissement. De telles infrastructures de supercalcul ne se changent pas tous les deux ans. Les technologies mises en place doivent donc être les plus avancées du moment. Les industriels et les laboratoires ont aussi interpellé le constructeur sur l'utilisation de technologies spécialisées pour l'accélération du calcul technico-scientifique. La performance des processeurs graphiques est ainsi désormais considérée comme intéressante d'autant qu'elle n'augmente que très peu la consommation électrique de l'ensemble du système. « Mais la facilité d'utilisation dans ces systèmes HPC n'était pas leur point fort, et nous devions travailler sur le sujet », précise Fabio Gallo. Enfin, tous les clients concernés ont exigé de Bull pour leur supercalculateur, la facilité d'installation, d'utilisation et de gestion, ainsi que la fiabilité.

Des lames purement Xeon 5500 et des lames avec GPU

« Nous avons donc tout simplement développé une nouvelle architecture, raconte Fabio Gallo. Elle est exclusivement conçue pour la simulation numérique, et de ce fait, elle est sans compromis. » Bull n'a pas souhaité faire de concession au supercalcul et à l'optimisation de la puissance pour garder une configuration qui pourrait servir à d'autres utilisations que la simulation. « Si on se frotte à l'optimisation de la performance, il faut une architecture idoine du système de mémoire, il faut utiliser le chipset le plus performant. A tout moment de la conception du système, nous avons gardé en tête la performance applicative et l'élimination de tous les goulets d'étranglement qu'elle implique. »

Les lames de bullx s'appuient sur l'architecture de processeur Xeon 5500 d'Intel (ex Nehalem). Mais Bull a donc choisi les puces les plus rapides de la gamme produites par Intel. « Nous avons aussi opté pour l'architecture mémoire la plus performante possible pour les noeuds, détaille Fabio Gallo. Nous installons des Xeon 5500 avec le nombre maximum de canaux de mémoire, c'est à dire 3 par processeur, et avec 2 barrettes par canal. » Mais l'innovation principale du système réside dans le mélange, dans les mêmes armoires, de lames traditionnelles contenant uniquement des Xeon 5500 avec des lames spécialisées intégrant à la fois le processeur d'Intel et un GPU (Graphical processor unit) Nvidia. « L'intégration des deux parties peut être le point qualifiant du système », insiste Fabio Gallo. Il s'agit en effet pour l'entreprise utilisatrice du système de trouver le bon point d'équilibre en fonction de ses applications. Les processeurs graphiques sont connectés via une interface PCI Express et l'architecture des lames est conçue pour que la bande passante entre les deux puces, standard et graphique, soit maximale. « Normalement, il n'y a qu'un chipset pour le serveur, et les deux processeurs bisockets utilisent le même, détaille Fabio Gallo. Pour nos lames spécialisées, nous utilisons deux chipsets pour que chaque processeur ait un accès dédié vers l'accélérateur. »

Le commutateur Infiniband directement dans le fond de panier

Comme toute médaille a son revers, ce type d'architecture totalement nouvelle implique pour être utilisé au mieux la mise au point de nouvelles applications spécifiques ou le portage des anciennes. « Sur les lames accélérées, nous travaillons depuis un an au portage et à l'optimisation des applications avec nos clients, confirme Fabio Gallo. Pour certaines applications bien structurées, nous pouvons obtenir un facteur d'accélération de 10. Il faut identifier les parties de code qui se prêtent à ce type d'accélération, ensuite il faut procéder à leur portage et à leur compilation avec des méthodes légèrement différentes sur l'accélérateur. »