Cette conception serait mieux adaptée à l'extraction de données reposant sur les charges de travail traitées par les superordinateurs actuels, a fait valoir Alexander Szalay, un informaticien et astrophysicien de l'Institut Data Intensive Engineering and Science de Johns Hopkins, et qui dirige le projet. « Pour les sciences, ce sont les I / O qui deviennent le principal goulet d'étranglement», a-t-il expliqué. « Les gens réalisent des simulations plus en plus grandes et gourmandes en terme de mémoire, il est difficile d'écrire la sortie sur le disque."

La National Science Foundation (NSF) a financé à hauteur de 2,1 millions de dollars ce système, appelé Data-Scope. L’université contribue elle-même pour 1 million de dollars. Jusqu'à présent, 20 laboratoires de recherches au sein de l’université ont indiqué qu'ils pourraient utiliser le système pour étudier les problèmes de la génomique, la circulation océanique, les turbulences en astrophysique et science de l'environnement. La faculté autorisera aussi les organismes extérieurs l’utilisation de la machine. La mise en fonction officielle de Data-Scope est  prévue au mois de mai prochain.

Changer de paradigme

FLOPS mesure la quantité de calculs en virgule flottante qu'un ordinateur peut faire en une seconde, un outil essentiel pour analyser de grandes quantités de données. Mais l’indicateur IOPS mesure la quantité de données qui peut être déplacée sur et en dehors d'un ordinateur.

En maximisant l'IOPS, le système «permettra des analyses de données qui ne sont tout simplement pas possible aujourd'hui», soulignent les universitaires. Aujourd'hui, la plupart des chercheurs sont limitées à l'analyse d’un ensemble de données allant jusqu'à 10 téraoctets, tandis que ceux qui comprennent 100 téraoctets ou plus, ne peuvent être étudiés que par une poignée des plus grands supercalculateurs. La configuration matérielle proposée par John Hopkins de pourrait offrir un moyen moins coûteux d'analyser ces données volumineuses, explique Alexander Szalay

La machine, une fois construite, aura une capacité de bande passante pour les I/O de 400 à 500 giga-octets par seconde, soit environ deux fois plus que de l'ordinateur le plus rapide, Jaguar du laboratoire national Oak Ridge, inscrit au classement des 500 meilleurs ordinateurs les plus puissants du monde. Data-Scope, cependant, propose une performance de pointe d'environ 600 teraflops, loin derrière les capacités du Jaguar estimées à 1,75 pétaflops.

Dans la conception de Data-Scope, chaque serveur aura 24 disques durs dédiés ainsi que 4 SSD, qui au total pourront fournir 4,4 Go de données par seconde gérées par deux GPU (processeurs graphiques). Globalement, le système comprendra environ 100 de ces machines pour environ cinq pétaoctets de stockage au total.

Revenir aux fondamentaux

Pour guider la conception, l'équipe de chercheurs est partie de la loi de  l'informaticien Gene Amdahl, qui explique qu’une instruction par seconde requiert un octet de mémoire et un bit/seconde de capacité d'entrée-sortie. La plupart des architectes des supercalculateurs semblent avoir méconnu ce principe, qui prévoit que le cache du processeur peut stocker des données et les utiliser en cas de besoin. Maintenant que les données ont pris une telle envergure, la règle d'Amdahl devrait être reconsidérée, soutient Alexander Szalay.

Les concepteurs ont également l'intention de faire quelques changements dans la façon dont les bases de données sont utilisées. « Nous n'utilisons pas la base de données comme dépotoir de stockage, mais comme un environnement informatique actif», a déclaré le responsable du projet. Au lieu de déplacer les données d'une base de données vers un cluster de serveurs, les chercheurs pourront écrire des fonctions et s’exécuteront directement dans la base de données elle-même.

Pour ce faire, les chercheurs utiliseront l'une des trois images qui peuvent être lancée sur le système: Windows Server 2008, une combinaison de Linux et MySQL et une troisième instance travaillera sur  Hadoop.