Positionnée sur le marché des bases de données in-memory pour s'attaquer aux problématiques big data, la start-up californienne MemSQL a été créée en 2011 par deux anciens de Facebook, Eric Frenkiel et Nikita Shamgunov, actuels CEO et CTO. Sa solution s'appuie sur un stockage en colonnes bien adapté aux combinaisons transactionnel/analytique et sur une architecture distribuée. Elle apporte une capacité à traiter rapidement les requêtes SQL complexes. Basée à San Francisco, la société vient de mettre en Open Source son outil MemSQL Loader qui permet de charger dans sa base de grands volumes de données depuis une source externe. Celui-ci permet de dépasser les limites de la commande Load Data de sa base, et que l'on trouve également dans MySQL, ainsi que l'explique dans un billet l'un des ingénieurs de MemSQL, Wayne Song.

Load Data ne permet de lire que les systèmes de fichiers locaux, il faut donc préalablement rapatrier les données stockées à distance, par exemple sur le service S3 d'Amazon Web Services, avant de pouvoir les charger dans la base. Par ailleurs, comme Load Data ne peut lire qu'un fichier à la fois, il faut développer un script pour charger des données en parallèle depuis plusieurs fichiers. Enfin, dans ce cas, l'administrateur doit s'assurer lui-même de la déduplication des fichiers et de leurs contenus. Pour toutes ces raisons, la start-up a développé MemSQL Loader. Cet outil permet de récupérer des fichiers sur S3, mais aussi à partir de Hadoop Distributed File System et depuis des systèmes de fichiers locaux. On peut spécifier tous les fichiers à charger à partir d'une commande et le logiciel se charge de les dédupliquer, de paralléliser le traitement, de relancer si le chargement s'arrête, etc.

Accessible sur GitHub, sous licence MIT

MemSQL utilise cet outil depuis un certain temps et en fournissait déjà une version binaire sur son site web. Il le livre maintenant en Open Source sous licence MIT. Accessible sur GitHub, le projet utilise plusieurs bibliothèques Open Source, telles que Voluptuous pour la validation de données et le connecteur MemSQL Python, précise Wayne Song.

Ainsi ouvert aux contributions de la communauté, l'outil sera amélioré et pourrait permettre à MemSQL d'étendre la notoriété de sa base in-memory. Au nombre de ses investisseurs, la société compte Accel Partners, Khosla Ventures, Data Collective, IA Ventures et First Round Capital. Son directeur marketing vient de Fusion-io, spécialiste des cartes PCI-e flash racheté par SanDisk.