Le 24 décembre dernier, l'Insee a éteint son dernier serveur SAS Institute. Tout un symbole pour l'Institut statistique national, utilisateur historique des outils de l'éditeur américain spécialiste du sujet. « C'est la politique tarifaire de cet éditeur, basée sur des prix catalogue très élevés et des niveaux de remise dont il décide seul, qui nous a poussé à prendre cette décision. Sur un sujet aussi coeur de métier pour nous, nous ne voulons plus être dépendants d'un fournisseur unique avec ce type de pratiques », souligne Jean-Séverin Lair, le DSI de cette administration regroupant quelque 5 000 personnes. D'autant que l'Insee a déjà pu mesurer une première fois le coût de cette dépendance : en 2022, lors du précédent renouvellement du contrat avec SAS, les prix avaient été multipliés par quatre. La sortie de SAS a permis à la DSI de l'Insee, qui compte environ 400 personnes, d'économiser plus de 5% de son budget annuel.

Le choix de se passer du fournisseur emblématique du domaine signifie aussi migrer l'importante base de code SAS accumulé par l'Insee vers d'autres langages, en l'occurrence R, Python et SQL. Une opération menée en 3 ans pour l'Institut national. « De toute façon, la montée de version imposée par SAS nous obligeait aussi à intervenir sur tous ces codes. Et nous sommes partis en départ lancé, car nous disposions de compétences qui ont porté cette transformation », assure le DSI.

Logique devops et approche data science

Pour la DSI de l'Insee, la sortie de SAS signifie aussi la refonte de qu'elle appelle son offre self-service, autrement dit de l'environnement mis à disposition des statisticiens en interne. Soit quelque 1500 personnes, dont plusieurs centaines écrivant fréquemment du code. C'est le rôle joué par la plateforme Onyxia, un environnement Kubernetes accessible aux Data Scientist donnant accès à un catalogue d'outils et services data reliés à un datalake et à un stockage objet S3. « Au-delà de la sortie de SAS, c'est une décision écosystémique, souligne Frédéric Comte, responsable de la division innovation au sein de la DSI de l'Insee. Nous voulions proposer une stack data offrant la capacité à déployer une myriade d'outils. » Un virage qui s'est d'ailleurs produit à bas bruit au sein des équipes de statisticiens, les premières communautés R en interne remontant aux débuts des années 2010, selon Frédéric Comte. « Sans démarche top-down », précise-t-il.

Onyxia amène également les statisticiens de l'organisme public vers les logiques DevOps (avec du code versionné et des processus câblés dans l'outillage) et débouche sur une modernisation de leurs pratiques, qui s'orientent davantage vers des logiques de Data Science et de calcul distribué. L'Insee cherche désormais à étendre la communauté portant le datalab Onyxia, créé par sa division innovation et instruction technique et maintenu depuis le début des années 2020 par 4 ou 5 personnes au sein de l'Institut national. « Etendre la communauté est la priorité de 2026 », indique Jean-Sérerin Lair, qui souligne que l'équivalent norvégien de l'Insee a déjà fait d'Onyxia sa souche principale et des organismes comme Eurostat et l'ONU l'exploitent également. « Sur la plateforme de démonstration et de formation SSP Cloud, on dénombre déjà quelque 600 utilisateurs [en nombre d'organisations utilisatrices, pour un total de 3000 utilisateurs réguliers, NDLR] », souligne le DSI.