Le monde de la science des données est très riche en logiciels libres : PyTorch, TensorFlow, Python, R et bien d'autres encore. Mais l'outil le plus utilisé dans ce domaine n'est pas open source et il n'est généralement pas considéré comme un outil de datascience. Son nom ? Excel, et il fonctionne sur tout ordinateur. Si l’on en croit Peter Wang, CEO d'Anaconda, Excel est « le système de programmation le plus abouti de l'histoire de l'homo sapiens », comme il l’a déclaré dans une interview, « parce que n’importe quel individu peut s’emparer de l’outil… y inscrire ses données… poser ses questions... [et] faire de la modélisation ». Bref, il est facile d'être productif avec Excel. Néanmoins, pour aller au-delà, gagner en facilité et en productivité, M. Wang pense que l’avenir se situe du côté du populaire langage de programmation Python. Même si Excel a réussi sans open source, le dirigeant pense que Python réussira précisément grâce à l'open source.

Pendant des années, ce logiciel a été considéré comme un produit fourni contre rémunération par un éditeur. Mais, au moins dans le monde de l'entreprise, la réalité était tout autre. Pourquoi ? Parce que, quelle que soit la qualité du produit, il ne satisfait jamais entièrement les besoins des clients. En plus du prix payé par pour le logiciel, le client doit assumer des coûts d'intégration, de personnalisation, etc. Ce qui signifie que le logiciel est toujours un processus et pas vraiment un produit. L'open source a été le premier à prendre conscience de cette réalité. Selon M. Wang, « l'open source ouvre les portes, un peu comme s’il donnait le droit de bricoler, de réparer, d’enrichir ». En d'autres termes, ce modèle considère le logiciel en tant que service, en tant que processus.

L'open source comme moteur à l'innovation

Plus important encore, cela signifie que l'open source encourage davantage de personnes à participer à sa création et à son succès. Le CEO d’Anaconda estime que 90 à 95 % des utilisateurs sont tenus à l'écart du processus de création de la plupart des logiciels. Ils peuvent voir les démonstrations, mais ils font confiance à d'autres pour créer de la valeur en leur nom. En revanche, « si l'open source a connu un tel succès dans la science des données, c’est parce qu'une toute nouvelle catégorie d'utilisateurs s'est transformée en créateurs et en constructeurs », a expliqué M. Wang.

Pour être clair, la plupart des gens n'écrivent pas de scripts Python. Mais le langage a permis aux gens ordinaires de faire de la datascience beaucoup plus facilement, ce qui est l'une des principales raisons du succès de Python dans ce domaine. Pour M. Wang, l'idéal n'est pas qu'il soit meilleur que Ruby, Perl ou un autre langage de programmation, mais qu'il supplante Excel en tant qu'outil préféré de la datascience pour les utilisateurs. « Je pousse fortement à l’usage de Python et de PyData pour qu’ils prennent la relève d'Excel », a-t-il encore déclaré.

Comment y parvenir ? « La communauté open source est essentielle », a insisté Peter Wang, et pas seulement la communauté de ceux qui sont capables de contribuer au code. Selon lui, Python possède une « culture de remixage et de l’apprentissage, ainsi qu'une culture de l’enseignement ». Bien sûr, le code est important au pays de Python. Mais, selon M. Wang, les contributeurs du langage jettent les bases de ce que d'autres construisent par-dessus : « En maintenant un certain niveau et une API orientée vers l'utilisateur tout en assurant une certaine stabilité autour de cela, les développeurs Python font émerger et prospérer un niveau de contribution bien plus élevé ».

Vers la création d'un Excel communautaire 

Mais cela ne suffit pas. Et ce n'est pas non plus la seule contribution qui apporte de la valeur. M. Wang fait remarquer que « la plupart des personnes qui répondent à des questions d'utilisation sur Stack Overflow et la plupart de celles qui écrivent un article de blog sur leur premier modèle Scikit-learn » n'ont peut-être que deux ou trois ans d'expérience dans le domaine de l'analyse de données, mais elles ouvrent la voie à la participation d'autres personnes. Est-ce préférable au modèle d'innovation d’Excel, où une entreprise propose un produit particulier ? Pour le CEO d’Anaconda, la réponse est clairement oui. « Quand nous avons ralenti le rythme et travaillé avec d'autres personnes, le résultat final était généralement meilleur que si nous avions fait notre propre cuisine dans notre coin », a-t-il affirmé. M. Wang espère que le résultat final se concrétisera dans un « Excel » développé par la communauté qui changera à jamais la science des données, en la rendant encore plus accessible et plus largement applicable qu'Excel.