Fondée en 2019 à Barcelone par Eudald Camprubi et Ramon Navarro, la start-up Nuclia a bénéficié de l’expérience de ses deux fondateurs aux États-Unis. « Nous avions la technologie que nous ne savions pas vendre, et nous avons rencontré l’équipe d’une start-up américaine qui n'avait pas de technologie, mais qui était douée pour le commercial. Ils ont acheté notre technologie et nous avons décidé de créer une plateforme d'ediscovery pour le juridique. Nous avons réussi à avoir comme premier client, Facebook, Twilio et Electronic Arts. Après quelques années, nous avons réalisé que le legal tech n'était pas sexy. Nous n'aimions pas le legal tech et le mode de vie américain. Et nous sommes donc revenus à Barcelone pour créer Nuclia avec tout ce que nous avons appris de nos discussions avec les clients, et notamment Facebook ».
Eudal Camprubi, le CEO de Nuclia que nous avons rencontré lors d’un IT Press Tour à Lisbonne, explique « Alors qu'est-ce qu'on résout ? Nous résolvons un problème que vous avez probablement tous rencontré à un moment donné, à savoir que vous avez beaucoup de données non structurées. Vous avez donc beaucoup de documents PDF, de vidéos, de PowerPoint, etc. En fait, dans les entreprises, environ 80 % des données que vous gérez dans votre travail quotidien ne sont pas structurées. Il est donc très difficile de trouver des données non structurées dans les entreprises. Il y a un autre problème, qui est que si vous voulez indexer ce type de données, c'est un énorme défi pour les départements informatiques. Donc les données qui sont dans différentes sources de données dans SharePoint, dans Amazon S3 et dans où vous voulez. Ces données ne sont pas seulement dans des sources différentes, elles sont aussi dans des formats différents, des vidéos aux PDF ou autres, et aussi dans différentes langues. Toutes les entreprises ne travaillent pas seulement en anglais, certaines travaillent en allemand, en français, en espagnol ou autre. Donc différentes sources de données, différents formats, différentes langues. C'est un cauchemar, si vous voulez chercher dans vos données pour trouver différentes terminologies ».
Résoudre 3 problèmes très complexes
Mettre en place l'infrastructure pour charger les données, configurer l’indexation et développer les expériences de recherche est une tâche particulièrement ardue dans les entreprises : un bon exemple est le moteur de recherche du site Le Monde Informatique qui est loin de donner satisfaction. Le travail de collecte des données, de configuration des algorithmes de recherche et de développement des applications n'est qu’une première étape : l’ajustement de la pertinence des réponses est une bataille permanente. Avec le passage en open source de sa base de données vectorielle NucliaDB et son API permettant d’accéder à son moteur d’indexation, la jeune pousse espagnole répond aux demandes des développeurs désirant exploiter plus efficacement les informations contenues dans des PDF et des fichiers audio ou vidéo. L’API de Nuclia est capable de se connecter à des applications, des sites ou des services web pour indexer automatiquement le contenu disponible et effectuer des recherches sémantiques multilingues sur l'ensemble des données non structurées. Une proposition très intéressante, car la mise en place d’un moteur de recherche personnalisé, pertinent et à jour n'était pas triviale avant l'avènement du cloud, du SaaS avec API, des plateformes d'intégration et de l'apprentissage machine.
Les données collectées se trouvent dans différentes sources de données et sont dans différents formats et langages.
Eudald Camprubí met en évidence les capacités de son moteur de recherche qui peut élargir la portée et l'échelle d'une entreprise. « Nous faisons face à trois problèmes très complexes, et très difficiles à résoudre ». A savoir l'ingestion, le traitement et l'indexation des données non structurées et seuls les moteurs de recherche alimentés par l'IA arrivent à aider les entreprises à surmonter ce chaos. « Ce que nous avons fait, c'est créer quelque chose que nous appelons AI size of the service, un moteur de recherche as a service. Et fondamentalement, ce que nous construisons, c'est quelque chose qui met en place un moyen très facile et rapide d'indexer les données non structurées, où que soient les données, et, quel que soit le langage et le format, et nous les mettons ensemble avec la puissance de la recherche AI. Donc, en mettant tout ensemble, les entreprises peuvent comprendre et indexer tout type de données […] Fondamentalement, avec Nuclia nous avons construit un pipeline que nous pouvons connecter à n'importe quel type de source et nous sommes capables d'extraire tout le texte de n'importe quel type de fichier dans toutes les langues. La façon de le faire est d'utiliser notre API REST, notre SDK, ou notre application Nuclia. L'application est une application que vous téléchargez sur votre ordinateur et à partir de cette application spécifique, vous pouvez vous connecter à n'importe quelle source de données dans votre pays ».
OCR automatique pour créer des résumés
« Nous sommes capables, à partir de n'importe quel fichier, d'extraire tout le texte [avec OCR], si c'est une vidéo, nous allons trouver un processus automatique de conversion de la parole en texte. Dans presque toutes les langues. Nous faisons aussi l'OCR de ce texte sur vos images. Nous sommes donc capables d'extraire les données des URL externes. Ainsi, si vous trouvez un article intéressant, vous pouvez simplement copier-coller l'URL et tout ce contenu est indexé. Et d'autres extractions de contenu qui sont beaucoup plus liées aux métadonnées et tout ce que nous pouvons extraire à partir de formulaires », indique encore le dirigeant. Pour l’analyse des textes, tout est basé sur la sémantique. Il n’y a pas de dictionnaires. « Dans le cas du chinois par exemple, nous ne sommes pas les meilleurs, ni avec le japonais ou le coréen. Donc les langues plus anciennes qui utilisent des symboles pour écrire, nous ne sommes pas bons. Mais, nous ne sommes pas mauvais en arabe. Nous pouvons encore nous améliorer : les pictogrammes sont encore assez difficiles à comprendre. Nous sommes capables de comprendre et d'extraire toutes les informations clés de n'importe quel fichier pour créer si besoin un résumé. Nous n'extrayons pas seulement tout le texte, mais aussi tous les paragraphes et chaque paragraphe pour obtenir l'extrait également. Nous créons également un modèle de classification pour classifier extérieurement ces données. Puis nous stockons tout dans NuclearDB, une base de données open source que nous avons construit nous-mêmes en Rust et en Python ».
Nuclia travaille avec des partenaires et des sociétés de conseil pour accompagner les clients. Un plug-in pour Drupal a également été lancé, et celui pour Wordpress devrait arriver très vite. "Ainsi, tout site Web utilisant WordPress, Drupal ou un clone à code source ouvert sera en mesure d'utiliser, en un seul clic, nos services”, assure le CEO. Pour tarifs de la solution, difficile d’obtenir une réponse claire lors de nos échanges : “La tarification. Eh bien, c'est un peu un cauchemar. Nous fixons le prix de notre solution en fonction de trois éléments différents. Le premier est si nous hébergeons la base de données, ou si nos clients ont la base de données, donc cela fait une différence. Le second est la quantité de données que vous voulez indexer. Ce n'est pas la même chose si vous voulez indexer un téraoctet de données ou 10 gigaoctets, et les prix sont donc très différents. De l'un à l'autre, je dirais que nous commençons à 5k€ par an ce qui est très bas, jusqu'à 60k€. Ça dépend de la négociation”.
Les moteurs de recherche dotés d'algorithmes d'apprentissage automatique intégrés et configurables offrent des avantages considérables aux entreprises qui ont plusieurs applications métiers et différents types d'utilisateurs qui recherchent de grands référentiels d'informations. La plateforme de recherche de Nuclia assure à la fois la qualité de l’indexation, des capacités d'apprentissage machine, y compris les algorithmes d'enrichissement des entités, le réglage automatique de la pertinence et les moteurs de recommandation. Une start-up à suivre.
Commentaire