Le traitement du langage naturel (NLP) est un rêve de longue date des informaticiens, qui remonte à l'époque d'ELIZA et même aux fondements de l'informatique elle-même. Le traitement automatique des langues a connu une révolution spectaculaire au cours des dernières années, les méthodes statistiques du passé cédant la place à des approches basées sur l'apprentissage profond ou les réseaux neuronaux. L'application du deep learning au traitement automatique des langues a donné naissance à des modèles de langage massifs, sophistiqués et polyvalents, comme GPT-3, capables de générer des textes qu'il est impossible de distinguer de l'écriture humaine.

GPT-3, par exemple, débloque des fonctionnalités telles que celles que l'on trouve dans la récente plateforme Power Apps « no-code » de Microsoft, où vous pouvez saisir une description en langage naturel d'une requête, et le back-end générera le code (une expression Power Fx basée sur la syntaxe Excel). La technologie NLP a un vaste potentiel dans l'entreprise, et ce ne sont pas seulement les géants comme Google ou Microsoft qui apportent des produits sur la table. Voici trois exemples de start-ups, allant de la fourniture de solutions alimentées par l'IA à l'offre de modules et permettant de créer vos propres solutions NLP personnalisées.

Explosion, la société derrière spaCy

La plupart des développeurs qui travaillent dans le milieu du NLP ont déjà eu affaire à spaCy, la bibliothèque NLP pour Python, mais beaucoup moins ont entendu parler d'Explosion, la société fondée par Matthew Hannibal et Ines Montani qui développe spaCy et l'outil d'annotation commercial, Prodigy. SpaCy est capable de gérer des charges de travail de production massives sans aucune difficulté, ce qui constitue l'une de ses caractéristiques distinctives par rapport aux autres bibliothèques du même âge. Si vous n'avez pas utilisé spaCy depuis un certain temps, vous serez peut-être surpris de voir à quel point il est resté à la pointe des techniques modernes de traitement automatique des langues, avec des réseaux basés sur des modèles Transformer pré-entraînés tels que BERT, la possibilité d'intégrer des modèles personnalisés de PyTorch ou TensorFlow, et le support de plus de 50 langues.

Bien que spaCy soit open source, Explosion propose également un produit payant, Prodigy, qui vise à devenir un élément inestimable de la boîte à outils du data scientist, permettant des annotations expressives et programmables d'ensembles de données, non seulement avec une boucle d'interaction étroite avec spaCy mais aussi avec un support complet pour l'annotation d'images, d'audio et de vidéo. Prodigy est livré avec des recettes pour construire des pipelines pour la classification, la transcription, les boîtes de délimitation, et bien plus encore. Ces recettes devraient permettre aux spécialistes des données de jouer un rôle plus actif dans l'annotation efficace des ensembles de données, ce qui réduira le coût de la construction de données d'entrée enrichies et de la création de meilleurs modèles.

 Spacy d'Explosion est connu dans le monde du NLP. (Crédit Photo: DR)

Huggingface et son architecture Transformers

Le chemin a été long depuis l'entreprise qui a produit une bibliothèque PyTorch fournissant des implémentations de modèles NLP basés sur Transformer et le site Web Write With Transformer, jusqu'au poids lourd NLP conquérant qu'est aujourd'hui Huggingface. Non seulement la bibliothèque Transformers de Huggingface est la norme de facto pour le traitement de texte de nos jours, mais le délai d'exécution entre la découverte d'un nouvel article ou d'une autre technique et son intégration dans la bibliothèque se mesure souvent en jours, plutôt qu'en semaines. Le carrousel de modèles Huggingface est riche et varié. Il comprend une API d'inférence hébergée accélérant de nombreux modèles, ainsi qu'une API facile à utiliser pour travailler avec une multitude d'ensembles de données différents.

Huggingface est utilisé par des milliers d'entreprises, allant de l'utilisation appliquée à des entreprises comme Grammarly à des utilisations de recherche par Microsoft, Google et Facebook. En plus de tout cela, la jeune pousse contribue à d'autres bibliothèques plus petites à l'écosystème de l'apprentissage automatique, comme la récente bibliothèque Accelerate qui élimine une grande partie des tracas de l'entraînement de grands modèles sur un ensemble de machines distribuées. Huggingface ne ralentit pas non plus. Au cours des derniers mois, des modèles audio et d'image être ajoutés à la plateforme, et il est probable que la start-up sera à l'avant-garde alors que l'architecture Transformer continue à se frayer un chemin dans l'espace de l'apprentissage profond.

 La solution Huggingface s'est considérablement enrichi. (Crédit Photo:DR)

John Snow Labs cible la santé

John Snow Labs est le dépositaire de Spark NLP, un cadre NLP open source qui, sans surprise, fonctionne au-dessus d'Apache Spark. Incroyablement populaire dans les entreprises, il alimente toutes sortes de pipelines NLP dans les entreprises pour des applications telles que la reconnaissance d'entités nommées (NER), la recherche d'informations, la classification et l'analyse de sentiments. Comme spaCy, il a évolué pour s'adapter aux derniers paradigmes du TAL (traitement automatique du langage), et est livré en standard avec plus de 700 modèles de deep learning et plus de 400 pipelines pour différentes applications. Il tire également parti de la mise à l'échelle d'Apache Spark pour pour faciliter le déploiement distribué. Une chose intéressante est que John Snow Labs s'appuie sur Spark NLP avec trois produits commerciaux, dont deux sont fortement ciblés sur l'industrie des soins de santé, et l'autre principalement dans ce domaine aussi, mais peut être utilisé dans d'autres domaines.

Elle propose Healthcare AI, une plateforme gérée fonctionnant au-dessus de Kubernetes pour l'analyse et la recherche dans le domaine de la santé, et un ensemble de modules complémentaires pour Spark NLP permettant d'appliquer des méthodes telles que la reconnaissance et la liaison d'entités cliniques, l'extraction de concepts médicaux et la dépersonnalisation de textes. L'autre produit commercial est Spark OCR, qui prétend être la meilleure solution d'OCR disponible dans sa catégorie. Il peut produire des résultats au format DICOM ainsi qu'au format PDF très orienté dans le domaine de la santé. Par ailleurs, il dispose d'une suite de pipelines plus généralisés pour le traitement d'images, le débruitage, le désalignement et, bien sûr, il peut s'intégrer à Spark NLP pour produire des pipelines facilement évolutifs qui peuvent extraire des NER de bout en bout à partir de toute image d'entrée donnée.

John Snow Labs se focalise sur le domaine de la santé. (Crédit Photo: DR)

L'avenir du traitement du langage naturel

Les modèles à mille milliards de paramètres sont de plus en plus utilisés par des entreprises telles que Google, Microsoft et Facebook. Alors que GPT-3 est actuellement enfermé derrière l'API d'OpenAI, attendez-vous à ce que la « re-création » open source qu'est GPT-Neo X, publie un modèle à 175 milliards de paramètres dans les mois à venir, mettant ainsi la puissance des capacités génératives de GPT-3 à la portée de n'importe qui sur la planète.

Enfin, les chercheurs continuent à travailler à l'autre bout de l'échelle, en essayant de faire fonctionner ces architectures plus rapidement et plus efficacement pour des appareils plus petits et pour des documents plus longs. Et les résultats de toutes ces recherches seront également présents dans les offres d'Explosion, Huggingface et John Snow Labs.