L'apprentissage machine consiste à faire « comprendre » aux ordinateurs de nouveaux concepts. Mais pour l’instant, le processus n’est pas encore très efficace, car il faut souvent fournir à la machine des centaines d'exemples pour obtenir un résultat. Mais cela pourrait bientôt changer. Du moins, c’est ce que laissent envisager les nouvelles recherches publiées vendredi dernier dans la revue Science par trois chercheurs. En effet, dans une sorte de « test de Turing visuel », les juges « humains » n’ont pas pu différencier l’homme de l’ordinateur.

L’objectif des chercheurs était de réduire le processus d'apprentissage et de le rapprocher le plus possible de la façon dont les êtres humains acquièrent et appliquent de nouvelles connaissances sans avoir besoin de multiplier les exemples. L’équipe a mis au point un framework d’apprentissage auquel ils ont donné le nom de Bayesian Program Learning (BPL) qu’ils ont utilisé pour apprendre aux ordinateurs comment identifier et reproduire des caractères manuscrits en leur fournissant un seul exemple. Alors que les algorithmes de reconnaissance des formes courantes sont basés sur des concepts comme la répartition des pixels ou des séries de fonctionnalités, l'approche BPL fait apprendre en « expliquant » les données fournies à l'algorithme, dans le cas présent, un échantillon d’écriture manuscrite.

Algorithme vs Humains

Ces concepts sont exprimés par des programmes informatiques probabilistes et l'algorithme s’auto-programme en construisant le code qui produit la lettre qu'il voit. Il peut également apprécier les variations dans la façon dont les personnes écrivent une lettre donnée. Le modèle « apprend à apprendre » en utilisant les connaissances acquises avec les concepts précédents pour accélérer l'apprentissage de nouvelles lettres. Par exemple, l’algorithme peut utiliser ses connaissances de l'alphabet latin pour apprendre les lettres de l'alphabet grec plus rapidement.

Le plus convaincant de tout cela, c’est que l'algorithme a permis aux ordinateurs de passer une sorte de « test de Turing visuel », lequel consiste à confronter un ou plusieurs humains à un ordinateur et à un autre humain à l’aveugle. Les chercheurs ont donc demandé à des humains et à des ordinateurs de reproduire une série de caractères manuscrits après leur avoir montré un seul échantillon. Dans certains cas, les sujets ont été invités à créer entièrement de nouveaux caractères imitant l’échantillon d’écriture qui leur a été soumis. Et les juges humains n’ont pas pu voir la différence entre les propositions faites par l’ordinateur et celles faites par l’homme. Les chercheurs ont appliqué leur modèle à plus de 1 600 types de caractères manuscrits dans 50 systèmes d'écriture, dont le Sanskrit, le Tibétain, la langue indienne Gujarati et le Glagolitique, le plus ancien des alphabets slaves. Ils ont même essayé avec des caractères inventés, comme ceux créés de toutes pièces pour la série télévisée « Futurama ».

Plusieurs disciplines au rendez-vous pour travailler sur le machine learning

Un document décrivant la recherche a été publié vendredi dans la revue Science. Ses auteurs sont Brenden Lake, Moore-Sloan Data Science Fellow de l'Université de New York, Ruslan Salakhutdinov, professeur de sciences informatiques adjoint à l'Université de Toronto, et Joshua Tenenbaum, professeur au MIT pour le département Brain and Cognitive Sciences et pour le Center for Brains, Minds and Machines. « Il a été très difficile de développer des machines capables, comme les humains, de se suffire d’une petite quantité de données pour apprendre un nouveau concept », a déclaré Ruslan Salakhutdinov. « Essayer de reproduire ces capacités est un travail de recherche passionnant. Il implique aussi bien l'apprentissage machine, les statistiques, la vision par ordinateur, et les sciences cognitives », a-t-il déclaré.