Le Captcha, acronyme de « Completely Automated Public Turing test to tell Computers and Humans Apart », est un test de « défi-réponse utilisé dans le domaine de l'informatique, ayant pour but de s'assurer qu'une réponse n'est pas générée par un ordinateur. » Autrement dit, il consiste à poser des problèmes « que seuls les humains sont censés être capables de résoudre. » Les sites web utilisent ces tests dans des formulaires pour se prémunir contre les soumissions automatisées et intensives que pourraient utiliser des robots malveillants pour collecter des adresses mails ou enregistrer des comptes et poster des commentaires.

Il existe différents types de captcha : certains utilisent le son, d'autres des problèmes mathématiques, mais les versions les plus courantes consistent à demander aux utilisateurs de taper sur leur clavier un texte déformé. Une équipe de l'Université de Stanford, Elie Bursztein, Matthieu Martin et John C. Mitchell, a imaginé différentes méthodes de segmentation pour faciliter la reconnaissance de textes rendus volontairement moins lisibles par l'ajout d'une image dégradée en arrière-plan ou sous forme de chaînes de caractères distordus.

Des algorithmes issus des travaux en robotique

Certains de leurs algorithmes sont inspirés de ceux utilisés par les robots pour s'orienter dans divers environnements et ont été intégrés dans un outil automatisé baptisé Decaptcha. Leur outil a ensuite été lancé pour tester le captcha utilisé par une quinzaine de sites web parmi les plus connus de la Toile. Leurs résultats révèlent que les tests mis en place par la passerelle de paiement Authorize.net de Visa ont pu être résolus dans 66% des cas, alors que les assauts menés contre le portail du jeu World of Warcraft de Blizzard ont affiché un taux de réussite de 70%.

Autres résultats intéressants : sur eBay, la mise en oeuvre du captcha a échoué dans 43% des cas. Et sur Wikipedia, le décryptage automatisé a réussi 1 fois sur quatre. Moindres, mais toujours significatifs, les taux de réussite sur Digg, CNN et Baidu, ont été de 20, 16 et 5 % respectivement. Seuls les sites de Google et de reCaptcha ont résisté à l'outil automatisé des chercheurs.  Rappelons au passage que l'outil reCaptcha a été initialement développée à l'Université Carnegie Mellon et acheté par le géant de Mountain View en septembre 2009.

Le reCaptcha de Google toujours inviolé

Depuis ces tests, les sites Authorize.net et Digg ont décidé d'utiliser reCaptcha, un service toujours gratuit, mais il n'est pas sûr que les autres sites aient changé de modalités. Néanmoins, les chercheurs de Stanford ont donné plusieurs recommandations pour améliorer la sécurité Captcha et rendre plus difficile la segmentation. Par exemple, en augmentant la valeur aléatoire de la chaîne de caractères et de la taille de la police, en appliquant un effet de vague, en ajoutant des lignes dans le fond. Une autre conclusion intéressante de ces travaux, c'est que l'utilisation de séries de caractères complexes n'apporte pas d'avantages en terme de sécurité et que le principe nuit plutôt à la convivialité.

Ce n'est pas la première fois qu'Elie Bursztein et son équipe font des percées dans ce domaine. Au mois de mai dernier, ils ont développé des techniques permettant de tromper les Captchas audio sur des sites comme Microsoft, eBay, Yahoo et Digg. Et ils prévoient d'améliorer encore leur outil Decaptcha.