Le MIT invente la programmation par copier-coller de captures d'écran

Si les ordinateurs étaient dotés du sens de la vue, on pourrait leur montrer ce qu'on attend d'eux. C'est en quelque sorte le postulat d'un professeur du MIT, Rob Miller, qui, avec l'aide du post-doc Tsung-Hsiang Chang et de Tom Yeh de l'université du Maryland, a mis au point Sikuli, un outil de programmation par copier-coller de captures d'écran. Lors de la première présentation du projet de recherche, les inventeurs de Sikuli ont proposé l'exemple d'utilisation suivant : une employée de bureau souhaite être prévenue par un sms lorsque le bus qu'elle prend arrive à un point particulier de la rue. Elle se rend alors sur le site de géolocalisation fourni par la compagnie de bus, fait une capture d'écran de la carte où figure le point qui l'intéresse, et une autre capture de l'icône représentant le bus. Dans Sikuli, elle doit tout de même écrire un peu de Python, mais surtout coller les images ; le programme comprendra que lorsque l'icône apparaît sur le morceau de carte, alors il doit déclencher l'action (image ci-dessus). Sikuli peut également servir à simplifier des recherches. Il sera parfois plus simple de coller une image que de recourir à des mots-clés dans un moteur de recherche. Les inventeurs du programme expliquent qu'un éditeur de logiciel pourra ainsi proposer un système d'aide beaucoup plus intuitif : il suffira de copier-coller telle icône ou tel autre élément de l'interface graphique pour obtenir des informations dessus. La technologie peut également servir en ingénierie logicielle, lors des phases de tests de non régression, les scripts de tests pouvant alors être réalisés à l'aide de captures d'écran. Le mot Sikuli est emprunté à l'Amérindien (les Huichol du Mexique), et signifie « oeil de Dieu », capable de voir et de comprendre l'inconnu. De fait, les chercheurs du MIT s'appuient sur des travaux d'intelligence artificielle permettant à l'ordinateur de distinguer les motifs graphiques. Dans l'exemple du bus suivi par GPS, le programme ne cherche pas à transcrire en données XML ou autres la capture d'écran : il surveille véritablement les pixels, à la manière d'un observateur humain. Les chercheurs reconnaissent que la technique reste à perfectionner. Notamment, Sikuli peut être perdu si des éléments graphiques qu'il doit reconnaître sont changés à cause d'un thème utilisateur, ou cachés par d'autres fenêtres. Mais cette première avancée du « picture-driven computing » laisse entrevoir d'étonnantes possibilités.

Commentaire

Sur le même thème

Partenaires

Le MIT invente la programmation par copier-coller de captures d'écran

Livres blancs

Commentaire

Suivre toute l'actualité

Newsletter

Livres blancs

Newsletter LMI

Commentaire

Suivre toute l'actualité

Newsletter