Etat de l'Art

Tout le monde s'accorde à dire qu'il est bien difficile, aujourd'hui, pour un moteur de recherche de se poser en alternative à Google. Pourtant, je vais vous proposer dans cet article une architecture globale qui pourrait rendre possible la création de plusieurs moteurs de recherche sans que ceux-ci aient à dépenser des sommes monstrueuses pour exister… Si nous analysons la situation, le point le plus coûteux pour le développement d'un moteur de recherche est la création et la mise à jour de son index. En effet, ériger et entretenir celui-ci nécessite de crawler sans cesse les diverses ressources disponibles sur le web.

Il faut aussi se rendre compte que même Google est à des années-lumière de scanner chaque page et/ou chaque lien chaque jour pour avoir une représentation « up-to-date » du web. Google fonctionne par petits bouts de web successifs et, dans l'absolu, peut-être même peut-il passer à côté d'authentiques pépites. L'autorité et la pertinence que donnaient les liens aux débuts de Google semblent avoir changé aujourd'hui : ce ne sont plus des votes d'internautes, mais plutôt des indications ou citations. De ce fait, Google essaye de comprendre le sens des liens, quelle interprétation il peut leur donner et si une forme de pertinence peut découler de la continuité entre deux pages. Cette façon d'approcher le lien est encore une charge machine supplémentaire qui accroît davantage l'avance de Google sur sa concurrence et, en l'état, il est pour ainsi dire irrattrapable.

De toute évidence, un concurrent devrait rattraper 20 années de crawl… Tâche pour le moins énorme ! Mais, de cette nécessité de faire comme Google, à savoir crawler, sans cesse crawler, et encore crawler, peut faire naître d'autres idées…

Deux gros points noirs

Le crawl est coûteux, car la plupart des pages ne bougent pas d'une journée sur l'autre. Du coup, il y a un vrai gâchis. Certes, le crawl pour d'autres choses que pour voir si une page a été modifiée et est toujours présente est nécessaire, mais cela est très exorbitant en termes de temps machine et de stockage.

La pertinence des pages via une évaluation de la sémantique des liens (cf. metamots) est également coûteuse. Pour une page, il y a souvent 50 ou 100 liens à interpréter. Leur interprétation viendra valoriser ou non les pages liées. Malheureusement, ce point est non seulement inhérent aux règles de Google, mais aussi dicté par l'arbitraire corrélé au machine learning loin d'être au point !

Un autre futur ?

Tentons de repenser entièrement l'infrastructure même de la recherche. Objectif : plusieurs moteurs peuvent naître avec le même niveau de pertinence, voire davantage que le moteur dominant. Oublions complètement Google et son approche d'un autre temps et remettons tout à plat.

Je propose une infrastructure totalement différente : Plus de crawl.

Non, nul besoin de faire venir des marabouts. Chez les hébergeurs, installons une brique au serveur web, avec un protocole bien calé. Par exemple, un « paquet » permettant de représenter chaque page pour un objet, un peu dans le style d'un metamot, mais multidimensionnel. Multidimensionnel afin de pouvoir convenir à plusieurs profils d'internautes et d'intention. La forme condensée et prémâchée de la page répondrait à des règles neutres et équitables. Mes dernières recherches sur les metamots montrent qu'il est même possible d'y intégrer le niveau du lecteur. Cet objet ne serait mis à jour que si la page subit un changement. Il est bien sûr calculé et « stocké » sur un serveur de l'hébergeur où se trouve le site dans une zone où la triche n'est pas permise. Oui, le hack existe sur cette terre, il faut songer à intégrer un haut niveau de sécurité comme nous le faisons pour un système de paiement électronique.

Les liens et leurs contextes peuvent aussi être stockés de cette façon. Nous pouvons imaginer, à ce niveau, un échange entre serveurs, également stockés, tout comme les règles équitables qui ne dépendraient pas des intérêts d'une entreprise qui veut mettre la main sur la planète entière pour y faire de nombreuses prédictions pas toujours avouables. Les liens ne seraient pas un facteur de positionnement, mais un graphe de relation sémantique, un peu à l'image des entités nommées et de leurs graphes associés.
Là aussi, si pas de changement, pas de nouvelles analyses.

À ce stade, tout se passe finalement avec une économie de crawl gigantesque, car tant que rien n'a changé, rien n'est recalculé par le serveur. Bien sûr, il va quand même falloir faire quelque chose avec tout cela. Et pourquoi pas envoyer ces « metamots multidimensionnels » vers un serveur central géré de façon neutre par un organisme indépendant de tous lobbys ? J'ose croire qu'il reste de la place pour des chantiers non guidés par les motivations pernicieuses de multinationales. Nous aurions donc là, le catalogue complet du web sous une forme ultra-condensée. Nous pouvons imaginer que ce « metamot-center » soit organisé en différents catalogues, selon les langues, les thématiques, etc. et soit considéré d'« utilité publique ». Ou bien, nous n'organisons rien, mais nous avons des propriétés permettant de réaliser ce classement dynamiquement.

De nouveaux moteurs

Si une entreprise souhaite développer un moteur spécialisé dans un domaine marchand, il peut venir interroger le metamots-center, y classer les résultats selon ses propres critères de pertinence. Un autre moteur, par exemple à destination de la formation des étudiants, peut en faire de même. Rien n'interdit aussi d'avoir des hybrides annuaires-moteur, car chaque moteur est libre de ses propres critères. Le plus gros de la dépense liée au crawl a non seulement disparu, mais le peu qui reste est fédéré et l'arrivée de nouveaux acteurs spécialisés sur un domaine pointu n'engendre pas, ou peu, d'énergie supplémentaire.

L'internaute peut alors choisir le moteur qui lui donne le plus de satisfactions selon ses propres critères à lui, internaute.

J'entends d'ici les voix s'élever sur tous les problèmes qu'il faudrait surmonter. Mais cette chronique n'est là que pour montrer qu'il existe des bases de travail différentes de celles qui ont été empruntées jusqu'à aujourd'hui.

Rappelons qu'il s'agit bien d'une utopie totale et non pas d'un projet. Il n'en demeure pas moins vrai que les utopies d'aujourd'hui peuvent faire partie d'un futur possible. J'ai bien conscience que tout projet différent de ce qui existe aujourd'hui nécessiterait de déplacer des montagnes pour arriver à faire s'entendre tout le monde, mais une initiative européenne est toujours possible. À défaut, nous pouvons en rêver et en parler ici !