L'analyse des données de santé pour améliorer la prévention est une tendance qui s’affirme de plus en plus. Selon un article publié la semaine dernière par des chercheurs de Microsoft, l'analyse des requêtes en ligne pourrait permettre de dépister un cancer du pancréas cinq mois avant son diagnostic.

Plus précisément, les chercheurs ont montré qu’en analysant des logs de requêtes Internet, il était possible d’identifier des personnes atteintes d’un cancer du pancréas avant même que la maladie n’ait été diagnostiquée. Selon leur étude, la mise en place de ces systèmes de surveillance ne coûterait pas très cher et permettrait de couvrir des populations importantes. « Nous pourrions disposer d’un système d’observation passif du comportement de recherche et alerter très en amont sur les soupçons de cancer du pancréas. La méthodologie pourrait être étendue à d'autres cancers difficiles à traiter », ont conclu les chercheurs. « Ces systèmes de surveillance pourraient également être utilisés pour collecter automatiquement des données qui serviront de points de repère aux patients lors de leur prise en charge par des médecins ».

7,2 millions de requêtes retenues

Les chercheurs ont utilisé les logs de 9,2 millions de requêtes Internet effectuées d'octobre 2013 à mai 2015 avec le moteur de recherche Bing de Microsoft, en se limitant exclusivement aux internautes anglophones localisés aux États-Unis. L'équipe était constituée par deux chercheurs de Microsoft, les Drs Éric Horvitz et Ryen White, et un étudiant diplômé de Columbia University, John Paparrizos. Afin de construire leur modèle statistique, ces derniers ont analysé les recherches et les clics des internautes. Ils ont également précisé que toutes les données de leur étude avaient été anonymisées, mais que, pour chaque recherche, ils avaient attribué un identifiant lié au navigateur Web afin d’extraire des historiques de recherche.

Dans un premier temps, dans les logs d’activité, l'équipe a entrepris d’identifier les chercheurs qui effectuaient « des requêtes spéciales » après un diagnostic de cancer du pancréas récent. Pour cela, ils ont recherché des phrases comme : « Pourquoi ai-je un cancer du pancréas ? » ou encore : « Les médecins ont diagnostiqué un cancer du pancréas, que va-t-il se passer ? ». Les chercheurs ont également utilisé des filtres Bing créés pour la circonstance afin d’éliminer les utilisateurs dont moins de 20% de requêtes renvoyaient à une question de santé pour finalement ne conserver que les recherches effectuées par des professionnels de santé. Au total, ils ont retenu 7,2 millions de requêtes.

5 à 15% de cas détectés avec un niveau très bas de faux positif

Dans un second temps, l'équipe est allée chercher des requêtes effectuées « plusieurs mois » avant les premières requêtes pour mettre en évidence un schéma des symptômes du cancer du pancréas tels qu'ils ont été exprimés dans les requêtes sur la maladie. « Nous avons spécifiquement montré que nous pouvions identifier 5 à 15 % de cas, avec un niveau de faux positifs extrêmement bas », ont déclaré les chercheurs dans leur article, les faux positifs se situant dans une fourchette comprise entre 1 à 10 000 et 1 à 100 000.

Contrairement à de nombreux autres cancers, également à croissance lente, le cancer du pancréas est parmi les plus agressifs, ce qui signifie qu’un diagnostic précoce peut conduire à de meilleurs résultats. « En outre, les premiers signes et symptômes du cancer du pancréas sont subtils et se manifestent souvent comme des symptômes non spécifiques qui évoluent au fil du temps », font remarquer les chercheurs. L'analyse des requêtes Web a permis une détection précoce du cancer, jusqu'à cinq mois avant un diagnostic médical. « L’analyse des logs permet de mettre en évidence certains signes utiles au dépistage du cancer du pancréas, avec un gain de temps considérable », ont encore déclaré les chercheurs. « Parce que le cancer du pancréas peut progresser du stade I au stade IV en un peu plus de 1 an, cette capacité de dépistage pourrait augmenter la survie à 5 ans ».