Dans le secteur de la santé, les données cloisonnées apparaissent comme un goulot d'étranglement majeur pour réaliser des cas d'utilisation innovants tels que la découverte de médicaments, les essais cliniques et les soins de santé prédictifs. Chez Aster DM Healthcare, un groupe de santé indien, a maintenant trouvé une solution à ce problème qui pourrait conduire à plusieurs solutions de pointe.

Un seul patient génère près de 80 Mo de données par an grâce à l'imagerie et aux dossiers médicaux électroniques. RBC Capital Market prévoit que le taux de croissance annuel des données pour les soins de santé atteindra 36 % d'ici 2025. Bien que les solutions basées sur l'IA dans des domaines tels que l'imagerie médicale aident à relever des défis urgents tels que les pénuries de personnel et le vieillissement de la population, l'accès à des silos de données pertinentes répartis dans divers hôpitaux, zones géographiques et autres systèmes de santé, tout en respectant les politiques réglementaires, est une énorme problématique.

« Dans une logique d'apprentissage machine classique, les données de différents hôpitaux doivent être rassemblées pour créer un référentiel de données centralisé pour la formation de modèles, ce qui soulève de nombreuses préoccupations concernant la confidentialité des données. Les hôpitaux sont sceptiques quant à la participation à de telles initiatives, craignant de perdre le contrôle des données des patients, bien qu'ils y voient une immense valeur », déclare le Dr Harsha Rajaram, COO chez Aster Telehealth, India & GCC. Sa société mère Aster DM Healthcare est un conglomérat possédant des hôpitaux, des cliniques, des pharmacies et des services de conseil en santé.

Pour relever ces défis, Aster Innovation and Research Center, le hub d'innovation d'Aster DM Healthcare, a déployé sa Secure Federated Learning Platform (SFLP) [plate-forme sécurisée d'apprentissage par fédération de données, NdT] qui permet d'accéder de manière sécurisée et rapide à des données de santé anonymisées et structurées pour la recherche et le collaboratif. L'apprentissage fédéré est une méthode pour réaliser l'apprentissage d'IA avec des données stockées dans plusieurs sources décentralisées sans déplacer ces données. Le SFLP permet d'accéder à diverses sources de données sans compromettre la confidentialité des données, car les données restent à la source, tandis que la formation du modèle se produit à partir de plusieurs sources de données. « Cette plate-forme marque un changement de paradigme en amenant le calcul aux données plutôt que d'amener les données au calcul », estime le Dr Lalit Gupta, consultant en innovation scientifique en IA chez Aster Digital Health.

Harsha Rajaram se réjouit : « cette technologie de fédération de données nous a fourni une plate-forme grâce à laquelle nous pouvons libérer l'immense potentiel des données pour tirer de meilleures informations sur les défis cliniques, opérationnels et commerciaux puis exploiter de nouvelles opportunités sans craindre de perdre le contrôle de nos données. Cela permettra aux scientifiques d'utiliser des données de plusieurs organisations et d'effectuer une formation à l'IA sans partager de données brutes. En accédant à des ensembles de données plus importants, ils peuvent développer des modèles d'IA plus précis. Cela garantira également le respect de la conformité et de la gouvernance des données ».

Les éléments constitutifs du SFLP

Avant de déployer la plate-forme, Aster Digital Health a monté un démonstrateur en utilisant les données hospitalières des établissements du groupe situés à Bengaluru et Vijayawada. « La plate-forme comprenait deux noeuds avec des machines physiquement situées à Bangalore et Vijayawada. Le directeur/agrégateur était à Bangalore et les deux envoyés/collaborateurs étaient répartis entre Bengaluru et Vijayawada. La configuration logicielle comprenait un système Ubuntu 20.04.02 avec la version du noyau 5.4.0-65-generic, la bibliothèque OpenFL Python pour la collaboration, la bibliothèque PyTorch Python [GG1] pour le développement de modèles d'apprentissage en profondeur et le GPU Nvidia Quadro RTX 6000 », détaille Lalit Gupta.

Il ajoute : « l'équipe informatique d'Aster Digital Health a aidé à installer et configurer les trois serveurs, activer les ports, installer le système d'exploitation et les pilotes nécessaires, et administrer les serveurs. L'équipe informatique a également aidé à récupérer les données du PACS [Picture Archiving and Communication System, système d'archivage et de transmission d'images, NdT] et du HIS [Healthcare Information System, système d'information de santé, en fait le dossier patient électronique, NdT], qui étaient nécessaires pour les expériences d'apprentissage fédéré ».

Dans le cadre du démonstrateur, plus de 125 000 images radiographiques thoraciques, dont 18 573 images provenant de plus de 30 000 patients uniques de Bengaluru, ont été utilisées pour former un modèle d'IA CheXNet, développé en Python, afin de détecter des anomalies dans les radiographies. 18 537 images supplémentaires ont permis une amélioration de la précision de 3 % en raison de données réelles qui n'étaient auparavant pas disponibles pour l'apprentissage du modèle d'IA.

La plate-forme peut accueillir n'importe quel outil d'analyse et n'a aucune restriction sur la taille des données. « Nous déciderons de la taille des données en fonction du cas d'utilisation. Dans le cas de notre démonstrateur, nous avons utilisé une base de données d'images radiographiques thoraciques d'environ 30 Go », explique le COO Harsha Rajaram. Il a fallu environ huit mois à Aster Digital Health, dont quatre mois de démonstrateur, pour déployer le système. La plateforme a été mise en ligne en juin 2022. « Nous en sommes à nos débuts avec du matériel et des logiciels déployés dans seulement deux hôpitaux actuellement. Nous avons l'intention d'augmenter ces déploiements dans plusieurs autres hôpitaux et nous attendons avec impatience que d'autres fournisseurs nous rejoignent pour tirer parti de l'écosystème », déclare Harsha Rajaram.

Répondre aux nouveaux défis de la sécurité des données

Bien que l'apprentissage fédéré en tant que méthodologie soit une approche bien reconnue pour relever les défis de la confidentialité des données, il entraîne également des risques de sécurité supplémentaires car les actifs du modèle de données/IA sont plus exposés à un piratage éventuel. Par conséquent, il est essentiel de fournir des efforts en sécurité pour accompagner la confidentialité.

Un ensemble de codes d'instructions liés à la sécurité est intégré dans les unités centrales des serveurs, qui fournissent le cryptage de mémoire matériel requis pour isoler le code d'application spécifique et les données en mémoire pour sécuriser celles-ci. « La plateforme combine un apprentissage fédéré avec des garanties de sécurité rendues possibles par son matériel. Cela permet de protéger les données et le modèle d'IA aussi bien dans le stockage, lorsqu'ils sont transmis sur le réseau et pendant l'exécution des tâches d'apprentissage fédéré. Les fonctionnalités de sécurité de la plate-forme offrent des capacités de confidentialité, d'intégrité et de certification qui empêchent le vol ou la rétro-ingénierie de la distribution des données », déclare Harsha Rajaram. Il précise en complément : « la certification était déjà prévue dans notre PACS. Nous avons utilisé son API pour l'extraction de données. Bien que l'anonymisation n'ait pas été nécessaire puisqu'elle se trouvait au sein de notre réseau, pour le pilote, nous avons anonymisé les données du back-end ».