L’apprentissage fédéré fait ses gammes dans le secteur de la santé. Cette méthode permet de développer des algorithmes d’IA sans avoir à centraliser les données dont ils ont besoin. Ce ne sont pas les données des établissements de santé qui voyagent, mais les algorithmes qui passent d’une base à l’autre pour être entraînés. Que faut-il en penser ?
L’apprentissage fédéré s’avère particulièrement intéressant pour la recherche en santé, où la confidentialité des données est primordiale. Il repose sur un principe de collaboration entre des centres de recherche ou des hôpitaux. Chaque établissement dispose de ses propres données, souvent sensibles, qu’elle ne souhaite pas divulguer à d’autres partenaires. Un modèle initial d’algorithme est créé et distribué à chaque structure pour être entraîné. Pour Pauline Elie, conseillère éthique sur les données de santé à l’hôpital Lariboisière à Paris, "cette méthode semble a priori plus protectrice que l’apprentissage sur des données centralisées. Néanmoins, des allers et retours correctifs demeurent nécessaires pour s’assurer de l’intégrité et de la pertinence des données agrégées par des algorithmes d’apprentissage fédéré, et donc de l’auditabilité de ces derniers." Une analyse confortée par les travaux de la chaire Santé de Sciences Po sur le sujet : "Le modèle fédéré permet un contrôle par les producteurs de données, [et] amène une meilleure confiance des individus pour qu’ils déposent leurs données à des fins de recherche", peut-on lire dans une publication de février dernier[1]. Cette méthode peut-elle favoriser la revendication d’un droit de propriété sur ces données par les citoyens ? "Plutôt que de parler de propriété des données (ce qui induirait de les céder sans pouvoir les récupérer), il faut parler de leur maîtrise, c’est-à-dire de la possibilité pour chaque individu de demander la suppression des données d’un serveur à des fins de recherche. L’apprentissage fédéré semble favorable à cette maîtrise", nous confie Pauline Elie.
L’exemple prometteur d’Owkin
Parmi les applications emblématiques, citons le projet HealthChain mené par la start-up franco-américaine Owkin en collaboration avec quatre grands centres et hôpitaux français spécialisés en oncologie : le centre Léon Bérard à Lyon, l’Institut Curie à Paris, l’Institut Gustave Roussy à Villejuif et l’Institut universitaire du cancer de Toulouse. Ces travaux ont permis de définir des marqueurs de réponse future à une chimiothérapie néoadjuvante, réalisée avant l’intervention chirurgicale ou la radiothérapie chez des patientes atteintes d’un cancer du sein, "Nous avons franchi une étape importante avec le déploiement de cette infrastructure d’apprentissage fédéré, montrant une nouvelle approche dans la construction des algorithmes d’IA dans la recherche sur le cancer répondant aux enjeux RGPD", s’est félicité Julien Guérin, directeur des données à l’Institut Curie, lors de la publication des résultats en janvier 2023 dans la revue Nature Medecine.
Des défis à relever
Malgré ses avantages, l’apprentissage fédéré présente encore certaines limites. La principale difficulté réside dans le partage des modèles entraînés. En effet, chaque entité participante dispose de données différentes, ce qui rend complexe le partage des modèles pour une utilisation étendue. De plus, les performances du modèle final peuvent être affectées par la qualité et la diversité des données locales. Un autre défi est lié à la sécurisation des modèles fédérés. Ils peuvent être vulnérables aux attaques malveillantes, telles que l’injection de faux résultats ou d’une rétro-ingénierie sur les données. Les chercheurs travaillent sur des systèmes de protection afin de renforcer la sécurité de cette méthode prometteuse pour la recherche.
Pierre Derrouch
[1] https://www.sciencespo.fr/chaire-sante/sites/sciencespo.fr.chaire-sante/files/Enjeux%20de%20l%27IA%20en%20sante%CC%81%2026.05.pdf