Page perso : https://flanusse.net
Labo : https://www.cosmostat.org
Voir aussi : https://tobias-liaudat.github.io
Contexte
Les problèmes inverses, cest-à-dire lestimation des signaux sous-jacents à partir dobservations corrompues, sont omniprésents en astrophysique, et notre capacité à les résoudre avec précision est essentielle à linterprétation scientifique des données. Parmi les exemples de ces problèmes, on peut citer linférence de la distribution de la matière noire dans lUnivers à partir des effets de lentille gravitationnelle [1], ou la séparation des composantes dans limagerie radio-interférométrique [2].
Grâce aux récents progrès de lapprentissage profond, et en particulier aux techniques de modélisation générative profonde (par exemple les modèles de diffusion), il est désormais possible non seulement dobtenir une estimation de la solution de ces problèmes inverses, mais aussi deffectuer une quantification de lincertitude en estimant la distribution de probabilité a posteriori Bayésienne du problème, cest-à-dire en ayant accès à toutes les solutions possibles qui seraient permises par les données, mais aussi plausibles en fonction des connaissances antérieures.
Notre équipe a notamment été pionnière dans lélaboration de méthodes bayésiennes combinant notre connaissance de la physique du problème, sous la forme dun terme de vraisemblance explicite, avec des à prioris basées sur les données et mises en œuvre sous la forme de modèles génératifs. Cette approche contrainte par la physique garantit que les solutions restent compatibles avec les données et évite les « hallucinations » qui affectent généralement la plupart des applications génératives de lIA.
Cependant, malgré les progrès remarquables réalisés au cours des dernières années, plusieurs défis subsistent dans le cadre évoqué ci-dessus, et plus particulièrement :
[Données à priori imparfaites ou avec une distribution décalée] La construction de données à priori nécessite généralement laccès à des exemples de données non corrompues qui, dans de nombreux cas, nexistent pas (par exemple, toutes les images astronomiques sont observées avec du bruit et une certaine quantité de flou), ou qui peuvent exister mais dont la distribution peut être décalée par rapport aux problèmes auxquels nous voudrions appliquer ce distribution à priori.
Ce décalage peut fausser les estimations et conduire à des conclusions scientifiques erronées. Par conséquent, ladaptation, ou létalonnage, des antécédents basés sur les données à partir dobservations incomplètes et bruyantes devient cruciale pour travailler avec des données réelles dans les applications astrophysiques.
[Échantillonnage efficace de distributions a posteriori à haute dimension] Même si la vraisemblance et là priori basé par les données sont disponibles, léchantillonnage correct et efficace de distributions de probabilités multimodales non convexes dans des dimensions si élevées reste un problème difficile. Les méthodes les plus efficaces à ce jour reposent sur des modèles de diffusion, mais elles sappuient sur des approximations et peuvent être coûteuses au moment de linférence pour obtenir des estimations précises des distributions a posteriori souhaités.
Les exigences strictes des applications scientifiques sont un moteur puissant pour lamélioration des méthodologies, mais au-delà du contexte scientifique astrophysique qui motive cette recherche, ces outils trouvent également une large application dans de nombreux autres domaines, y compris les images médicales [3].
Projet de doctorat
Le candidat visera à répondre à ces limitations des méthodologies actuelles, avec lobjectif global de rendre la quantification de lincertitude pour les problèmes inverses à grande échelle plus rapide et plus précise.
Comme première direction de recherche, nous étendrons une méthodologie récente développée simultanément par notre équipe et nos collaborateurs de Ciela [4,5], basée sur lalgorithme despérance-maximisation, afin dapprendre itérativement (ou dadapter) des distributions à priori basés sur des méthodes de diffusion à des données observées sous un certain degré de corruption. Cette stratégie sest avérée efficace pour corriger les décalages de la distribution á priori (et donc pour obtenir des distributions à posteriori bien calibrés). Cependant, cette approche reste coûteuse car elle nécessite la résolution itérative de problèmes inverses et le réentraînement des modèles de diffusion, et dépend fortement de la qualité du solveur de problèmes inverses. Nous explorerons plusieurs stratégies, notamment linférence variationnelle et les stratégies améliorées déchantillonnage pour des problèmes inverses, afin de résoudre ces difficultés.
Dans une deuxième direction (mais connexe), nous nous concentrerons sur le développement de méthodologies générales pour léchantillonnage de postérieurs complexes (géométries multimodales/complexes) de problèmes inverses non linéaires. En particulier, nous étudierons des stratégies basées sur le recuit (annealing) de la distribution à posteriori, inspirées de léchantillonnage de modèles de diffusion, applicables dans des situations avec des vraisemblances et des distributions à priori explicites.
Finalement, nous appliquerons ces méthodologies à des problèmes inverses difficiles et à fort impact en astrophysique, en particulier en collaboration avec nos collègues de linstitut Ciela, nous viserons à améliorer la reconstruction des sources et des lentilles des systèmes de lentilles gravitationnelles fortes.
Des publications dans les meilleures conférences sur lapprentissage automatique sont attendues (NeurIPS, ICML), ainsi que des publications sur les applications de ces méthodologies dans des revues dastrophysique.
Références
[1] Benjamin Remy, Francois Lanusse, Niall Jeffrey, Jia Liu, Jean-Luc Starck, Ken Osato, Tim Schrabback, Probabilistic Mass Mapping with Neural Score Estimation, https://www.aanda.org/articles/aa/abs/2023/04/aa43054-22/aa43054-22.html
[2] Tobías I Liaudat, Matthijs Mars, Matthew A Price, Marcelo Pereyra, Marta M Betcke, Jason D McEwen, Scalable Bayesian uncertainty quantification with data-driven priors for radio interferometric imaging, RAS Techniques and Instruments, Volume 3, Issue 1, January 2024, Pages 505–534, https://doi.org/10.1093/rasti/rzae030
[3] Zaccharie Ramzi, Benjamin Remy, Francois Lanusse, Jean-Luc Starck, Philippe Ciuciu, Denoising Score-Matching for Uncertainty Quantification in Inverse Problems, https://arxiv.org/abs/2011.08698
[4] François Rozet, Gérôme Andry, François Lanusse, Gilles Louppe, Learning Diffusion Priors from Observations by Expectation Maximization, NeurIPS 2024, https://arxiv.org/abs/2405.13712
[5] Gabriel Missael Barco, Alexandre Adam, Connor Stone, Yashar Hezaveh, Laurence Perreault-Levasseur, Tackling the Problem of Distributional Shifts: Correcting Misspecified, High-Dimensional Data-Driven Priors for Inverse Problems, https://arxiv.org/abs/2407.17667