Institut de recherche sur les lois fondamentales de l'Univers

Contexte
Les problèmes inverses, cest-à-dire lestimation des signaux sous-jacents à partir dobservations corrompues, sont omniprésents en astrophysique, et notre capacité à les résoudre avec précision est essentielle à linterprétation scientifique des données. Parmi les exemples de ces problèmes, on peut citer linférence de la distribution de la matière noire dans lUnivers à partir des effets de lentille gravitationnelle [1], ou la séparation des composantes dans limagerie radio-interférométrique [2].

Grâce aux récents progrès de lapprentissage profond, et en particulier aux techniques de modélisation générative profonde (par exemple les modèles de diffusion), il est désormais possible non seulement dobtenir une estimation de la solution de ces problèmes inverses, mais aussi deffectuer une quantification de lincertitude en estimant la distribution de probabilité a posteriori Bayésienne du problème, cest-à-dire en ayant accès à toutes les solutions possibles qui seraient permises par les données, mais aussi plausibles en fonction des connaissances antérieures.

Notre équipe a notamment été pionnière dans lélaboration de méthodes bayésiennes combinant notre connaissance de la physique du problème, sous la forme dun terme de vraisemblance explicite, avec des à prioris basées sur les données et mises en œuvre sous la forme de modèles génératifs. Cette approche contrainte par la physique garantit que les solutions restent compatibles avec les données et évite les « hallucinations » qui affectent généralement la plupart des applications génératives de lIA.

Cependant, malgré les progrès remarquables réalisés au cours des dernières années, plusieurs défis subsistent dans le cadre évoqué ci-dessus, et plus particulièrement :

[Données à priori imparfaites ou avec une distribution décalée] La construction de données à priori nécessite généralement laccès à des exemples de données non corrompues qui, dans de nombreux cas, nexistent pas (par exemple, toutes les images astronomiques sont observées avec du bruit et une certaine quantité de flou), ou qui peuvent exister mais dont la distribution peut être décalée par rapport aux problèmes auxquels nous voudrions appliquer ce distribution à priori.
Ce décalage peut fausser les estimations et conduire à des conclusions scientifiques erronées. Par conséquent, ladaptation, ou létalonnage, des antécédents basés sur les données à partir dobservations incomplètes et bruyantes devient cruciale pour travailler avec des données réelles dans les applications astrophysiques.

[Échantillonnage efficace de distributions a posteriori à haute dimension] Même si la vraisemblance et là priori basé par les données sont disponibles, léchantillonnage correct et efficace de distributions de probabilités multimodales non convexes dans des dimensions si élevées reste un problème difficile. Les méthodes les plus efficaces à ce jour reposent sur des modèles de diffusion, mais elles sappuient sur des approximations et peuvent être coûteuses au moment de linférence pour obtenir des estimations précises des distributions a posteriori souhaités.

Les exigences strictes des applications scientifiques sont un moteur puissant pour lamélioration des méthodologies, mais au-delà du contexte scientifique astrophysique qui motive cette recherche, ces outils trouvent également une large application dans de nombreux autres domaines, y compris les images médicales [3].

Projet de doctorat
Le candidat visera à répondre à ces limitations des méthodologies actuelles, avec lobjectif global de rendre la quantification de lincertitude pour les problèmes inverses à grande échelle plus rapide et plus précise.
Comme première direction de recherche, nous étendrons une méthodologie récente développée simultanément par notre équipe et nos collaborateurs de Ciela [4,5], basée sur lalgorithme despérance-maximisation, afin dapprendre itérativement (ou dadapter) des distributions à priori basés sur des méthodes de diffusion à des données observées sous un certain degré de corruption. Cette stratégie sest avérée efficace pour corriger les décalages de la distribution á priori (et donc pour obtenir des distributions à posteriori bien calibrés). Cependant, cette approche reste coûteuse car elle nécessite la résolution itérative de problèmes inverses et le réentraînement des modèles de diffusion, et dépend fortement de la qualité du solveur de problèmes inverses. Nous explorerons plusieurs stratégies, notamment linférence variationnelle et les stratégies améliorées déchantillonnage pour des problèmes inverses, afin de résoudre ces difficultés.
Dans une deuxième direction (mais connexe), nous nous concentrerons sur le développement de méthodologies générales pour léchantillonnage de postérieurs complexes (géométries multimodales/complexes) de problèmes inverses non linéaires. En particulier, nous étudierons des stratégies basées sur le recuit (annealing) de la distribution à posteriori, inspirées de léchantillonnage de modèles de diffusion, applicables dans des situations avec des vraisemblances et des distributions à priori explicites.
Finalement, nous appliquerons ces méthodologies à des problèmes inverses difficiles et à fort impact en astrophysique, en particulier en collaboration avec nos collègues de linstitut Ciela, nous viserons à améliorer la reconstruction des sources et des lentilles des systèmes de lentilles gravitationnelles fortes.
Des publications dans les meilleures conférences sur lapprentissage automatique sont attendues (NeurIPS, ICML), ainsi que des publications sur les applications de ces méthodologies dans des revues dastrophysique.

Références
[1] Benjamin Remy, Francois Lanusse, Niall Jeffrey, Jia Liu, Jean-Luc Starck, Ken Osato, Tim Schrabback, Probabilistic Mass Mapping with Neural Score Estimation, https://www.aanda.org/articles/aa/abs/2023/04/aa43054-22/aa43054-22.html

[2] Tobías I Liaudat, Matthijs Mars, Matthew A Price, Marcelo Pereyra, Marta M Betcke, Jason D McEwen, Scalable Bayesian uncertainty quantification with data-driven priors for radio interferometric imaging, RAS Techniques and Instruments, Volume 3, Issue 1, January 2024, Pages 505–534, https://doi.org/10.1093/rasti/rzae030

[3] Zaccharie Ramzi, Benjamin Remy, Francois Lanusse, Jean-Luc Starck, Philippe Ciuciu, Denoising Score-Matching for Uncertainty Quantification in Inverse Problems, https://arxiv.org/abs/2011.08698

[4] François Rozet, Gérôme Andry, François Lanusse, Gilles Louppe, Learning Diffusion Priors from Observations by Expectation Maximization, NeurIPS 2024, https://arxiv.org/abs/2405.13712

[5] Gabriel Missael Barco, Alexandre Adam, Connor Stone, Yashar Hezaveh, Laurence Perreault-Levasseur, Tackling the Problem of Distributional Shifts: Correcting Misspecified, High-Dimensional Data-Driven Priors for Inverse Problems, https://arxiv.org/abs/2407.17667

Impact du clustering de sources sur les statistiques d'ordre supérieur des données weak lensing d'Euclid

SL-DRF-25-0341

Domaine de recherche :

Astrophysique

Laboratoire d'accueil :

Direction d’Astrophysique (DAP)

Laboratoire CosmoStat (LCS)

Saclay

Contact :

Natalia Porqueres

Jean-Luc STARCK

Date souhaitée pour le début de la thèse : 01-10-2025

Contact :

Natalia Porqueres
CEA - DRF

+33169085764

Directeur de thèse :

Jean-Luc STARCK
CEA - DRF/IRFU/DAP/LCS

01 69 08 57 64

Page perso : http://jstarck.cosmostat.org

Labo : http://www.cosmostat.org

Voir aussi : https://www.physics.ox.ac.uk/our-people/porqueres

Dans les années à venir, la mission Euclid fournira des mesures des formes et des positions de milliards de galaxies avec une précision sans précédent. Lorsque la lumière des galaxies d’arrière-plan traverse l’Univers, elle est déviée par la gravité des structures cosmiques, déformant les formes apparentes des galaxies. Cet effet, connu sous le nom de lentille faible, est la sonde cosmologique la plus puissante de la prochaine décennie, et il peut répondre à certaines des plus grandes questions de la cosmologie : que sont la matière noire et l’énergie noire, et comment se forment les structures cosmiques ’
L’approche standard de l’analyse de la lentille faible consiste à ajuster les statistiques à deux points des données, telles que la fonction de corrélation des formes de galaxies observées. Cependant, cette compression des données n’est pas optimale et rejette de grandes quantités d’informations. Cela a conduit au développement de plusieurs approches basées sur des statistiques d’ordre élevé, telles que les troisièmes moments, les harmoniques de phase en ondelettes et les analyses au niveau du champ. Ces techniques fournissent des contraintes plus précises sur les paramètres du modèle cosmologique (Ajani et al. 2023). Cependant, avec leur précision croissante, ces méthodes deviennent sensibles aux effets systématiques qui étaient négligeables dans les analyses statistiques standard à deux points.
L'une de ces systématiques est le regroupement des sources, qui fait référence à la distribution non uniforme des galaxies observées dans les relevés de lentilles faibles. Plutôt que d'être uniformément distribuées, les galaxies observées suivent la densité de matière sous-jacente. Ce regroupement provoque une corrélation entre le signal de lentille et la densité du nombre de galaxies, conduisant à deux effets : (1) il module la distribution effective du décalage vers le rouge des galaxies, et (2) il corrèle le bruit de forme des galaxies avec le signal de lentille. Bien que cet effet soit négligeable pour les statistiques à deux points (Krause et al. 2021, Linke et al. 2024), il a un impact significatif sur les résultats des statistiques d'ordre élevé (Gatti et al. 2023). Par conséquent, une modélisation précise du regroupement des sources est essentielle pour appliquer ces nouvelles techniques aux données de lentilles faibles d'Euclid.
Dans ce projet, nous développerons un cadre d'inférence pour modéliser le regroupement de sources et évaluer son impact sur les contraintes cosmologiques à partir de statistiques d'ordre élevé. Les objectifs du projet sont :
1. Développer un cadre d'inférence qui remplit les champs de matière noire avec des galaxies, en modélisant avec précision la distribution non uniforme des galaxies d'arrière-plan dans les relevés de lentilles faibles.
2. Quantifier l'impact du regroupement de sources sur les paramètres cosmologiques à partir de transformées en ondelettes et d'analyses au niveau du champ.
3. Incorporer le regroupement de sources dans des émulateurs de la distribution de matière pour permettre une modélisation précise des données dans les analyses statistiques d'ordre élevé.
Grâce à ces développements, ce projet améliorera la précision des analyses cosmologiques et le réalisme de la modélisation des données, rendant possibles des analyses statistiques d'ordre élevé pour les données Euclid.

L'apprentissage automatique pour l'analyse cosmologique des images de lentille gravitationnelle faible provenant du satellite Euclid

SL-DRF-25-0367

Domaine de recherche :

Astrophysique

Laboratoire d'accueil :

Direction d’Astrophysique (DAP)

Laboratoire CosmoStat (LCS)

Saclay

Contact :

Martin Kilbinger

Samuel Farrens

Date souhaitée pour le début de la thèse : 01-10-2025

Contact :

Martin Kilbinger
CEA - DRF/IRFU/DAp/LCS

21753

Directeur de thèse :

Samuel Farrens
CEA - DRF/IRFU/DAP/LCS

28377

Page perso : http://www.cosmostat.org/people/kilbinger

Labo : http://www.cosmostat.org

L'effet de lentille gravitationnelle faible, la distorsion des images de galaxies à haut redshift due aux structures de matière au long de la ligne de visée à grande échelle, est l'un des outils les plus prometteurs de la cosmologie pour sonder le secteur sombre de l'Univers. Le satellite spatial européen Euclide mesurera les paramètres cosmologiques avec une précision sans précédent. Pour atteindre cet objectif ambitieux, un certain nombre de sources d’erreurs systématiques doivent être quantifiées et comprises. L’une des principales origines des biais est liée à la détection des galaxies. Il existe une forte dépendance à la densité de galaxies locale et au fait que l'émission lumineuse de la galaxie chevauche les objets proches. Si elles ne sont pas traitées correctement, de telles galaxies « mélangées » (blended) biaiseront fortement toute mesure ultérieure de distorsions d'image à faible lentille.
L'objectif de cette thèse est de quanti’er et de corriger les biais de détection des lentilles faibles, notamment dus au mélange. À cette fin, des algorithmes modernes d’apprentissage automatique et profond, y compris des techniques d’auto-différenciation, seront utilisés. Ces techniques permettent une estimation très efficace de la sensibilité des biais liés aux propriétés des galaxies et des levés sans qu'il soit nécessaire de créer un grand nombre de simulations. L'étudiant effectuera des analyses d'inférence de paramètres cosmologiques des données de lentille faible d'Euclide. Les corrections des biais développées dans cette thèse seront inclutes à prior dans la mesure de formes de galaxies, où à postérior â l'aide de paramètres de nuisance, afin d'obtenir des mesures de paramètres cosmologiques avec une fiabilitlé requise pour une cosmologie de précision.

Les amas de galaxies dans le champ profond FornaX XMM-Euclid

SL-DRF-25-0502

Domaine de recherche :

Astrophysique

Laboratoire d'accueil :

Direction d’Astrophysique (DAP)

Laboratoire CosmoStat (LCS)

Saclay

Contact :

Marguerite PIERRE

Date souhaitée pour le début de la thèse : 01-10-2025

Contact :

Marguerite PIERRE
CEA - DRF/IRFU/DAP/LCS

0169083492

Directeur de thèse :

Marguerite PIERRE
CEA - DRF/IRFU/DAP/LCS

0169083492

Labo : https://www.cosmostat.org/

Voir aussi : https://fornax.cosmostat.org/

Le projet XMM Heritage sur le champ DEEP Euclid Fornax a pour but de caractériser les amas de galaxies distants en comparant les détections en X et en optique/IR. Les deux méthodes font appel à des propriétés des amas très différentes ; ultimement, leur combinaison permettra de fixer les paramètres libres de la fonction de sélection des amas Euclid sur tout le survey WIDE, et constituera donc un ingrédient fondamental pour l’analyse cosmologique Euclid.

La gamme de redshift visée ([1-2]) n'a jamais pu être explorée de manière systématique alors qu'elle constitue un domaine critique pour l'utilisation des amas en cosmologie.
Avec FornaX, pour la première fois, on aura accès à un grand volume à ces redshifts, ce qui permettra de quantifier statistiquement l'évolution des amas : rôle des AGN dans les propriétés du gaz intra-amas ’ Existe-t-il des amas massifs déficients en gaz ’ Quelles sont les biais respectifs de détection en X et en optique ’
Le travail de thèse consistera en (1) la construction et la validation du catalogue d’amas X ; (2) la corrélation avec les catalogues en optique/IR obtenus par Euclid (3) l’étude de l’évolution combinée X-optique des amas.
Tous les algorithmes de détection et de caractérisation des amas dans les images XMM existent, mais on poussera la détection plus profondément en utilisant des techniques d’intelligence artificielle (combinant l’information spatiale et spectrale sur les sources). Le problème complexe de la corrélation spatiale entre les catalogues d’amas XMM et Euclid fera aussi intervenir l’IA.

Site du projet : https://fornax.cosmostat.org/

• Astrophysique