Présentation en français
Lieu : Salle Gallilée du CEA à l’Orme des Merisiers.
Jour : 24 Oct 2022
Heure : 9h-13h
Titre : Deep convolutional networks for inverse problems in image and video restoration
Résumé : La restauration d'images et de vidéos regroupe de nombreuses tâches---comme le débruitage, la déconvolution et la super-résolution, pour ne citer que quelques exemples---qui permettent des applications de grand intérêt dans divers domaines de la recherche et de l'industrie (par exemple, les industries de la santé, l'armée, la création, les jeux et la recherche en astrophysique). Tous les problèmes de restauration sont modélisés dans le cadre mathématique des problèmes inverses, dans lequel les modèles directs spécifient les dégradations reliant les données corrompues observées aux données originales. Ces problèmes sont classiquement résolus sur la base de régularisations choisies à la main pour atténuer leur caractère mal posé et d'algorithmes itératifs qui minimisent les sommes de termes d'attache aux données et de régulariation. L'apprentissage profond et les réseaux neuronaux convolutifs (CNNs) ont récemment augmenté de manière significative les performances de restauration d'images et de vidéos. Ces réseaux peuvent notamment apprendre l'a priori sur l'image ou la vidéo à reconstruire à partir de données, i.e., de paires de données dégradées et originales. Le modèle direct est utilisé afin de générer ces paires dans ce cadre d'apprentissage profond. Même si la régularisation apprise permet généralement d'obtenir de meilleures performances qu'une régularisation manuelle et que les CNNs sont plus rapides que les algorithmes itératifs (donc plus adaptés aux applications pratiques), les CNNs sont utilisés comme des boîtes noires et manquent d'interprétabilité. De plus, ils manquent également de flexibilité dans l'utilisation de la connaissance du modèle direct, contrairement à la résolution classique de problèmes inverses. Dans certaines situations où le modèle direct est simple et bien caractérisé, les méthodes classiques peuvent encore être plus performantes que les méthodes basées sur l'apprentissage profond. Certaines approches plus récentes sont hybrides, combinant les avantages des deux méthodes de manière complémentaire. Certaines d'elles permettent de concevoir, par exemple, un CNN unique et interprétable qui peut gérer de manière flexible les connaissances à priori des dégradations.
Ce travail étudie les architectures de réseaux de neurones pour résoudre les problèmes de restauration d'images et de vidéos. Premièrement, nous expliquons les principes des méthodes de restauration d'images et de vidéos classiques, puis basées sur l'apprentissage profond, puis hybrides. Ensuite, nous nous concentrons sur le problème inverse de la super-résolution vidéo : nous passons en revue sa résolution traditionnelle et sa résolution dans l'état de l'art basée sur l'apprentissage profond. Comme première contribution, nous proposons un réseau de super-résolution vidéo hybride qui combine les avantages de la résolution classique avec la puissance de représentation des CNNs. Comme deuxième contribution, nous proposons un réseau de super-résolution vidéo récurrent adapté à la super résolution de longues vidéos dans lesquelles certaines parties de la scène bougent à peine (ce type de vidéo peut être rencontré dans des applications telles que la vidéosurveillance) et introduisons une nouvelle base de données de test de telles vidéos. En effet, nous montrons que les réseaux de super-résolution vidéo récurrents existants présentent des instabilités sur ces vidéos. Enfin, nous nous concentrons sur la déconvolution de séries temporelles d'images en radio-interférométrie, afin de permettre une meilleure détection des sources astronomiques transitoires. Ces sources, qui apparaissent et disparaissent au fil du temps, sont très intéressantes pour les astrophysiciens car elles sont associées à des phénomènes physiques de haute énergie. Comme troisième contribution, nous proposons deux architectures de réseaux de neurones qui peuvent faire de la modélisation spatiale et temporelle pour résoudre ce problème de déconvolution.-
Mots-clefs : Vidéo, Apprentissage profond, Problèmes inverses, Restauration, Super-résolution vidéo, Radio-interférométrie, Sources astrophysiques transitoires, déconvolution
Directeur de thèse : Jean-Luc Starck
_________________________________________
Presentation in French
Location: Salle Gallilée, CEA Orme des Merisiers.
Day : Oct 24th 2022
Time: 9h-13h
Title: Deep convolutional networks for inverse problems in image and video restoration
Abstract: Image and video restoration regroups numerous tasks---such as denoising, deconvolution, and super-resolution, to give a few examples---that enable applications that are of high interest in diverse research and industrial areas (e.g., health, military, creative, gaming industries, and research in astrophysics). All restoration problems are modeled in the mathematical framework of inverse problems, in which forward models specify degradations connecting the observed corrupted data to the original data. These problems are classically solved using hand-crafted regularizations to mitigate their ill-posedness and iterative algorithms that minimize sums of data fidelity and regularization terms. Deep learning (DL) and Convolutional Neural Networks (CNNs) have recently significantly increased image and video restoration performance. These networks can learn the regularization from data, i.e., pairs of degraded and original data. The forward model is used in order to generate these pairs in this DL framework. Even though the learned regularization generally enables better performance than a hand-crafted one and CNNs are faster than iterative algorithms (thus more suitable for practical applications), CNNs are used as black boxes and lack interpretability. Moreover, they also lack flexibility in using knowledge of the forward model, contrary to classical inverse problem-solving. In some situations where the forward model is simple and well characterized, classical methods can still perform better than DL-based ones. Some more recent approaches are hybrid, blending the advantages of both methods in a complementary way. Some of them enable to design, for instance, a single and interpretable CNN that can flexibly manage knowledge about degradations.
Thiss work investigates neural network architectures to solve image and video restoration problems. First, we explain the principles of classical, DL-based, and hybrid image and video restoration methods. Second, we focus on the Video-Super-Resolution (VSR) inverse problem: we review its traditional solving and state-of-the-art solving based on DL. As our first contribution, we propose a hybrid VSR network that mixes the advantages of classical solving with the representation power of CNNs. As our second contribution, we propose a recurrent VSR network adapted for super-resolving long videos in which some parts of the scene barely move (this kind of video can be encountered in applications such as video surveillance) and introduce a new test dataset of such videos. We demonstrate that existing recurrent VSR networks present instabilities on such videos. Finally, we focus on the deconvolution of image time-series in radio-interferometry, to enable better detection of transient astronomical sources. They are sources that appear and disappear over time and are highly interesting for astrophysicists because they are associated with high-energy physical phenomena. As our third contribution, we propose two neural network architectures that can do spatial and temporal modeling to solve this deconvolution problem.
Keywords: Video, Deep learning, Inverse problem, Restoration, Video super-resolution, Radio-interferometry, Astronomical transient sources, deconvolution
Thesis supervisor: Jean-Luc Starck