Les missions du poste

Établissement : Université de Montpellier
École doctorale : I2S - Information, Structures, Systèmes
Laboratoire de recherche : ESPACE DEV
Direction de la thèse : Emmanuel ROUX ORCID 0000000322668207
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-05-04T23:59:59

Cette proposition fait suite au financement du projet de stage EcoLink sélectionné par le PTL Colors MIPS.

Le contexte de cette thèse s'inscrit dans le cadre des concepts One Health et Planetary Health, qui visent à analyser les perturbations du système terrestre causées par l'activité humaine, notamment les dérèglements climatiques et les événements extrêmes, ainsi que leurs impacts sur la santé. L'enjeu sociétal adressé par cette thèse est de permettre aux populations locales ainsi qu'aux acteurs décisionnaires de mieux interpréter, anticiper et répondre aux impacts du changement climatique d'ores et déjà vécus ou prévus par les scénarios de projection climatique. Cet enjeu s'aligne notamment avec les objectifs du développement durable 3 (Bonne santé et bien-être) et 13 (Mesures relatives à la lutte contre les changements climatiques).

De nombreux travaux proposent aujourd'hui des modèles de simulation [20] ou d'apprentissage pour étudier ces interactions, en s'appuyant sur des approches statistiques [21] ou des méthodes d'apprentissage automatique [18, 19]. Ces approches permettent d'identifier des corrélations ou de fournir des prédictions, mais restent souvent limitées en termes d'explicabilité et d'analyse de scénarios. En plus, elles peuvent être coûteuses en ressources de calcul et difficiles à généraliser à différents contextes. De tels modèles s'avèrent également inadaptés aux situations émergentes où les données sont rares et dont les implications pour la santé des populations exposées peuvent être nombreuses et graves. Par exemple, de telles situations peuvent être associées à l'occurrence de phénomènes météorologiques jusque-là non observés dans la région mais devenant (ou étant censés devenir) plus fréquents et/ou intenses du fait du changement climatique (ou des scénarios futurs de changement climatique) : sécheresses extrêmes, inondations, etc.

Cette thèse propose d'explorer des approches alternatives, plus frugales, interprétables et explicables. Ainsi, nous privilégierons l'exploitation de données existantes issues de Data Hubs (tels que Data Terra ou Climats Sud), afin d'identifier des situations analogues et d'en tirer des enseignements. Dans ce contexte, un raisonnement par analogie, qui permet d'interpréter une telle situation et d'orienter la prise de décision, s'avère particulièrement prometteur. La recherche de cas similaires a été étudiée dans le cadre du raisonnement analogique CBR [22]. Nous tirerons parti des récentes avancées dans le domaine du raisonnement analogique explicable (XCBR) [14, 16, 17], où est prise en compte la description de cas complexes et la similarité sémantique entre ces cas par l'utilisation de graphes de connaissances.

De plus, lorsque c'est pertinent, nous chercherons à calculer des explications contrefactuelles [13, 15] afin de mieux anticiper les actions à prendre pour atténuer les effets des scénarios ou des événements climatiques extrêmes. Les explications contrefactuelles permettent de mieux appréhender quelles modifications minimales apporter aux paramètres d'un indicateur connu, afin que ce dernier soit associé à des situations souhaitables ou à éviter. Par exemple, si l'on considère l'application d'un indicateur de risque sur la santé à un cas d'étude observé ou prédit (en tenant compte du scénario climatique), une explication contrefactuelle permettra de déterminer quels leviers actionner (parmi les paramètres en entrée) pour diminuer le risque à un niveau inférieur, ou, inversement, éviter d'augmenter le risque à un niveau supérieur.

La thèse se déroulera en trois phases : 1) état de l'art, structuration des données, premier prototype, description et recherche de cas similaires 2) amélioration du système d'aide à la décision, avec optimisation du raisonnement analogique et des explications contrefactuelles ; et 3) validation des explications auprès des différents acteurs et généralisation à d'autres études de cas.

Enjeu sociétal:
Observer les différents éléments du système Terre est essentiel pour mieux comprendre son évolution et prédire les impacts du changement climatique sur la santé. Dans cette direction, les concepts de One Health et Planetary Health visent à étudier comment les perturbations du système terrestre causées par l'homme (dérèglements et événements climatiques extrêmes) affectent la santé humaine [1]. Mieux appréhender les impacts du changement climatique sur la santé permet aux acteurs et aux populations concernés d'élaborer des stratégies d'adaptation et de mitigation plus efficaces. Or, les populations et les décideurs locaux sont de plus en plus confrontés à des phénomènes nouveaux, émergents (crise de la COVID-19, événements climatiques extrêmes, etc.) face auxquels ils sont relativement démunis. Dans de telles situations, le manque, voire l'absence de données rend difficile, voire impossible, la construction de modèles robustes basés sur ces données (modèles statistiques, d'apprentissage automatique) et censés aider la prise de décision. De telles situations peuvent, par exemple, être associées à l'occurrence de phénomènes météorologiques jusque-là non observés dans la région, mais devenant (ou étant censés devenir) plus fréquents et/ou intenses du fait du changement climatique (ou des scénarios futurs de changement climatique) : sécheresses extrêmes, inondations, etc. Dans ce contexte, un raisonnement par analogie et les explications contrefactuelles qui permettent d'interpréter une telle situation et d'orienter la prise de décision s'avèrent particulièrement prometteurs.

Contexte géographique:
Cette proposition portera tout d'abord sur les zones frontalières de l'Amazonie brésilienne : la frontière Guyane-Brésil et la trifrontière Brésil-Pérou-Colombie. Dans ce contexte, nous nous intéresserons à mieux préparer les différents acteurs à interpréter et à répondre aux impacts des scénarios climatiques sur la santé et le bien-être des populations locales. Ces impacts sont multiples : risque accru d'exposition aux maladies vectorielles (paludisme, arboviroses, leishmaniose, etc.) et aux zoonoses (, e.g., telles que la rage), etc. [10].

Problématique:
Le contexte de l'étude nous met en présence de situations que l'on souhaite décrire ou expliquer aux acteurs mais où l'impact de la projection climatique (à 10, 20, 30 ans) ou de la survenue d'événements extrêmes n'a pas encore été observé pour le lieu et l'objet d'étude considérés.

Hypothèses de recherche:
H1) Afin de mieux appréhender les effets potentiels de scénarios climatiques ou d'événements extrêmes, cette thèse se focalisera sur l'identification et l'analyse des cas similaires survenus dans des conditions comparables.
H2) Pour mieux anticiper quelles actions pourraient être prises pour atténuer les effets des scénarios ou des événements climatiques extrêmes, lorsque cela est pertinent, cette thèse visera à calculer des explications contrefactuelles qui représentent les modifications minimales à apporter aux paramètres actionnables des indicateurs environnementaux ou de santé afin de s'orienter vers des valeurs souhaitables pour ces indicateurs.

Question de recherche principale:
Comment le raisonnement analogique explicable [14, 16, 17] et les explications contrefactuelles [12,13, 15] peuvent-ils aider à mieux anticiper les impacts potentiels des scénarios du changement climatique ?

Defis majeurs:
Les deux défis majeurs auxquels se confronte le calcul d'explications analogiques ou contrefactuelles sont :
1) La représentation des connaissances environnementales, climatiques et sanitaires associées aux cas étudiés
2) La comparaison de ces cas à travers de la définition d'une fonction de similarité

Sous-questions de recherche:
Compte tenu des défis scientifiques que posent les explications analogiques et contrefactuelles, nous avons les sous-questions de recherche suivantes :
1) Comment représenter les scénarios environnement-climat-santé sous forme de connaissances de manière à la fois comparable et traitable ?
2) Comment définir et expliquer la similarité entre les scénarios climat-santé ?
3) Comment évaluer la pertinence et l'utilité des explications fournies par le système auprès des acteurs ?

L'objectif principal est le développement d'un système d'aide à la décision permettant de mieux appréhender l'impact des scénarios climatiques sur la santé, grâce à des explications analogiques et contrefactuelles.

Prérequis. À la suite du stage Eco-Link (04/2026-09/2026), financé par le PTL-Colors MIPS, un graphe de connaissances unifié sera élaboré afin de représenter les entités observées (lacs, forêts, océans, etc.) selon différentes dimensions d'observation (température, humidité, conductivité, etc.). Ces dimensions sont décrites par les hubs de données de Data Terra, THEIA [3], FormaTerre [4], AERIS [5], ODATIS [6] et PNDB [7], chacun collectant des observations relatives à un compartiment spécifique du système Terre. Les descriptions des entités d'intérêt situées dans les zones d'étude définies pour la thèse seront ensuite extraites de ce graphe de connaissances unifié.

1er année. Le début de la thèse est prévu pour Octobre 2026. La première année sera dédiée à l'étude de l'état de l'art et à la collecte des données (climatiques, environnementales, sociales, etc.) relatives aux entités de l'étude et nécessaires à l'estimation des indicateurs de santé d'intérêt (par exemple, le risque de contamination d'un lac à la suite de fortes chaleurs ou le risque d'exposition à des maladies vectorielles, etc.). Afin d'ajouter de la transparence au calcul d'indicateurs complexes, du temps sera consacré à la description de ces indicateurs et des relations entre leurs composantes au moyen d'un graphe de connaissances. Ensuite, sera développé le premier module de recherche des situations similaires prenant en entrée une entité d'intérêt et un scénario climatique et retournant les autres entités similaires issues du graphe unifié de Data Terra, présentant un profil climatique et géographique (Données ClimaSuds) proche de la projection climatique envisagée. Cette approche sera évaluée et fera l'objet d'une soumission d'un article scientifique [Publication 1].

2ème année. La deuxième année de thèse sera consacrée à l'amélioration du système de raisonnement à base de cas et de connaissances. Une attention particulière sera portée à la conception de modules permettant de définir la distance sémantique entre des situations analogues et d'améliorer la recherche de cas similaires.
L'extension du système de raisonnement à base de cas fera l'objet d'une évaluation tenant compte de la pertinence des explications auprès de différents acteurs. L'approche donnera lieu à une publication scientifique [Publication 2].

3ème année. La troisième année de thèse sera dédiée à la validation des explication auprès des acteurs et à l'exploitation des modules de similarité sémantique précédemment développés pour le calcul d'explications contrefactuelles. Ce cadre méthodologique dans lequel différentes explications sont calculées fera l'objet d'un article scientifique [Publication 3].
Le système complet ainsi que sa description, combinant une architecture modulaire et l'intersection des fonctionnalités communes pour le calcul des explications contrefactuelles et le raisonnement à base de cas, sera publiée dans une revue [Publication 4].
Enfin, la moitié de la troisième année sera consacrée à la rédaction du manuscrit de la thèse et à la préparation de la soutenance.

Le profil recherché

Formation, compétences:
- Master 2 en Informatique, avec de solides bases en représentation de connaissances et raisonnement automatique ;
- Des connaissances et des expériences en apprentissage automatique et statistique seront particulièrement appréciées ;
- Manipulation, traitement, analyse de données réelles, hétérogènes et multimodales dans des domaines climatiques, santé et/ou environnementales ;
- Compétences rédactionnelles.

Programmation Informatique :
- Python (indispensable) ;
- Manipulation des librairies ML : Transformers (Hugging Face), Scikit-learn, TensorFlow etc.

Autre :
- Goût et capacités pour les approches pluri-/interdisciplinaires, dans un contexte international, multiculturel et multilingue ;
- Intérêt pour le travail collaboratif.

Compétences requises

  • Compétences rédactionnelles
Postuler sur le site du recruteur

Ces offres pourraient aussi vous correspondre.

L’emploi par métier dans le domaine Data et IA à Montpellier