Thèse Terra Link Liage de Données du Système Terre H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université de Montpellier École doctorale : I2S - Information, Structures, Systèmes Laboratoire de recherche : MISTEA - Mathématiques, Informatique et STatistique pour l'Environnement et l'Agronomie Direction de la thèse : Clément JONQUET ORCID 0000000224041582 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-07-08T23:59:59 Grâce aux initiatives en faveur de la science ouverte, de nombreux jeux de données sur les compartiments du système Terre sont désormais disponibles sur le web. Data Terra [8] est l'infrastructure de recherche nationale dédiée au système Terre, dont INRAE est partenaire. Cette infrastructure se compose de cinq pôles de données, chacun collectant des observations sur un compartiment spécifique du système Terre, à savoir l'Atmosphère, les Océans, la Surface Continentale, la Terre Solide et la Biodiversité. L'intégration de données, c'est-à-dire, le processus automatique de collecte et d'harmonisation de jeux de données hétérogènes, est essentielle à la compréhension de l'évolution du système Terre. Ce processus est la première étape indispensable à l'élaboration d'indicateurs pour l'agriculture durable, le changement climatique, l'environnement, se basant sur des méthodes de l'intelligence artificielle (IA).
Il n'existe pas de vue globale et unifiée de données disponibles sur Data Terra. Par exemple, un chercheur étudiant les effets de la déforestation et du changement climatique sur la forêt amazonienne aurait besoin de jeux de données provenant de deux pôles : 1) le pôle Surface Continentale THEIA [1], qui offre des informations sur le stress hydrique de la végétation et les changements de couverture terrestre associés aux feux de forêt et 2) le pôle Atmosphère AERIS [3], qui fournit des données sur les impacts atmosphériques des feux de forêt, en particulier la teneur en aérosols. Actuellement, ce travail peut se faire manuellement, avec le risque de perte de jeux de données pertinents, en s'appuyant sur les métadonnées disponibles pour chaque jeu de données. Les métadonnées sont des informations indispensables pour décrire les jeux de données. Malgré les premiers efforts d'harmonisation des métadonnées de Data Terra, celles-ci demeurent non structurées et ambiguës. En l'état actuel, il n'est pas possible d'identifier que des jeux de données, en provenance de différents pôles, et enregistrant des propriétés mesurées différentes, décrivent la même entité du monde réel. Ce problème d'interopérabilité, bien connu sous le nom d'alignement d'entités, demeure un défi ouvert qui nécessite une méthodologie et des solutions spécifiques à chaque contexte d'application. À notre connaissance, il n'existe pas d'approche permettant de réconcilier les entités décrites dans les métadonnées du système Terre.
Cette thèse aborde le défi de l'interopérabilité en proposant des approches d'extraction et d'alignement d'entités, tirant le meilleur parti des métadonnées accessibles librement via Data Terra. Elle contribue directement aux objectifs de l'Orientation Stratégique 5 (OS5) de l'INRAE.
In fine, les travaux proposés permettront la construction d'un graphe de connaissances représentant une vue unifiée des métadonnées disponibles pour les données des différents pôles en contribuant activement à leur interopérabilité sémantique, c'est-à-dire en s'assurant que tous les pôles utilisent un vocabulaire harmonisé et décrivent les mêmes entités du monde réel de façon identique. La méthodologie proposée est la suivante :
1) Extraction d' entités et des relations sémantiques entre ces entités à partir a) des métadonnées disponibles sous forme textuelle et b) des ontologies et des thésaurus du domaine.
2) Alignement d'entités visant à découvrir et à interconnecter les entités extraites afin de construire le graphe de connaissances représentant une vue unifiée des données.
Ce travail se basera sur des méthodes d'IA hybrides, combinant des méthodes d'IA numérique d'apprentissage supervisé pour l'extraction d'entités et des méthodes d'IA symbolique d'apprentissage non supervisé pour la construction du graphe de connaissances et la découverte de liens entre les entités extraites. La surveillance des compartiments du système Terre (Terre Solide, Surface Continentale, Atmosphère, Océan et Biodiversité) et de leurs interfaces est essentielle pour comprendre et prédire son évolution. Cela nécessite l'acquisition d'un volume croissant d'observations diverses du système Terre, incluant l'imagerie satellitaire, les mesures in situ et les données aéroportées. Ces observations sont collectées, traitées puis, grâce aux initiatives en faveur de la science ouverte, standardisées et diffusées au travers de milliers de jeux de données spécifiques à chaque domaine. L'Infrastructure de Recherche Data Terra [8] regroupe cinq pôles de données : THEIA [1], FormaTerre [2], AERIS [3], ODATIS [4] et PNDB [5], et a pour mission de permettre l'accès aux produits et services de données pour soutenir l'observation des surfaces continentales, de la Terre solide, de l'atmosphère, de l'océan et de la biodiversité. Ces données sont fondamentales pour définir, à l'aide de méthodes d'intelligence artificielle, des indicateurs au service de l'agriculture durable, de l'environnement, de la santé et de la biodiversité. Ils permettent de mieux anticiper les risques sanitaires ou climatiques tout en optimisant l'utilisation de ressources naturelles. Ce point s'inscrit pleinement dans l'OS5 de l'INRAE.
Afin de mener des études multidisciplinaires, les experts doivent s'appuyer sur des indicateurs construits à partir de données issues de sources multiples. Cependant, malgré les efforts d'harmonisation [6], les données du système Terre, stockées et gérées par les cinq pôles de Data Terra, ne sont pas interconnectées. Cela constitue un obstacle majeur à l'analyse des données et à la construction d'indicateurs décisionnels globaux. En effet, pour extraire les jeux de données, un utilisateur doit mener sa recherche dans chaque catalogue de données et explorer ses descriptions (appelées métadonnées). Ces métadonnées, librement accessibles pour les jeux de données sur Data Terra, contiennent des informations riches, souvent sous forme de texte, qu'un utilisateur doit vérifier et analyser manuellement. Les termes utilisés dans les métadonnées ne sont pas toujours explicites (ou issus d'un vocabulaire contrôlé) et peuvent varier d'un compartiment du système Terre, c'est-à-dire d'un pôle, à l'autre. Même au sein d'un seul pôle, du fait du nombre croissant de jeux de données disponibles, une entité d'intérêt peut être décrite différemment dans plusieurs jeux de données et associée à des périodes de temps différentes. Cette recherche manuelle est chronophage et sujette aux erreurs. Par conséquent, bien que les pôles décrivent des ressources représentant la même entité du monde réel, en l'état, il n'est pas possible de 1) extraire ces entités efficacement et 2) d'assurer l'obtention de tous les jeux de données disponibles concernant une même entité. Par exemple, une même ressource en eau dans le portail ODATIS décrira des mesures de profondeur et de température d'une part, alors que cette même ressource sera décrite par la conductivité et la salinité dans le portail THEIA. En plus, la conductivité et la salinité de cette même ressource peuvent être trouvées dans plusieurs jeux de données selon la période d'intérêt, et parfois décrites avec des unités de mesure différentes. Enfin, la même ressource peut être nommée différemment selon les jeux de données. Ainsi, à l'issue d'une recherche menée dans plusieurs pôles, un utilisateur risque de passer à côté d'observations pertinentes qui compléteraient la description d'une ressource d'intérêt, ce qui compromettrait la qualité de l'analyse des données.
C'est ce problème majeur que nous aborderons dans le cadre de ce sujet de thèse. Le premier défi consistera à identifier les entités et les relations sémantiques observées dans les métadonnées de jeux de données disponibles sur Data Terra. Pour ce faire, des ontologies et des taxonomies de référence seront prises en compte [19, 20, 21]. La représentation de métadonnées sous forme de graphe de connaissances, en utilisant des méthodes d'IA hybrides (combinant des méthodes d'IA numérique [11,14,15], d'IA symbolique [9,10,17] et des ontologies [18,19,20,21,22]), constituera une première contribution. Ce graphe de connaissances représentera une première vue unifiée et synthétique des données issues des différents pôles de Data Terra. Ce graphe permettra de structurer et d'uniformiser les descriptions et l'accès aux données, rendant les données décrites plus facilement trouvables et interopérables. Pour répondre aux défis liés à l'hétérogénéité au sein ou entre différents pôles, une seconde contribution de la thèse sera de proposer une approche d'alignement d'entités visant à mettre en évidence des relations sémantiques entre les données.
Pour assurer un accès direct : a) aux données et aux ontologies et vocabulaires en cours de développement dans le cadre de Data Terra (https://terra-vocabulary.org/ncl/) et b) au portail EarthPortal (https://earthportal.eu), développé en collaboration étroite avec MISTEA, fournissant des ontologies de référence, une collaboration avec des membres de Data Terra est déjà prévue pour cette thèse. Christelle Pierkot, informaticienne, IR sur Data Terra et responsable de EarthPortal a accepté de faire partie de l'encadrement de cette thèse. Cette collaboration permettra la mise en place des méthodes proposées ainsi que leur pérennisation dans le cadre de Data Terra.
Plusieurs projets récents dont l'INRAE est partenaire portent sur la problématique d'interopérabilité de données. On peut notamment mentionner le projet DATA4C+ qui s'intéresse au problème d'interopérabilité des bases de données sur le carbone du sol. L'initiative PREZODE travaille à la création d'une plateforme numérique mondiale pour soutenir la prévention des zoonoses (c'est-à-dire des maladies qui peuvent être transmises des animaux aux humains). Cette plateforme interopérable doit permettre le partage de données issues de différents acteurs, disciplines et pays. Le projet D2KAB s'est également intéressé à améliorer l'interopérabilité sémantique en agronomie et en biodiversité, en s'appuyant sur les principes de données FAIR (Findable, Accessible, Interoperable, Reusable) et sur la production de graphes de connaissances. Les propositions développées dans ce sujet de thèse sont complémentaires de ces initiatives et contribueront à établir un cadre méthodologique pour améliorer l'interopérabilité des entités extraites à partir des métadonnées. Les contributions de cette thèse dépasseront le cadre national et s'intégreront dans l'écosystème européen de science ouverte (European Open Science Cloud - https://www.data-terra.org/eosc) dont Data Terra est noeud pilote et récipiendaire en 2026 de plusieurs financements de projets européens INFRAEOSC dont FLUID-AI dédié aux questions d'IA, où MISTEA pilote un work-package sur des sujets proches.
Méthodes envisagées :
1) Extraction d'entités et de relations sémantiques entre ces ressources à partir des métadonnées disponibles sous forme textuelle, ainsi que des ontologies et des thesaurus spécifiques [18,19,20,21,22]. Ce travail vise à étendre les méthodes de reconnaissance d'entités récentes [16], adaptées aux nouvelles méthodes d'intelligence artificielle [15].
2) Enrichissement sémantique. L'objectif est d'augmenter la connaissance concernant les ressources précédemment extraites, en les étendant à de nouvelles propriétés découvertes, afin de faciliter l'étape suivante de liage des données, en tirant parti de travaux récents tels que ceux présentés dans [23, 24].
3) Alignement d'entités. Ce volet de la thèse vise à découvrir et à interconnecter les entités extraites et enrichies afin de construire le graphe de connaissances représentant une vue unifiée des données. L'atteinte de cet objectif permettra de compléter nos travaux sur la découverte de dépendances et l'alignement d'entités [9,10].
En définitive, la ou le thésard/e étudiera des méthodes d'IA hybrides combinant des méthodes d'IA numérique et d'apprentissage supervisé pour l'extraction d'entités d'intérêt, ainsi que des méthodes d'IA symbolique d'apprentissage non supervisé pour la construction du graphe de connaissances et la découverte de liens.
Le profil recherché
(1) Expertise autour de diverses méthodes de l'IA hybride, combinant l'IA numérique (XGBoost, Random Forest, CNN,... ) et l'apprentissage non supervisé (Extraction de motifs avec et sans LLM).
(2) Maîtrise des ontologies thématiques autour du domaine de données terrestres.
(3) Manipulation, traitement, analyse de données réelles, hétérogènes et multimodales.
(4) Mise en oeuvre de tests d'évaluation empirique d'hypothèses scientifiques.
(5) Rédaction/présentation de travaux scientifiques.
Compétences requises
- Analyse de données