Les missions du poste

Établissement : Université de Montpellier
École doctorale : I2S - Information, Structures, Systèmes
Laboratoire de recherche : Laboratoire d'Informatique, de Robotique et de Micro-électronique de Montpellier
Direction de la thèse : Konstantin TODOROV ORCID 0000000291166692
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-05-03T23:59:59

La vérification de l'information est une pierre angulaire du journalisme et de la cohésion sociétale, en particulier dans le contexte des discours scientifiques en ligne [2]. Des affirmations telles que « Une étude de Stanford montre que les vaccins contre la COVID-19 provoquent le cancer » illustrent comment la désinformation repose souvent sur la simplification excessive et la décontextualisation [3]. Ces phénomènes, bien que généralisés dans les discours en ligne, constituent un véritable obstacle à la vérification des informations liées à la science, où le niveau de détail et la complexité du contexte global sont essentiels pour comprendre le sens d'une affirmation et donc en évaluer la véracité [4].

Les systèmes actuels de vérification des faits basés sur l'IA fonctionnent généralement au niveau d'énoncés isolés, ce qui peut involontairement renforcer ces problèmes. Même des contenus journalistiques de haute qualité peuvent être sortis de leur contexte et utilisés par des acteurs malveillants dans des campagnes stratégiques nuisibles, où journalistes et agents d'IA disposent de peu de retours pour évaluer et atténuer ce risque. Pourtant, les pratiques journalistiques soulignent que les affirmations doivent être comprises en relation les unes avec les autres et dans leur contexte (plus large).

**Objectifs**

S'appuyant sur des projets récents et en cours menés par l'équipe ADVANSE (ANR AI4Sci, FEDER IA-EMOTION, ANR EMO-SCI), l'objectif central de cette thèse est de définir, construire et exploiter des récits computationnels afin d'améliorer la vérification des discours scientifiques en ligne.

Plus précisément, la thèse abordera trois principales questions de recherche :

* **Définition :** Qu'est-ce qui constitue un récit computationnel ? Quels en sont les composants essentiels (affirmations, entités, événements, dates, contextes scientifiques et médiatiques) ?
* **Extraction et mise en relation des affirmations :** Comment ces éléments narratifs peuvent-ils être extraits automatiquement et reliés à partir de sources de données hétérogènes ?
* **Application :** Comment les récits computationnels peuvent-ils améliorer la vérification des discours scientifiques en ligne par rapport aux approches centrées sur des affirmations isolées ?

L'objectif est de recontextualiser des informations fragmentées en mettant au jour des relations cachées et en les structurant en objets cohérents, interprétables par des machines, que nous appelons récits. Ceux-ci seront organisés sous forme de graphes de connaissances partagés publiquement afin de favoriser leur appropriation, leur interopérabilité, leur réutilisation et une adoption à plus grande échelle.

Cette thèse propose un changement de paradigme : au lieu de vérifier des affirmations isolées, elle introduit le concept de récits computationnels, dans lesquels les affirmations sont intégrées dans des contextes structurés (scientifiques, sociaux, temporels), formant ainsi un objet d'analyse plus riche. Des exemples de tels récits incluent « les vaccins contre la COVID-19 », « l'élection présidentielle française de 2027 », etc.

The thesis builds upon and connects various research areas, such as disinformation detection using AI [8], analysis of scientific discourse online [2,3,4,7], and knowledge graph construction [1]. The work will be structured along the following main methodological pillars.
1. Definition of Computational Narratives - formalize a model of computational narratives integrating: (1) Claims and their interrelations, (2) Entities (people, institutions, scientific studies), (3) Events and timelines, (4) Arguments, viewpoints and stances, (5) Scientific context (publications, citations, metrics), ... This challenge comprises the development of a semantic framework describing how these components interact, based on established vocabularies and resources (schema.org, ClaimsKG).
2. Construction of Narrative-Centric Corpora. We plan to use existing datasets, such as TweetsKB, SciTweets [5], CORD-19 [4] and further collect, curate and annotate new data from open platforms such as Bluesky, Mastodon, focus on science-related debates and disinformation cases. Annotation will be guided by an activelearning loop that selects the most uncertain samples. These corpora will be used both to nourish the knowledge graph, and to train and validate models for the tasks defined in 3.
3. Information Extraction and Enrichment. By integrating information retrieval techniques, the thesis will develop methods for: (1) Claim detection and linking, (2) Entity recognition and disambiguation, (3) Event and temporal extraction, (4) Scientific context retrieval (e.g., recovering missing citations like in a Stanford study shows masks are totally inefficient.)
4. Knowledge Graph Construction. We will rely on semantic web standards and methods and on our former works in the field [1,] in order to model, represent and structure narrative information. Computational narratives will be represented as knowledge graphs, where nodes represent claims, entities, events, publications and edges encode semantic and contextual relationships. We will rely on established vocabularies and resources in the field. A major challenge consists in ensuring scalability and adaptability to dynamic online data.
5. Narrative Analysis and Verification. We will apply statistical and graph-based analysis to detect inconsistencies and missing context, identify patterns of disinformation (e.g., decontextualization chains) and compare narrative-based verification with traditional claim-level approaches, that will serve as baselines. For that, we will rely on established tasks and datasets in the field of automatic fact-checking via NLP methods, coming from platforms such as Check That! (CLEF 2024,25 and 26) [6]. This part of the work includes the in-depth statistical analysis of the collected data and extracted relations stored in the knowledge graph, which will allow for the detection of patterns in narratives, hidden correlations between features and context elements, as well establishing metrics for narrative coherence and reliability.
Expected Contributions
A formal definition of computational narratives
Novel methods for extracting and structuring narratives from online data
A knowledge graph framework for narrative representation
New approaches to fact-checking based on narrative context
Annotated datasets and evaluation benchmarks

Objectives

Building on recent past and current projects led by the ADVANSE team (ANR AI4Sci, FEDER IA-EMOTION, ANR EMO-SCI), the central aim of this thesis is to define, construct, and exploit computational narratives to improve the verification of science-related discourse online.
Specifically, the thesis will address three main research questions:
- Definition: What constitutes a computational narrative? What are its core components (claims, entities, events, dates, scientific and media contexts)?
- Extraction and claim linking: How can these narrative elements be automatically extracted and linked from heterogeneous data sources?
- Application: How can computational narratives enhance the verification of online scientific discourse compared to claim-level approaches?

The goal is to re-contextualize fragmented information by surfacing hidden relationships and structuring them into coherent, machine-interpretable objects, that we name narratives, structured as publicly shared knowledge graphs in order to enhance take up, interoperability, reuse and larger adoption.

Le profil recherché

* Solide formation en apprentissage automatique, traitement automatique du langage naturel (TAL), recherche d'information et graphes de connaissances
* Compétences en programmation (Python, bibliothèques ML/NLP pertinentes, technologies du web sémantique telles que RDF et OWL)
* Intérêt pour la recherche interdisciplinaire (IA, journalisme computationnel, communication scientifique)
* Excellent niveau d'anglais à l'oral et à l'écrit, bon niveau de français

Postuler sur le site du recruteur

Ces offres pourraient aussi vous correspondre.