Recherchez une offre d'emploi

Thèse Effets du Régime de Reproduction sur la Diversité et le Fardeau Génétique Apports des Méthodes Basées sur l'Intelligence Artificielle. H/F - 34

Description du poste

Établissement : Institut Agro Montpellier
École doctorale : GAIA - Biodiversité, Agriculture, Alimentation, Environnement, Terre, Eau
Laboratoire de recherche : AGAP Institut, Amélioration Génétique et Adaptation des Plantes
Direction de la thèse : Laurène GAY ORCID 0000000298618188
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-05-07T23:59:59

Ce projet de thèse vise à analyser l'effet du régime de reproduction sur la diversité génétique et le fardeau de mutations d'espèces apparentées aux plantes cultivées, en combinant approches classiques de génétique des populations et méthodes récentes d'intelligence artificielle.
La domestication et l'amélioration variétale ont entraîné des goulots d'étranglement démographiques favorisant l'accumulation de mutations délétères dans les génomes. Ce fardeau génétique peut limiter les performances agronomiques et le potentiel adaptatif des populations, il est donc utile de pouvoir le caractériser. Les régimes de reproduction jouent également un rôle central dans cette dynamique : les espèces autogames présentent une forte homozygotie favorisant la purge des mutations fortement délétères, mais leur faible taille efficace peut conduire à la fixation de mutations faiblement délétères par dérive génétique.
L'objectif principal de la thèse est d'évaluer dans quelle mesure les modèles de langage appliqués aux séquences génomiques, inspirés des architectures transformer, permettent d'affiner l'estimation du fardeau génétique et de la diversité. Ces modèles apprennent les régularités statistiques des génomes et peuvent prédire l'effet fonctionnel des mutations en comparant la vraisemblance de séquences mutées et non mutées. Ils génèrent également des représentations vectorielles (embeddings) intégrant des informations contextuelles et évolutives.
Le premier axe du projet consistera à estimer le fardeau génétique à l'aide de méthodes classiques (ratios synonymes/non synonymes, diversité nucléotidique, annotation des variants) et de modèles d'apprentissage profond, puis à comparer ces estimations aux échelles intra- et inter-spécifiques. Le deuxième axe portera sur l'amélioration des approches basées sur l'intelligence artificielle, notamment par la comparaison de différentes architectures (modèles autorégressifs et bidirectionnels) et par une meilleure prise en compte du contexte génomique dans la prédiction des effets mutationnels. Ces développements seront validés à l'aide de données simulées. Le troisième axe explorera l'utilisation des embeddings pour caractériser la diversité génétique, en particulier au sein de familles multigéniques telles que les gènes de résistance. Les distances et la structuration dans l'espace vectoriel représenté par l'embedding permettront de comparer les niveaux et l'organisation de la diversité entre régimes de reproduction, en complément des approches classiques.
Cette thèse contribuera à mieux comprendre l'impact des régimes de reproduction sur l'évolution des génomes cultivés et à évaluer le potentiel des méthodes d'intelligence artificielle pour l'étude du fardeau génétique et de la diversité génétique.

Le régime de reproduction structure fortement la diversité génétique et le fardeau mutationnel des populations et des espèces, en modulant l'hétérozygotie, l'efficacité de la sélection et la dérive génétique. Des différences marquées sont ainsi attendues entre espèces autogames et allogames.
Ce projet vise dans un 1er temps à évaluer dans quelle mesure les approches basées sur l'intelligence artificielle permettent d'affiner les estimations du fardeau génétique. De récents travaux semblent montrer que l'on peut utiliser des approches type transformer pour prédire l'impact d'une mutation génomique sur la valeur sélective de l'individu portant cette mutation (Benegas et al. 2023). Afin d'évaluer la performance de cette approche, les méthodes fondées sur l'IA seront comparées à différentes approches classiques, notamment les ratios du polymorphisme synonyme/non-synonyme \_N/\_S (à l'échelle intra-spécifique, qui corrèle bien avec l'hétérosis, cf arabido Willy et al. 2018) ou de la divergence synonyme/non-synonyme D\_N/D\_S à l'échelle inter-specifique, les analyses des effets des mutations (SNPEff, Cingolani et al. 2012, GERP, Huber et al. 2020) et les analyses de diversité nucléotidique.
Dans un second temps, le projet s'intéressera aux potentiels apports des modèles de langage pour étudier la diversité génétique. En effet, les modèles de langage génomiques génèrent, à partir des séquences nucléotidiques, des représentations vectorielles appelées embeddings, qui condensent l'information contextuelle, structurale et fonctionnelle du génome. Ces représentations intègrent implicitement les contraintes évolutives, les motifs conservés et les interactions entre régions voisines. En projetant les gènes d'une famille multigénique dans cet espace vectoriel, il devient possible de résumer la diversité génétique de cette famille au sein d'une espèce. L'analyse des distances, de la dispersion et de la structuration des embeddings permet ainsi de caractériser les niveaux de variation, d'identifier des groupes génétiques, et de détecter des signatures de sélection ou de différenciation liées aux régimes de reproduction. Cette approche offre une description intégrative de la diversité, complémentaire aux indicateurs classiques, et ouvre de nouvelles perspectives pour l'analyse comparative des ressources génétiques.

1.Estimer le fardeau génétique à l'aide de méthodes classiques de détection de sélection ou avec des méthodes existantes basées sur les réseaux de neurones profonds comparer ces estimations, à différentes échelles évolutives (intra-spécifique et inter-specifique).
2.Développer et optimiser des approches basées sur l'intelligence artificielle afin d'améliorer la prédiction de l'effet des mutations, notamment par une meilleure prise en compte du contexte génomique des séquences.
3.Détecter l'effet des régimes de reproduction sur la diversité allélique de gènes d'intérêt (e.g. diversité de gènes de résistance) : apports de l'IA et de l'embedding

Intra-spécifique :
* 8 populations de Medicago truncatula pour lesquelles le fardeau attendu est variable (du fait de différentes tailles de populations, diversité, taux d'autofécondation), dont certaines ont été utilisées dans des croisements, mettant en évidence de l'hétérosis ou au contraire de la dépression en croisement (Clo et al. 2021). Pour chaque population, un individu a été séquencé en long reads (pacbio) afin d'assembler un génome de référence. 20 individus de chaque population ont également été séquencés en individuel en short reads (type illumina) et fourniront des données de polymorphisme SNP.
* Données de génomes complets d'espèces ancêtres du blé allogames ou autogames comme Aegilops speltoïdes (3 génomes) et Triticum monococcum (219 génomes).

Inter-spécifique :
* Données de génome complets pour 13 espèces d'Aegilpos diploïdes (ancêtres du blé) de différents régimes de reproduction.

Simulations :
Données issues de simulations individu-centré

Défi méthodologique : utilisation de réseaux de neurones profonds (transformer) entrainés sur des données génomiques pour quantifier le fardeau et la diversité à différentes l'échelles (intra- et inter- spécifique).

Je postule sur HelloWork

Offres similaires

Comptable-Consolidation H/F

  • Hays

  • Montpellier - 34

  • CDI

  • 1 Avril 2026

Aide à Domicile H/F

  • Vitalliance

  • Montpellier - 34

  • CDI

  • 1 Avril 2026

Aide à Domicile en Alternance H/F

  • Vitalliance

  • Montpellier - 34

  • Alternance

  • 1 Avril 2026


Recherches similaires

Déposez votre CV

Soyez visible par les entreprises qui recrutent à Montpellier.

J'y vais !

Chiffres clés de l'emploi à Montpellier

  • Taux de chomage : 14%
  • Population : 295542
  • Médiane niveau de vie : 18870€/an
  • Demandeurs d'emploi : 39020
  • Actifs : 134890
  • Nombres d'entreprises : 30684

Sources :


Un site du réseaux :

Logo HelloWork