Les missions du poste

Établissement : Université de Montpellier École doctorale : I2S - Information, Structures, Systèmes Laboratoire de recherche : LPHI - Laboratory of Pathogens and Host Immunity Direction de la thèse : Ovidiu RADULESCU ORCID 0000000164535707 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-04T23:59:59 Ce projet s'inscrit dans le domaine des mathématiques appliquées, à l'interface entre intelligence artificielle,
optimisation stochastique et modélisation en biologie-santé.
Il vise à développer de nouvelles méthodes d'apprentissage par renforcement pour l'identification de systèmes dynamiques complexes, avec des applications en médecine de précision.

Les systèmes dynamiques constituent un cadre fondamental pour modéliser l'évolution temporelle de processus biologiques
importants pour la progression des maladies et les effets des traitements. Contrairement aux approches purement prédictives, ils permettent d'accéder
à des relations causales essentielles pour la compréhension des pathologies et l'optimisation des traitements.
Cependant, leur identification à partir de données biomédicales reste un problème difficile en raison du bruit,
de l'hétérogénéité des données et de la complexité des systèmes sous-jacents. Malgré l'abondance des données disponibles,
leur exploitation pour la construction de modèles mécanistiques reste limitée.

Dans ce contexte, l'apprentissage par renforcement constitue une approche originale,
permettant d'explorer automatiquement l'espace des modèles possibles plutôt que de reproduire des structures existantes.
L'objectif du projet est de tirer parti de cette capacité pour générer des modèles dynamiques nouveaux,
mieux adaptés aux données expérimentales et aux phénomènes biologiques observés.

Le problème est formulé comme une identification de modèles mécanistiques représentés sous forme de réseaux de réactions biochimiques,
décrits par des graphes bipartis et des systèmes d'équations différentielles ordinaires.
L'identification est abordée comme un problème d'optimisation bi-niveau : la structure du réseau est construite par apprentissage par renforcement,
tandis que les paramètres sont estimés par des méthodes classiques telles que la descente de gradient ou des algorithmes génétiques.

La génération de la structure est formulée comme un processus de décision markovien, où les états correspondent à des graphes partiels
et les actions à l'ajout d'espèces ou de réactions. La fonction de récompense combine la qualité des prédictions,
la complexité du modèle et sa robustesse. Étant donné l'explosion combinatoire de l'espace des états et des actions,
des approches de Deep Reinforcement Learning sont utilisées pour apprendre des politiques efficaces dans cet espace de grande dimension.

Au-delà de la performance sur un problème donné, l'agent s'améliore au fil des tâches successives, ce qui lui permet
d'affiner progressivement sa stratégie d'exploration et de favoriser l'émergence de nouvelles approches de modélisation mécanistique.
L'analyse de ce processus d'apprentissage constitue un enjeu important du projet, afin de comprendre les décisions de l'agent et d'identifier les éléments de données qui les
motivent.

Le projet vise ainsi à combiner intelligence artificielle et modélisation mécanistique pour produire des modèles dynamiques explicables,
dans une perspective de médecine de précision. Les applications ciblées incluent notamment le cancer et des maladies infectieuses telles que le paludisme et le SIDA.
Il bénéficiera également de données réelles issues de projets biologiques auxquels l'équipe participe.

Enfin, ce travail s'appuie sur les infrastructures de calcul du LPHI (GPU, stockage partagé, mésocentre ISDM)
et sur un réseau de collaborations internationales, notamment avec le NCBS Bangalore et King's College London,
ainsi que sur des projets interdisciplinaires en oncologie et maladies infectieuses. Les systèmes dynamiques constituent un cadre clé pour modéliser les processus biologiques en biosanté, en décrivant l'évolution temporelle de mécanismes tels que la signalisation
intracellulaire, les dynamiques cellulaires ou la progression des maladies. Contrairement aux approches purement prédictives, ils permettent d'accéder aux relations causales,
essentielles pour comprendre et traiter les pathologies.

Cependant, leur identification à partir de données reste difficile en raison du bruit, de l'hétérogénéité et de la dimension élevée des données biomédicales,
ainsi que de la complexité des systèmes sous-jacents. Malgré l'abondance de données, celles-ci sont encore peu exploitées pour construire et valider des modèles mécanistiques.

Dans ce contexte, l'apprentissage par renforcement offre une approche originale pour la modélisation mécanistique. Son principal intérêt est de permettre l'exploration de
nouveaux modèles plutôt que la simple reproduction de structures existantes.
En apprenant par essais et erreurs, l'agent peut parcourir l'espace des possibles et découvrir des architectures dynamiques inédites, mieux adaptées aux données et aux phénomènes biologiques observés.

Un enjeu central de ce projet est de comprendre le processus de décision qui conduit à la construction des modèles. L'objectif est d'identifier quelles caractéristiques des données influencent
les choix de l'agent à chaque étape, et de quelles informations il dépend pour proposer une structure donnée. Cette analyse permet de mieux comprendre comment les modèles sont générés et sur quelles bases ils reposent.

Ce projet vise ainsi à combiner intelligence artificielle et modélisation mécanistique afin de générer et calibrer des modèles dynamiques explicables, dans une perspective de médecine de précision.
Les applications ciblées incluent notamment
le cancer et des maladies infectieuses telles que le paludisme et le SIDA. Le projet bénéficiera par ailleurs d'un accès à des données réelles issues de projets biologiques auxquels l'équipe participe. Adapter les méthodes d'apprentissage par renforcement à l'identification de systèmes dynamiques complexes

Utiliser des modèles existants en biologie des systèmes pour entraîner une heuristique permettant leur reconstruction à partir de données expérimentales

Améliorer cette heuristique par renforcement pour générer des modèles nouveaux et de meilleure qualité

Appliquer ces approches à des données biomédicales réelles

Développer des méthodes expliquant le processus de décision Nous utiliserons des modèles de type réseaux de réactions biochimiques, représentables par des graphes bipartis, dont les noeuds correspondent aux espèces biologiques et aux réactions biochimiques.
Ces modèles induisent des systèmes d'équations différentielles ordinaires pouvant être simulés afin de générer des prédictions dynamiques.

Cependant, la structure du réseau ainsi que ses paramètres sont généralement inconnus. L'identification du modèle peut alors être formulée comme un problème d'optimisation bi-niveau :
une première étape consiste à identifier la structure du réseau, et une seconde à estimer les paramètres associés.

Le choix de la structure (génération du graphe) sera traité par apprentissage par renforcement, tandis que l'optimisation des paramètres sera abordée par des méthodes plus classiques,
telles que la descente de gradient ou des algorithmes génétiques. Cette étape doit être suffisamment efficace pour permettre une exploration large de l'espace des modèles.

L'utilisation de l'apprentissage par renforcement pour la génération de graphes peut être formulée comme un processus de décision markovien,
dans lequel les états correspondent à des graphes partiels et les actions consistent à ajouter des espèces ou des réactions. La récompense est définie à partir de l'amélioration
de la précision des prédictions obtenues après chaque modification du graphe. Elle peut également intégrer une pénalisation de la complexité du modèle et favoriser sa robustesse.

Le nombre très élevé d'états et d'actions possibles rend impossible l'utilisation de méthodes exactes de programmation dynamique pour estimer les gains attendus.
L'utilisation de réseaux de neurones profonds dans un cadre de Deep Reinforcement Learning permet de contourner ces limitations en apprenant des politiques efficaces dans des espaces de recherche de grande dimension.

Au-delà de la découverte d'un modèle adapté à un problème donné, l'agent d'apprentissage par renforcement s'améliore au fil des tâches successives. Chaque nouvelle expérience lui permet d'affiner sa stratégie et
de mieux explorer l'espace des modèles possibles pour de futurs problèmes.
Cet apprentissage itératif peut conduire à l'émergence de nouvelles approches de modélisation mécanistique, différentes des méthodes classiques.
Il devient alors important d'analyser ces stratégies afin de comprendre les choix effectués par l'agent, par des méthodes d'explicabilité
permettant d'identifier les éléments de données et de raisonnement qui guident ses décisions.

Le profil recherché

Compétences essentielles
- Solide formation en mathématiques appliquées, apprentissage et optimisation.
- Connaissance et interet pour les systèmes dynamiques.
- Compétences en programmation et calcul scientifique haute performance (Python, bibliothéques Pytorch ou Jax).
- Intérêt pour la modélisation quantitative des systèmes biologiques.

Compétences souhaitables
- Capacité à travailler avec des données réelles, incompletes et bruitées.
- Excellentes compétences en rédaction scientifique et en communication.

Postuler sur le site du recruteur

Ces offres pourraient aussi vous correspondre.

L’emploi par métier dans le domaine Mode à Montpellier