Thèse un Modèle de Machine Learning Universel pour la Régulation Génomique H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université de Montpellier
École doctorale : I2S - Information, Structures, Systèmes
Laboratoire de recherche : Laboratoire d'Informatique, de Robotique et de Micro-électronique de Montpellier
Direction de la thèse : Laurent BREHELIN ORCID 0000000225822831
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-05-04T23:59:59
Contrairement au code amino-acide des protéines, connu depuis
plusieurs décennies, le code cis-régulateur du génome, c'est-à-dire le
code génomique qui régule l'expression génique parmi la grande
diversité des types de cellules et des conditions, reste largement
inconnu. Ces dernières années, plusieurs approches d'apprentissage
automatique ont été proposées à cette fin. Ces modèles prennent en
entrée une séquence d'ADN et sont entraînés à prédire un signal lié à
l'expression. Outre leur pouvoir prédictif, ces modèles peuvent aider
à déchiffrer le code génomique. Le raisonnement est qu'un modèle
précis a probablement capturé les règles de régulation, c'est-à-dire
les motifs et les combinaisons de motifs dont la présence sur la
séquence régulent le signal étudié. Lorsque c'est le cas, une
procédure de rétro-ingénierie est alors appliquée pour extraire ces
règles du modèle.
Les réseaux neuronaux convolutifs (CNN) ont été largement utilisés
pour ce problème. Cependant, les modèles CNN actuels sont confrontés à
deux problèmes majeurs : 1/ Un modèle entraîné pour prédire un signal
dans une condition spécifique ne peut pas être utilisé dans une
condition différente, c'est-à-dire que le modèle ne peut pas être
utilisé pour prédire le signal dans des conditions inconnues. 2/
Aucune mesure d'importance n'est associée aux motifs identifiés lors
de la procédure de rétro-ingénierie. Dans ce thèse, nous proposons
de développer une nouvelle architecture CNN et un nouveau schéma
d'apprentissage qui répondent à ces deux limitations.
Contrary to the amino acid code of proteins that has been known for
several decades, the cis-regulatory code of the genome, i.e. the
genomic code that regulate gene expression among the tremendous
diversity of cell types and conditions remains largely
unknown. Transcription factors (TFs) are the main actors of this
regulation, by binding regulatory sequences at specific DNA sequence
motifs. By binding regulatory sequences, TFs induce various changes
in the chromatin state of the cell. With the help of cofactors, they
are thought to modify the opening of the chromatin as well as the
nature of the histone marks, and ultimately to regulate gene
transcription.
The current view is that TF combinations underlie the specificity of
eukaryotic gene expression regulation, with several TFs competing for
motifs, and collaborating to regulate common target genes, which makes
the complexity of the regulatory code potentially daunting. To address
this problem different approaches based on Machine Learning (ML)
models have been proposed in the last years. These studies take place
in a supervised framework, where the goal is to train a model able to
predict a signal measuring gene expression (RNA-seq, CAGE, etc), TF
binding (ChIP-seq, etc.), or histone marks (ChIP-seq, ATAC-seq, etc)
on the basis of the DNA sequence only. Despite the supervised
framework, in a large number of studies, these models are not really
used as predictors. Instead, the goal is to use the model to decipher
the cis-regulatory code, i.e. to identify the motifs and motif
combinations regulating the measured signal. Hence, once the model has
been trained the second phase involves to analyse it in order to
extract the regulatory rules that has been captured, a task known as
model interpretation.
Le profil recherché
Master informatique/statistique spécialisé en machine learning
Bon niveau en statistique et en programmation Python
Des connaissances en génomiques
Compétences requises
- Python
- Programmation