Les missions du poste

Établissement : Université de Montpellier École doctorale : Sciences Chimiques et Biologiques pour la Santé Laboratoire de recherche : IRCM - Institut de Recherche en Cancérologie de Montpellier Direction de la thèse : Emmanuel CORNILLOT ORCID 0000000212021162 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-11T23:59:59 Le projet de thèse porte sur l'intégration des ARN non codants (ARNnc) - notamment les microARN (miRNA) et les longs ARN non codants (lncRNA) - dans l'étude des réseaux biologiques à partir de données omiques. Ces ARNnc jouent un rôle central dans la régulation de l'expression génique, et les lncRNA, en particulier, présentent une grande diversité de fonctions en interagissant directement avec l'ADN, les ARN ou les protéines. Bien que ces interactions biologiques soient de mieux en mieux décrites depuis leur caractérisation au début des années 2000, les gènes codant les ARN non codants restent peu utilisés dans les approches bioinformatiques actuelles. Or, l'évolution rapide de nos connaissances, ainsi que l'essor des thérapies basées sur l'ARN, rendent aujourd'hui indispensable le développement de nouvelles méthodes capables d'intégrer pleinement ces molécules dans les analyses de réseaux.
L'objectif de la thèse est double :
Évaluer de nouvelles approches méthodologiques sur plusieurs jeux de données omiques déjà disponibles.
Mieux comprendre le rôle des ARNnc dans la dynamique cellulaire et les mécanismes pathologiques afin de contribuer au développement d'approches thérapeutiques innovantes basées sur l'ARN.
Nos connaissances actuelles montrent que les ARN non codants (ARNnc) interagissent principalement avec les ARNm et les protéines, et beaucoup moins entre eux. Les réseaux d'interactions entre gènes codant des protéines et protéines sont désormais bien décrits, ce qui nous permet d'intégrer l'activation des voies de signalisation régulées par la partie protéique dans nos stratégies de prédiction des interactions ARNnc-ARNm.
Plusieurs approches méthodologiques sont envisageables. Nous avons notamment développé BulkSignalR, un outil qui identifie des triplets ligand-récepteur-voie régulée à partir de données de transcriptomique en vrac. Dans le cadre de cette thèse, nous adapterons ce modèle statistique pour tenir compte des ARNnc. L'hypothèse sous-jacente est que l'ARNnc, l'ARNm cible et la voie associée doivent présenter des activités corrélées pour que l'interaction soit considérée comme significative. Les interactions potentielles ARNnc-ARNm seront extraites des bases de données spécialisées (par exemple miRDB), tandis que les voies de signalisation proviendront de ressources telles que Reactome, KEGG ou les processus biologiques de Gene Ontology (GO). L'approche développée sera systématiquement comparée à d'autres méthodes existantes sur des jeux de données omiques publics.
Un effort particulier sera consacré à la construction rigoureuse des matrices d'expression, comprenant l'extraction des données à partir des fichiers Fastq et la normalisation. En effet, malgré leur bonne adéquation avec ces types de transcrits, les technologies de séquençage Illumina peuvent introduire des biais importants dans la quantification de l'expression de certains ARNnc, d'autant que les protocoles spécifiques de préparation de librairies d'ARNnc ne sont pas toujours appliqués ou disponibles. L'étude reposera sur l'exploitation de jeux de données existants. Nous évaluerons l'intérêt des données spatiales ou single-cell. Nous disposons d'un jeu de données spécifique sur l'influence du micro-environnement tumoral (TME) sur l'expression des ARNnc. Cette thématique cherche à proposer des approches innovantes pouvant modifier le profil TME des tumeurs. BulkSignalR utilise un modèle statistique pour évaluer la significativité de l'ensemble des triplets possibles, en s'appuyant sur les distributions nulles des corrélations ligand-récepteur et récepteur-gène cible, ainsi que sur la taille des voies et le nombre total de gènes cibles. Nous pourrons aussi évaluer si la topologie des réseaux incluant les ARNnc améliore les prédictions des interactions ligand-récepteur et plus globalement sur le devenir des patients face à la maladie et aux traitements
Noncoding RNAs (ncRNAs), including microRNAs (miRNAs) and long noncoding RNAs (lncRNAs) and circular RNAs (circRNAs), have emerged as major regulators of gene expression in health and disease. These ncRNAs regulate transcriptional, posttranscriptional, translational, and posttranslational processes by interacting with mRNAs, proteins, DNA and other RNAs. The miRNAs are short (~22 nt) regulatory RNAs repressing mRNAs through seedsequence pairing. Typically, they bind partially complementary sites in the 3 untranslated regions of mRNAs to induce translational repression or mRNA degradation. They can also bind 5UTRs making base-pairing between ncRNAs and mRNAs underpinning numerous regulatory mechanisms such as mRNA decay, translational inhibition, and alternative splicing. lncRNAs, by contrast, exhibit remarkable structural and functional diversity. They act through direct RNA-RNA, RNA-protein, and RNA-DNA interactions, enabling them to recruit chromatin modifiers, modulate transcription, scaffold protein complexes, affect mRNA splicing, regulate translation, or function as competitive endogenous RNAs (ceRNAs) by sequestering miRNAs. circRNAs, formed by backsplicing into covalently closed loops, are exceptionally stable molecules that serve as miRNA sponges, protein decoys, scaffolds for signaling complexes, or transcriptional regulators.These ncRNA mechanisms have profound implications in the tumor micro-environment (TME), where cellular communication, immune regulation, angiogenesis, stromal remodeling, and metastatic progression are tightly regulated by ncRNA networks. The ncRNA-protein interactions are now recognized as essential components of ribonucleoprotein complexes and regulatory circuits, with recent advances highlighting sophisticated roles for lncRNAs in modulating protein localization, protein stability, and condensate formation. Several wellcharacterized examples illustrate these principles. The lncRNA MALAT1 interacts with numerous splicing factors and chromatin regulators (e.g., EZH2, PARP1, LIG3, SFPQ, hnRNPC, HuR), promoting cancer cell proliferation, invasion, metastasis, proteasome regulation, and resistance to therapy. Other ncRNAs act as direct modulators of major oncogenic pathways: NEAT1 activates the Wnt/catenin pathway through stabilization of the RNA helicase DDX5, while CASC9 enhances Wnt signaling in bladder cancer by sponging miR4975p and upregulating FZD6.

Because ncRNA interactions are complex, contextspecific, and multilayered, their study relies on specialized databases and annotation resources. Foundational sequence repositories include miRBase for miRNA annotation and circBase for circRNA catalogs. A variety of curated and predictive databases facilitate the study of ncRNA-mRNA interactions. The miRDB is one of the most widely used resources for miRNA target prediction. It provides machinelearningderived predictions based on highthroughput miRNA-target interaction data. Interactioncentered databases such as NPInter aggregate experimentally validated ncRNA-protein, ncRNA-RNA, and ncRNA-DNA interactions, while DIANALncBase focuses specifically on miRNA-lncRNA binding, both predicted and experimentally confirmed. Integrative platforms such as starBase and miRNet support the reconstruction of multilayer ceRNA networks, linking ncRNAs to downstream genes, pathways, and disease phenotypes.
Computational inference of ncRNA-driven Interactions from transcriptomic data use correlationbased methods (coexpression analyses), networkbased approaches (mainly ceRNA interactions) or deeplearning methods (e.g., RIPPLM).

BulkSignalR provides a particularly relevant framework for integrating ncRNAs into intercellular communication networks. Originally designed to infer ligand-receptor-pathway interactions from bulk and spatial transcriptomics, BulkSignalR evaluates ligand-receptor associations by comparing observed Spearman correlations with null distributions derived from randomized expression matrices. Extensions of the method incorporate receptor-target gene correlations and assign downstream signaling significance, making it well suited for genomewide inference of activated pathways when singlecell data are unavailable or limited. Because ncRNAs modulate both ligand and receptor expression as well as pathwayassociated genes, adapting BulkSignalR to incorporate miRNA-mRNA-pathway or lncRNA-mRNA-pathway triplets represents a powerful and innovative strategy for characterizing ncRNAdriven signaling events in cancer.

Overall, the rapidly evolving understanding of ncRNAs, combined with expanding database infrastructure and computational methods, underscores the need to fully integrate ncRNAs into biological network inference. Doing so is essential not only for elucidating disease mechanisms but also for enabling the development of RNAbased therapeutic strategies aimed at reprogramming aberrant signaling and restoring beneficial cellular states in patients.

Le profil recherché

Le doctorant doit posséder de solides connaissances en bio-informatique, en biologie computationnelle ou en biostatistique. Des compétences en programmation avec R et/ou Python sont indispensables, ainsi qu'une expérience en analyse de données. Le candidat doit être à l'aise avec le traitement de données omiques et familiarisé avec la modélisation statistique et les concepts d'apprentissage profond. Une expérience préalable des bases de données sur les ARN non codants, des workflows transcriptomiques et des outils de prédiction constitue un atout majeur. La curiosité, l'autonomie et la capacité à travailler dans un environnement interdisciplinaire (biologie informatique) sont des qualités importantes. Un master en bio-informatique, en mathématiques appliquées ou dans un domaine associé est fortement recommandé.

Postuler sur le site du recruteur

Recherches similaires

L’emploi par métier dans le domaine Biotechnologie à Montpellier