Ingénieur dans le Développement de Méthodes de Machine Learning et Deep Learning pour la Génétique et la Bioinformatique H/F - CNRS
- CDD
- CNRS
Les missions du poste
Description du Poste Les Missions Nous recherchons une ingénieure ou un ingénieur d'études (IE) motivé pour rejoindre le groupe AI for Genome Interpretation (AI4GI) à l'IGMM (CNRS UMR5535, Montpellier) pour une durée de 12 mois. Le contrat peut être renouvelé sous conditions pour 36 mois supplémentaires si le projet passe les étapes d'évaluation.Avez-vous étudié l'informatique, les mathématiques ou la physique et êtes-vous en train de devenir une experte ou un expert en machine learning ? Êtes-vous à l'aise avec la programmation par tenseurs et opérations vectorielles (PyTorch, NumPy) ? Connaissez-vous en profondeur les méthodes de machine learning et aimez-vous construire des réseaux de neurones from scratch ? Aimez-vous développer de nouvelles architectures de réseaux de neurones pour résoudre des problèmes non conventionnels ? Ce poste pourrait être pour vous.Nous recherchons une candidate ou un candidat motivé et curieux, avec une expérience dans le développement de méthodes de machine learning pour la bioinformatique.L'ingénieure ou l'ingénieur d'études recruté aura pour mission de concevoir et développer des méthodes innovantes de machine learning et de deep learning appliquées à l'interprétation du génome.La personne contribuera au développement de nouvelles architectures de réseaux de neurones combinant des DNA Large Language Models et des approches d'apprentissage profond, dans le cadre du projet GenGI, visant à prédire des phénotypes humains à partir de données de séquençage à grande échelle.La personne participera également à l'intégration de ces méthodes dans un environnement de recherche interdisciplinaire à l'interface entre intelligence artificielle, bioinformatique et génétique. L'Activité Le candidat ou la candidate devra :- Commencer par se familiariser avec les recherches et méthodes existantes pour l'interprétation du génome- Se familiariser avec les données de séquençage et leur prétraitement- Étudier le fonctionnement des DNA LLM et développer des solutions pour les intégrer dans les architectures de réseaux de neurones développées par le laboratoire- Se concentrer sur le développement de solutions bas niveau pour la scalabilité des réseaux de neurones et des modèles de langage à grande échelle appliqués aux données de séquençage du génome entier- Développer from scratch des algorithmes et architectures de réseaux de neurones pour la prédiction de sorties structurées (c.-à-d. arbres, graphes)- Implémenter et développer des méthodes pour l'interprétation des prédictions et des sorties des réseaux de neurones, incluant des activations basées sur des concepts et des analyses contrefactuellesLe projet se concentre sur le développement de nouvelles architectures de réseaux de neurones pour effectuer de l'inférence sur des données de séquençage. Votre Profil Compétences La bioinformatique et l'interprétation du génome sont des domaines multidisciplinaires et en évolution rapide. Nous recherchons une candidate ou un candidat qui :- A une formation en informatique, mathématiques ou physique, avec une forte orientation en machine learning- Est motivé pour apprendre en continu de nouvelles compétences, méthodes et concepts- Apprécie de résoudre des problèmes nouveaux et imprévus avec de fortes compétences en résolution de problèmesCompétences et expertise requises- Fort intérêt pour les réseaux de neurones, le machine learning, l'algèbre linéaire et compréhension des statistiques- Compréhension approfondie des fondements du machine learning, incluant :- Algèbre linéaire (opérations vectorielles et matricielles)- Méthodes d'optimisation- Réseaux de neurones (avec expérience pratique en PyTorch)- Solides compétences en programmation Python et calcul scientifique (PyTorch, scikit-learn, NumPy)- Maîtrise des environnements GNU/Linux (incluant des outils comme SSH)- Bonnes compétences en communication et travail en équipeQualifications supplémentaires (souhaitées)- Familiarité avec les GWAS, la génétique des populations ou les pipelines de bioinformatique- Expérience dans le traitement de données génomiques (séquençage exome ou génome entier)- Connaissances de base en génétique et biologieAutres informations- Le projet implique le développement de modèles de réseaux de neurones non conventionnels avec PyTorch- Un niveau d'anglais minimum B2 est requis- Les candidatures doivent être soumises en anglais Votre Environnement de Travail Le poste est basé à l'Institut de Génétique Moléculaire de Montpellier (IGMM UMR5535, CNRS), dans un environnement de recherche hautement international et interdisciplinaire. Montpellier est une ville méditerranéenne dynamique avec un environnement, une culture et une qualité de vie exceptionnels. Elle accueille de nombreux instituts de recherche de haut niveau ainsi que l'Université de Montpellier, avec une population dynamique de 70 000 étudiants et l'une des plus anciennes facultés de médecine au monde.Le laboratoire : le travail sera réalisé au sein du groupe AI for Genome Interpretation (AI4GI), dirigé par le Dr Daniele Raimondi. Le groupe se concentre sur le développement de méthodes avancées d'intelligence artificielle et de machine learning pour l'interprétation du génome, avec un accent particulier sur la modélisation de la relation entre variation génétique et phénotypes.AI4GI développe des architectures de réseaux de neurones sur mesure, incluant des modèles clairsemés et biologiquement informés, pour prédire le risque de maladie et des traits quantitatifs complexes à partir de données génomiques à grande échelle telles que le séquençage du génome entier ou de l'exome. En combinant innovation méthodologique en IA et applications en génétique humaine, génomique du cancer et génomique végétale, AI4GI vise à faire progresser la compréhension des relations génotype-phénotype et la médecine de précision.Le projet vise à développer un nouveau paradigme de modèles de General Genome Interpretation (GenGI) en combinant des DNA Large Language Models (DLLMs) avec des réseaux de neurones profonds pour prédire des phénotypes humains directement à partir d'échantillons de Whole Exome Sequencing de la UK Biobank. Le projet vise la prédiction à large spectre de phénotypes humains, ouvrant de nouvelles directions en génétique clinique, médecine de précision, prédiction du risque de maladie et IA explicable appliquée aux données génomiques. Rémunération et avantages Rémunération A partir de 2521€ brut mensuel, ajustable selon expérience Congés et RTT annuels 44 jours Pratique et Indemnisation du TT Pratique et indemnisation du TT Transport Prise en charge à 75% du coût et forfait mobilité durable jusqu'à 300€ À propos de l'offre Référence de l'offre UMR5535-SARADE-108 Secteur d'activité Sciences du vivant, de la terre et de l'environnement Emploi type Ingenieur biologiste en analyse de donnees (H/F) À propos du CNRS Le CNRS est un acteur majeur de la recherche fondamentale à une échelle mondiale. Le CNRS est le seul organisme français actif dans tous les domaines scientifiques. Sa position unique de multi-spécialiste lui permet d'associer les différentes disciplines pour affronter les défis les plus importants du monde contemporain, en lien avec les acteurs du changement. Le CNRS Les métiers de la recherche
Compétences requises
- Python
- Programmation