Etude de la biosphère rare microbienne par une approche in silico : nouvelle méthode de classification ensembliste et modélisation
Description du projet
Ce projet a pour but d’améliorer les méthodes de clustering actuellement utilisées en bioinformatique pour traiter de grands volumes de données biologiques dans le contexte de l’étude de la biosphère rare microbienne. L’objectif est double :
- Etudier les méthodes existantes de clustering, adapter les solutions développées au sein du LIMOS au contexte de la biosphère rare et en proposer de nouvelles intégrant l’incertitude et la préférence.
- Générer de nouvelles connaissances sur la biosphère rare en appliquant ce nouveau développement aux données de NGS générées par les laboratoires de la fédération (SOERE, GLACPE, ANR ROME et divers EC2CO : milieux aquatiques et nuages…) et à celles disponibles dans les bases de données publiques.
Défi scientifique
- La quantité de données empêche l’utilisation d’algorithmes de clustering quadratiques. Il faut pouvoir tirer le maximum d’information des méthodes les plus simples.
- Les méthodes simples ne produisant que rarement des résultats de qualité, nous voulons pouvoir post-traiter les résultats de façon rapide et efficace.