Introduction à la génomique bactérienne Cours de Bactériologie
La principale révolution de la dernière
décade a été l'amélioration des techniques
de séquençage qui ont permis la
détermination dès 1995 de la séquence
génomique complète d'une souche de Haemophilus influenzae.
Cet événement a
rapidement été suivi par le séquençage du
génome de très nombreux microorganismes.
Actuellement la séquence de nombreux
génomes procaryotes est disponible allant
de Mycoplasma pneumoniae, le plus petit
bactérien, à celui de Saccharomyces
cerivisiae (13 Mb).
Pour certaines espèces
bactériennes, la séquence nucléotidique du
génome de plusieurs souches est
maintenant disponible.
Cette révolution
technologique se poursuit et l'amélioration
constante des techniques de séquençage a
permis la réalisation complète de la
séquence du génome humain.
Il reste maintenant au biologiste à exploiter
cette énorme masse de données afin de
permettre une meilleure compréhension de
la physiologie des microorganismes, et
notamment de l'intégration des bactéries
dans leur biotope et des raisons pour
lesquelles, dans certaines circonstances, les
microorganismes peuvent être responsables
d'une pathologie.
Cet abord exhaustif a créé
l'immense espoir de voir se développer dans
un futur proche de nouveaux agents
thérapeutiques à visée anti-infectieuse aussi
bien curatifs que prophylactiques.
Séquençage d’un génome :
Le séquençage d'un génome comporte deux
parties : la détermination de la séquence
nucléotidique et l'annotation.
Détermination de la séquence nucléotidique :
La stratégie habituellement utilisée consiste
à réaliser une banque génomique de la
souche à séquencer.
Le chromosome de
cette souche est cisaillé de façon aléatoire
de manière à obtenir des fragments de 1 kb.
Ces fragments sont ensuite clonés dans un
vecteur classique.
Le séquençage de
plusieurs milliers de ces clones pris au
hasard est ensuite réalisé.
Les séquences
sont assemblées grâce aux outils
informatiques générant ainsi des fragments
appelés "contig".
La séquence est terminée
lorsqu'il existe un seul contig si l'espèce
étudiée n'a qu'un seul chromosome ou
plusieurs s'il existe plusieurs réplicons.
Les capacités de séquençage sont telles
qu'actuellement pour un génome bactérien
une grande partie de ceci peut être réalisée
très rapidement, en quelques jours.
La
finition reste cependant très longue, d'une
part certaines régions du chromosome
peuvent ne pas être clonables, d'autre part
des séquences répétées empêchent
l'assemblage final des derniers contigs.
Il
sera alors nécessaire d'amplifier de grands
fragments d'ADN qui devront être séquencés
séparément pour être placés sur le
chromosome. Ainsi, il est relativement aisé
d'obtenir de façon semi-automatisée la
séquence de 95% d'un génome bactérien,
cependant l'obtention fiable de l'ensemble de
la séquence sous la forme d'un seul
fragment nécessite plusieurs semaines voire
mois fonction du nombre de séquences
répétées et du GC% du génome étudié.
L'annotation.
L'annotation est une étape
capitale qui consiste à déterminer
l'organisation du génome et à identifier au
sein de la séquence l'ensemble des phases
de lecture.
Une annotation de bonne qualité
est en général réalisée manuellement afin de
vérifier la réalité de chaque phase de lecture
basée sur l'existence d'homologies et /ou
d'un usage de codons.
En moyenne dans un
génome, 50 à 60 % des phases ont des
homologies connues avec d'autres phases
de lecture identifiées dans les banques de
données et dans les 40 à 50 % restantes, la
moitié est spécifique de l'espèce considérée.
D'autre part, il est important de souligner
qu'homologie ne signifie pas identité
fonctionnelle et que la fonction de deux
protéines homologues n'est pas forcément
identique.