Mesure de la distance génétique et cartographie des gènes :
L’observation expérimentale d’une liaison génétique entre deux gènes conduit à la
conclusion qu’ils sont physiquement liés, à une distance telle qu’une fraction des
méioses se déroule sans qu’aucun crossing-over ne survienne entre leurs locus
respectifs.
Comme la fréquence des crossing-over, ou des gamètes recombinés qui en sont la
conséquence, est une fonction de la distance entre les locus, on peut imaginer
d’estimer la distance génétique entre locus comme une fonction de la fréquence des
gamètes recombinés.
A - Distances en unités de recombinaison
:
Dans un premier temps, on peut définir la distance génétique en unités de recombinaison.
Si deux gènes A et B sont distants de manière telle qu’à la méiose, chez un
double hétérozygote pour ces deux gènes, on obtient 20 % de gamètes recombinés et
80 % de gamètes parentaux, on conclura que leur distance est égale à 20 unités de
recombinaison (fréquence des gamètes recombinés multipliée par 100).
Si les gènes A
et C sont distants de 5 unités de recombinaison (5 % de gamètes recombinés à la
méiose), on peut en déduire que B et C sont également liés entre eux, puisque tous
deux sont liés à A.
Cartographier les trois gènes A, B et C consiste à définir leurs positions respectives,
voire, quand c’est possible, leurs distances respectives.
Sans information autre
que la liaison physique de trois gènes, il y a trois cartographies possibles, selon que
le gène A, B ou C est central, localisé entre les deux autres.
Dans notre exemple une des trois cartographies est exclue, B ne peut être localisé
entre A et C puisque la distance DAC (5 ur) est très inférieure à DAB (20 ur). Il reste
deux cartographies (fig. 3.3).
La mesure de la distance entre B et C devrait nous permettre de choisir la
« bonne » cartographie, puisque, selon les cas, on s’attend à observer respectivement
15 ou 25 unités de recombinaison.
Hélas, l’expérience montre que les distances exprimées en unités de recombinaisons
ne sont pas additives et qu’il n’est pas toujours évident de construire des cartes.
En effet, quand la distance physique est vraiment petite, il ne peut effectivement y
avoir au plus qu’un seul crossing-over; dans ce cas la fréquence de gamètes recombinés
est convenablement estimée (à condition que des effectifs observés de grande
taille limitent la variance d’échantillonnage).
En revanche, quand la distance
physique est telle que deux crossing-over peuvent affecter la même paire de chromatides,
les distances sont sous-estimées.
Ainsi, certains doubles crossing-over reconstitueront des combinaisons parentales
pour les deux gènes considérés qui « paraîtront » ainsi plus proches qu’ils ne
« paraîtraient » si un seul crossing-over ne pouvait survenir entre eux.
Supposons que l’analyse génétique ait conduit à mesurer une distance DBC entre
les gènes B et C, égale à 18 ur, elle ne correspond ni aux 15, ni aux 25 ur attendues
selon les deux cartes possibles (figure 3.3).
La deuxième carte est incompatible avec les résultats car DBC, même étant sousestimée,
ne peut être inférieure à DAB déjà égale à 20 ur; en revanche, la première
carte est compatible avec ce résultat, si on considère que la distance observée
DAB (20 ur) est sous-estimée et mieux estimée par la somme DAC + DBC (23 ur).
En raison du biais de sous-estimation des grandes distances on préférera estimer
la distance de deux gènes éloignés par une somme de distances entre gènes intermédiaires
que par une seule estimation directe.
B - Distance génétique en centi-Morgan ou distance de Haldane
:
Pour pallier à la non-additivité des distances en unités de recombinaison, le généticien
britannique J.B.S. Haldane introduisit, dans les années 1930, une distance génétique
additive, exprimée en centi-Morgan (cM).
Il convient de remarquer
l’utilisation abusive du cM, l’unité de distance génétique, qui doit être réservée à la
distance de Haldane, les distances calculées directement par la fréquence des
gamètes recombinées devant être exprimées en ur.
L’établissement de la distance de Haldane part du schéma ci-dessous.
Supposons que les distances entre les locus soient suffisamment faibles pour qu’il
ne puisse y avoir, au plus, qu’un seul crossing-over entre A et B, d’une part, et entre
B et C, d’autre part.
L’analyse génétique de la méiose pour les deux gènes A et B donne un taux de recombinaison (fréquence de gamètes recombinés A-b et a-B) égal
à RAB.
De la même façon, on peut mesurer le taux RBC.
Ces taux de recombinaisons sont des fréquences de gamètes recombinés, ce qui
revient à dire qu’ils représentent aussi la probabilité de former ces gamètes recombinés
entre les deux locus considérés, A et B, ou B et C.
Le diploïde triple hétérozygote correspondant au schéma ci-dessus peut faire deux
types de gamètes parentaux et six types de gamètes recombinés, selon qu’il y a un ou
deux crossing-over :
– gamètes AbC et aBc : s’il y a deux crossing-over, double événement de probabilité
RAB × RBC, si on suppose que la survenue d’un deuxième crossing-over est
indépendante de celle d’un premier;
– gamètes Abc et aBC : s’il y a un crossing-over entre A et B mais pas de crossingover
entre B et C, double événement de probabilité RAB × (1 – RBC);
– gamètes ABc et abC : s’il y a un crossing-over entre B et C mais pas de crossingover
entre A et B, double événement de probabilité RBC × (1 – RAB).
On remarque bien que la probabilité ou la fréquence des gamètes Ab ou aB est
égale à : RAB × RBC + RAB × (1 – RBC), soit RAB; que celle des gamètes Bc et bC est
bien égale à : RAB × RBC + RBC × (1 – RAB), soit RBC.
Mais la probabilité ou la fréquence des gamètes Ac et aC est égale à :
RAC = RAB × (1 – RBC) + RBC × (1 – RAB) = RAB + RBC – 2RAB RBC, ce qui montre
bien, comme l’observation le confirme, que les taux de recombinaison ne sont pas
additifs puisque le taux de recombinaison entre deux locus distants (ici RAC) est inférieur
à la somme des taux de recombinaison entre ces deux locus et un locus médian
(ici RAB + RBC); d’où le fait que les distances en taux ou en unités de recombinaison
sont toujours sous-estimées dès lors que des doubles crossing-over sont possibles
entre les deux locus étudiés (ici RAB RBC est non nul).
Or une distance, qu’elle soit génétique ou pas, est un objet mathématique dont
l’une des propriétés est l’additivité.
Est-il alors possible de définir une distance génétique additive, sachant que cette
distance, sans être le taux de recombinaison (qui n’est pas additif) est évidemment
une fonction de ce taux, puisque la distance est d’autant plus grande que le taux de
recombinaison l’est lui-même ?
Une telle distance s’écrirait d = f(R), où f serait une fonction du taux R de recombinaison,
telle que la propriété d’additivité, dAC = dAB + dBC, soit vérifiée.
Partant de RAC = RAB + RBC – 2RAB RBC,
il est facile de montrer que : 1 – 2RAC = 1 – 2RAB – 2RBC + 4RAB RBC,
soit : [1 – 2RAC] = [1 – 2RAB] × [1 – 2RBC],
ce qui devient additif en logarithmes : Log[1 – 2RAC] = Log[1 – 2RAB]
+ Log[1 – 2RBC].
La fonction additive f(R) recherchée entre les points X et Y est donc du type dXY =
kLog[1 – 2RXY], où k est une constante d’intégration qui doit tenir compte des
conditions particulières au voisinage de R = 0.
On a vu que, lorsque les distances sont très petites et que les taux de recombinaison sont très faibles, ces taux sont à peu
près additifs, donc au voisinage de R = 0, la distance d est égale à R.
Par ailleurs, au voisinage de zéro, la fonction d = kLog[1 – 2R] peut s’écrire
d = – 2kR (rappel : log(1 – a) = – a, quand a est proche de zéro), d’où les deux
égalités, au voisinage de zéro :
d = R et d = – 2kR
dont on tire k = – 1/2
La fonction de distance génétique additive de Haldane s’écrit donc :
d = – Log[1 – 2R]/2
La distance en c.M. est égale à d multipliée par 100.