Biométrie foetale : standards de croissance et croissance individuelle Cours de
Gynécologie Obstétrique
Introduction : problématique de l’étude
biométrique de la croissance foetale
Les études de la croissance humaine et particulièrement de la croissance
foetale renvoient constamment à deux types d’interrogations :
– comment choisir les standards de croissance les plus fiables possible ?
– comment utiliser ces standards pour l’appréciation de la croissance d’un
sujet donné ?
Les réponses à ces questions ne sont pas aussi évidentes qu’il y paraît en
première analyse.
Il existe en effet un grand nombre de standards de
croissance disponibles et l’on peut hésiter sur le choix du standard à utiliser.
D’autre part, il est légitime de se demander dans quelles limites ces « normes
» sont applicables à n’importe quel sujet, qu’il soit ou non issu de la
même population.
A - Diversité des standards de croissance foetale :
Dans la littérature mondiale, il existe un grand nombre de courbes de
croissance de référence pour chaque variable biométrique, mais ces courbes
standards peuvent différer beaucoup les unes des autres.
Cette hétérogénéité
des standards de croissance mondiaux a deux causes : la diversité des
méthodes utilisées pour leur élaboration et les différences de structure des
populations étudiées.
1- Diversité des modes de construction des standards de croissance :
Elle concerne tous les stades méthodologiques, du choix de la taille de
l’échantillon au choix du modèle mathématique de lissage des courbes.
C’est
ainsi que certaines courbes standards sont construites à partir de quelques
centaines de
sujets, d’autres en réunissent plusieurs centaines de
milliers. Le mode de recueil des données peut également être très différent
d’un standard à l’autre, avec des variations importantes dans les techniques de mesure échographiques et la précision de ces mesures.
Enfin, le mode de
construction mathématique des courbes standards (calcul des paramètres
statistiques de la variation, mode de lissage des courbes) est souvent différent
d’une étude à l’autre.
Ces variations méthodologiques peuvent avoir des
conséquences importantes sur l’aspect final des courbes de croissance, sur la
détermination des percentiles extrêmes et donc sur la définition des « seuils »
de normalité.
2- Diversité des populations de référence
:
Les différences constatées entre les standards de croissance disponibles dans
la littérature peuvent également avoir pour origine les différences de structure
des échantillons populationnels étudiés.
Les différences dans la composition
ethnique ou sociologique des échantillons jouent évidemment un grand rôle
dans la diversité des normes de croissance, mais les critères de sélection
d’ordre médical interviennent également.
C’est ainsi que certains standards
prennent en compte tous les foetus ou nouveau-nés examinés en un lieu et dans
un laps de temps donnés, d’autres excluant certains sujets, comme les
jumeaux et/ou les mort-nés, les sujets malformés, les grossesses
pathologiques, etc.
3-
Une norme ou des normes ?
Les disparités génétiques, sociologiques et médicales créent une mosaïque de sous-unités populationnelles distinctes.
La question se pose alors de savoir
s’il convient d’utiliser des « normes » de croissance pour chacun de ces sousgroupes,
ou un nombre restreint de normes à valeur universelle.
Le clinicien peut choisir d’élaborer ses propres standards de croissance à
partir d’une population de référence locale.
Cette solution est certainement la
plus fiable, moyennant quelques précautions méthodologiques que nous
détaillerons plus loin, mais elle nécessite un investissement pratique parfois
difficile à réaliser.
L’autre solution consiste à choisir un standard de
croissance parmi ceux de la littérature.
Ce choix ne peut s’opérer uniquement
sur des critères de fiabilité méthodologique, mais doit pondérer les avantages
respectifs des différents standards disponibles en matière de spécificité et de
sensibilité.
Les critères méthodologiques du choix des standards de
croissance seront abordés plus loin dans le texte.
4- Diversité des variables biométriques
:
Les variables biométriques pour lesquelles il existe des standards de
croissance sont très nombreuses.
On peut les classer en deux groupes :
– les variables représentatives de la croissance staturopondérale du foetus :
entrent dans ce groupe toutes les dimensions linéaires de la tête (diamètre et
périmètre crâniens), des membres (longueur du fémur…) et du tronc
(diamètre et périmètre abdominaux …), mais également le poids du corps
estimé, calculé à partir de ces dimensions linéaires ;
– les variables plus spécifiques, représentatives de la croissance d’un organe
donné (dimensions et volume du rein, du cerveau…) ; ces variables ne sont pas utilisées pour le dépistage des anomalies de la croissance globale du
foetus, mais dans le cadre de la détection et du suivi de certaines affections
viscérales.
Nous n’évoquerons ici que les variables représentatives de la croissance staturopondérale, les plus utilisées en pratique médicale courante.
B - Problèmes liés à l’utilisation pratique
des standards de croissance :
L’utilisation pratique d’un standard de croissance, même si celui-ci est choisi
à partir de critères rigoureux, se heurte à deux difficultés :
– à partir d’un standard donné, quel seuil doit-on prendre en compte pour
délimiter la croissance pathologique de la croissance normale ?
Ce seuil
doit-il être le même pour tous les paramètres biométriques ?
– comment évaluer correctement la croissance d’un individu à partir de
standards de croissance moyens ?
La comparaison, à un âge donné, des
dimensions d’un sujet avec des valeurs de référence suffit-elle à détecter toute
anomalie de la croissance ?
C’est à l’ensemble de ces questions méthodologiques et pratiques que nous
nous proposons ici de répondre.
Nous envisagerons tout d’abord l’importance
de la méthodologie dans la construction des standards de croissance.
Puis
nous fournirons un certain nombre de courbes standards échographiques
permettant une évaluation « statique », mais aussi « dynamique » de la
croissance foetale.
Enfin, nous discuterons la variabilité individuelle de
croissance et ses conséquences sur l’évaluation de la croissance foetale.
Méthodes de construction des standards
de croissance foetale :
A - Techniques de mesure des principaux paramètres
biométriques ; précision des mesures :
Les principaux paramètres concernent la croissance cranioencéphalique, la
croissance tronculaire et la taille.
Ils permettent d’approcher la croissance staturopondérale.
1- Diamètre bipariétal
:
Le diamètre transverse du crâne est mesurable à partir de 10 SA.
L’ossification des os pariétaux est reconnue à 13 SA. Dès lors, le DBP peut
être mesuré, par définition sur une coupe axiale et à l’endroit où le crâne est le
plus large.
Les calibreurs sont placés par convention sur le bord externe de la
table osseuse pariétale proximale et sur le bord interne de l’os pariétal distal.
Hadlock recommande l’utilisation d’un gain moyen de sorte que l’épaisseur
de la voûte osseuse n’excède pas 3 mm.
Les échos pariétaux doivent être à
égale distance des structures médianes.
Idéalement, celles-ci sont
perpendiculaires à l’axe du faisceau ultrasonore (crâne en position occipitotransverse).
Le plan de coupe, oblique en bas et en arrière, passe par
la faux du cerveau ; il intéresse également le thalamus, le IIIe ventricule et les
pédoncules cérébraux.
Aux deuxième et troisième trimestres, dans le plan de coupe du DBP, la faux
du cerveau est visible dans ses tiers antérieur et postérieur.
À son tiers
antérieur, elle est interrompue en arrière par l’image de la cavité du septum lucidum ou celle des piliers antérieurs du fornix.
Souvent, la coupe passe aussi
par le glomus choroïdien au niveau de l’atrium de chaque ventricule latéral.
2- Périmètre crânien :
La mesure de la circonférence céphalique est recueillie dans le même plan de
coupe que le DBP, mais au niveau des contours externes de la calvaria, en
excluant les échos des tissus mous.
Les résultats obtenus par l’ellipse
électronique et avec le tracé manuel sont comparables.
Diamètre abdominal transverse
Le DAT est le paramètre abdominal le plus couramment utilisé en France.
Il correspond au diamètre transverse du PA.
Ces deux paramètres sont en fait
liés par un facteur ∏, à condition que les critères d’une coupe axiale stricte, la
plus circulaire possible, puissent être respectés (en l’absence de pression de
la sonde et d’appui abdominal foetal sur les contours utéroplacentaires).
Les
calibreurs sont placés au niveau des contours cutanés, en pratique à proximité
de l’extrémité antérieure des images costales, perpendiculairement à l’axe
sagittal défini par le rachis et la veine ombilicale.
3- Périmètre abdominal :
Le PA est mesuré sur une coupe axiale transhépatique qui circonscrit les
contours externes cutanés.
Cette coupe aborde perpendiculairement le rachis,
l’aorte et la veine cave inférieure.
Elle passe par le récessus ombilical (portion ombilicale de la veine porte gauche), formant un segment ovoïde horizontal
qui se prolonge en « J » par le sinus porte (portion transverse de la veine porte
gauche) puis par la veine porte droite sans démarcation nette ni réduction de
calibre.
La coupe, située en T10-T11, passe également par les surrénales.
4- Longueur fémorale
:
La LF correspond à la mesure du fût diaphysaire ossifié du fémur.
Il doit être
rectiligne (quand il est abordé de dehors en dedans).
Il doit également
présenter une échogénicité identique sur toute sa longueur.
Ses extrémités
doivent être nettes, rectilignes ou émoussées plutôt qu’aiguës ou spiculaires.
La mesure doit exclure les échos métaphysoépiphysaires, et bien être
effectuée dans l’axe diaphysaire, quand l’os est positionné horizontalement à
l’intérieur de la zone focale.
5- Précision technique des mesures
:
Les variations de la mesure dépendent à la fois de l’opérateur et de la patiente :
– les valeurs des paramètres varient lors de mensurations itératives réalisées
par un même opérateur (variabilité intraobservateur) et lors d’un changement
d’opérateur (variabilité interobservateur) ; la variabilité intraobservateur est
moindre que la variabilité interobservateur ;
– des facteurs maternels tels que la multiparité, l’âge gestationnel, l’épaisseur
pariétale, ainsi que la quantité de liquide amniotique, introduisent une erreur
systématique dans la mesure.
La position foetale, outre qu’elle peut modifier les formes, peut limiter la
validité de certaines mesures (par exemple, DBPet PA en cas de présentation
podalique).
Lévi et Smets ont signalé que l’erreur moyenne minimale de la mesure était
de 1,5 mm et pouvait correspondre à la différence entre le 20e et le
10e percentile d’un paramètre.
Pour Harstadt et Little, la mesure la moins reproductible est celle du PA,
alors que la plus fiable est celle de la LF (fiabilité intraobservateur :
PA= 85 %, LF = 99 %, PC = 94 %, DBP = 92 % ; fiabilité interobservateur :
PA= 85%, LF = 92%, PC = 88%, DBP= 91%).
On pourrait s’étonner que les mesures de l’abdomen, en pratique les moins
précises, aient la plus grande pertinence diagnostique.
Toutefois, elles sont
affectées préférentiellement en cas de retard de croissance intra-utérin (RCIU)
modéré, alors que les mesures du pôle céphalique ne le sont qu’à un degré
moindre et celles du fémur, plus occasionnellement et à des degrés divers, en
particulier selon l’âge gestationnel.
Ces points soulignent la nécessité d’une grande rigueur dans la réalisation des
mesures, afin d’en améliorer la reproductibilité.
6- Intervalle de temps entre deux mesures :
Le choix de l’intervalle de temps entre deux mesures dépend de plusieurs
facteurs.
Il doit dans tous les cas être suffisamment grand pour que la
croissance soit mesurable, c’est-à-dire que l’accroissement entre deux
mesures soit supérieur à la précision technique de la mesure.
Cet intervalle
minimal entre deux mesures n’est donc pas fixe au cours de la gestation, mais
dépend du taux de croissance du paramètre étudié : la croissance ralentissant
avec l’âge, l’intervalle minimal entre deux mesures doit être plus grand en fin
qu’en début de gestation.
L’intervalle minimal entre deux mesures dépend
également du type de mensuration : plus une mensuration est petite, plus son
accroissement est faible en valeur absolue et plus long doit être l’intervalle
entre deux mesures pour pouvoir mesurer cet accroissement.
Globalement, si des mesures successives permettent une approche plus
directe de la croissance, le changement d’opérateur est à éviter dans ce mode
d’évaluation de la croissance, puisque la variabilité interopérateur est plus
grande que la variabilité intraopérateur.
En pratique, un intervalle d’une
dizaine de jours est suffisant pour les foetus jeunes, tant que les vitesses de
tous les paramètres sont élevées.
Un délai d’au moins 3 semaines peut être
nécessaire pour certains paramètres dans la deuxième moitié de la gestation.
B -
Détermination de l’âge des sujets :
1- Âge foetal exprimé en semaines d’aménorrhée
:
Avant la diffusion de l’échographie, l’âge gestationnel n’était déterminé que
d’après la date des dernières règles, en considérant que la date de conception
coïncide avec la date de l’ovulation survenue 14 jours après le début des
dernières règles chez une femme dont les cycles sont de 28 jours.
On
exprimait alors l’âge gestationnel en SA.
Pour une femme dont les cycles
n’étaient pas de 28 jours, la date de conception était supposée correspondre à
la date des dernières règles + le nombre de jours du (ou des) cycle(s)
précédent(s) - 14 jours.
En obstétrique, il est d’usage de continuer à exprimer l’âge gestationnel en
SA, malgré la datation échographique.
Il serait toutefois possible d’exprimer
celui-ci en semaines de gestation à condition de prendre comme référence la
date présumée de conception, ou du moins son intervalle de confiance
déterminé par l’échographie.
La détermination de l’âge gestationnel par l’histoire menstruelle est
insuffisante.
Outre l’imprécision liée aux défauts de mémorisation par la
patiente, il existe une variabilité de la date d’ovulation par rapport aux cycles.
Ainsi Hadlock rapporte l’étude de Matsumoto qui estime que 20 % des
femmes ovulent précocement (< 11 jours) ou tardivement (> 21 jours).
Campbell et Waldenström (cités également par Hadlock) ont démontré que
la mesure échographique du DBP entre 14 et 20 SA est plus performante que
l’histoire clinique pour la datation, alors même que cette mesure n’est pas la
plus précise.
2- Datation échographique
:
Des normes mettant en relation des mesures échographiques avec un âge
gestationnel ont été établies.
Le problème était de disposer, pour la
détermination de l’âge gestationnel, d’un gold standard auquel on pouvait
rapporter les mesures effectuées pour établir les normes.
Les premières études
se sont intéressées à des femmes qui avaient des cycles réguliers.
Les
suivantes ont porté sur des femmes suivies pour une infertilité dont on monitorait les cycles ou que l’on stimulait.
Plus récemment, on a utilisé les
grossesses obtenues par fécondation in vitro (FIV) en considérant comme date
de conception le jour de la ponction.
* Mesure du sac gestationnel
:
Avant 7 SA, en utilisant les sondes endovaginales à haute fréquence, la
datation échographique peut se faire par la description et la mesure du sac
gestationnel.
Warren et al a ainsi relié l’apparition de structures embryonnaires à l’âge
gestationnel :
– le sac gestationnel est constamment visible à 4 SA ;
– la vésicule vitelline, présente dans 91 % des cas à 5 SA, est constante à
6 SA ;
– la visualisation d’une échostructure embryonnaire avec activité cardiaque
s’effectue dans 86 % des cas à 6 SA et dans tous les cas à 7 SA ; Daya et al
a corrélé la taille du sac gestationnel à l’âge de l’embryon.
* Mesure de la longueur craniocaudale (LCC)
:
Le paramètre de choix pour la datation échographique est la LCC.
L’habitude
en France est de mesurer celle-ci en prenant la plus grande longueur
embryonnaire, sans correction de la courbure naturelle de l’embryon et en
excluant les membres.
Ceci correspond notamment à la façon de mesurer
d’auteurs tels queWisser et al.
Dans une étude française récente, Grangé et al comparent, sur une
population de grossesses obtenues par FIV, les résultats de différentes courbes
du point de vue de la datation échographique.
Ils concluent à la supériorité de
la courbe deWisser et al, dont l’intervalle de prédictivité à 95 %est
de ± 5 jours.
Afin d’accroître la pertinence, ils recommandent de n’effectuer
de correction de l’âge gestationnel que lorsque l’âge échographique diffère
de plus de 7 jours (avec un intervalle de prédictivité à 98 %).
Pour Hadlock, la variabilité est de ± 8 % autour de l’âge gestationnel
estimé, tout au long de la grossesse, dans l’intervalle de prédictivité de 95 %.
Ainsi à 8 SA, elle est de ± 4,5 jours, alors qu’à 15 SA elle est de ± 8,4 jours.
Ces auteurs recommandent donc d’effectuer la datation échographique entre
7 et 9 SA, étant en cela plus restrictifs que Grangé et al qui estiment qu’elle
devrait être réalisée entre 7 et 12 SA.
* Mesure d’autres variables :
Certains auteurs ont évalué d’autres mesures (DBP, PA, LF) au premier
trimestre.
Pour Hadlock, si elles sont réalisables et apportent des résultats
satisfaisants, elles ne sont pas supérieures à la LCC. En revanche, pour la
datation tardive, ces mesures ne seront utilisables qu’avant 20 SA.
C - Choix de la population de référence - Composition
de l’échantillon
:
Une fois l’âge gestationnel précisé et le recueil des mesures effectué, la
construction des standards de croissance foetale suppose d’opérer des choix
méthodologiques sur des critères précis.
Le premier choix concerne celui de la population de référence.
Ce choix est
déterminant et pourtant les critères de sélection des individus sont loin d’être
normalisés, ce qui rend dès lors toute comparaison entre les différents
standards de croissance hasardeuse.
1- Représentativité spatiale de l’échantillon étudié
:
Il est indispensable de savoir si les données ont été recueillies dans un seul
centre médical ou dans plusieurs.
En effet, dans le premier cas, l’échantillon
de la population est homogène, mais nécessairement restreint quant à son
effectif. Dans le deuxième cas, la taille parfois considérable des échantillons
(allant jusqu’à plusieurs centaines de milliers d’individus) assure une
meilleure représentativité de la population globale, mais les techniques de
mesure peuvent être très différentes d’un hôpital à l’autre et augmenter
considérablement la variabilité apparente des paramètres biométriques.
Nous avons choisi de ne présenter ici que des courbes de croissance élaborées
à partir de données provenant d’une seule maternité (maternité régionale de
Nancy).
2- Composition « ethnique » :
Si l’on suppose que la croissance foetale diffère significativement d’un groupe
humain à l’autre (ce qui reste à démontrer), il semblerait justifié d’élaborer
des standards de croissance foetale distincts pour différentes « ethnies ».
Cette
proposition se heurte aux difficultés de définition des groupes « ethniques » :
doit-on les définir au sens culturel du terme (bretons, basques, corses...), par
nationalité (français, belges, luxembourgeois...), par région géographique
(maghrébins, sud-européens, nord-européens) ou encore selon des critères
anthropométriques rappelant la définition obsolète des « races ».
Mais parler
de « race » à propos des « Noirs » (Negroes) et des « Blancs caucasoïdes »
(Caucasian infants) nord-américains est un non-sens scientifique, quand on
connaît la diversité d’origine géographique des individus composant ces
groupes.
De fait, on ne peut définir des sous-groupes « biologiques » qu’à
partir d’un seul critère à la fois, et l’on ne voit pas bien en quoi la couleur de
peau aurait une influence plus importante sur la croissance foetale que
n’importe quel autre caractère biologique pris au hasard, comme le groupe
sanguin ou la couleur des yeux.
C’est pourquoi il nous semble raisonnable de
ne prendre en compte que des critères géographiques et/ou géopolitiques pour
restreindre l’étendue de l’échantillon étudié.
Ainsi, nous avons considéré
notre échantillon de foetus suivis à la maternité régionale de Nancy comme un
échantillon cohérent, sans détailler la provenance « ethnique » de chacun des
sujets qui le composent, préférant une certaine hétérogénéité à des
classifications simplistes, sources d’erreurs.
3- Facteurs héréditaires :
La question des caractéristiques ethniques renvoie à une autre question qui
lui est complémentaire : celle des facteurs héréditaires susceptibles d’influer
sur la croissance foetale.
Il s’agit essentiellement des caractéristiques
biométriques des parents (taille, poids) et surtout de la mère, qui sont très
corrélées aux caractéristiques biométriques du nouveau-né.
Il est
matériellement impossible d’effectuer autant de courbes standards que de
catégories de taille maternelle, mais il est impératif de tenir compte de ces
différences de gabarits parentaux dans le dépistage d’une éventuelle anomalie
de la croissance.
Ainsi, une valeur d’un paramètre en dessous du
10e percentile peut ne pas avoir la même signification selon que la mère est
« grande » ou « petite ».
Dans le premier cas, elle est un signe d’alerte faisant
suspecter un RCIU ; dans le second cas, elle peut n’être que la traduction d’un
petit gabarit constitutionnel.
Dans les deux cas, la prise en compte des
caractéristiques biométriques parentales permet de nuancer l’interprétation de
la biométrie foetale.
4- Pathologies maternelles et foetales :
Les grossesses pathologiques ayant donné lieu à des traitements médicaux
susceptibles de modifier la croissance du foetus doivent être exclues des
populations de référence (par exemple : diabète, hypertension artérielle,
infections, corticoïdes...).
De même pour les sujets mort-nés ou malformés,
même si l’on peut raisonnablement s’interroger sur l’exclusion de
malformations mineures isolées (polydactylies…) qui ne changent
vraisemblablement pas le cours de la croissance.
5- Grossesses multiples
:
Les grossesses multiples font habituellement l’objet d’études séparées et ne
sont pas incluses dans les échantillons servant à la construction des standards
de croissance foetale.
D - Taille de l’échantillon
:
En théorie, plus l’effectif de l’échantillon est important, plus la précision dans
le calcul des paramètres statistiques de la distribution (moyennes, écarts
types, percentiles) est grande et plus les courbes de percentiles sont lissées.
La taille minimale d’un échantillon pour tracer une courbe standard de
percentiles a été évaluée à plusieurs centaines d’individus.
La méconnaissance de l’influence de la taille de l’échantillon sur les résultats
d’une étude statistique de la croissance peut être une grande source d’erreur.
Dans un échantillon de
62 nouveau-nés mort-nés, un test t de Student(1) a été effectué entre les
moyennes des poids des filles et des garçons : la différence de poids (153 g)
n’est pas statistiquement significative au seuil de 5 %.
Le même test, effectué
dans un échantillon de 10 675 nouveau-nés présentant la même différence
de poids (153 g) est statistiquement significative au seuil de 5 %.
Ceci nous rappelle qu’il faut se garder de conclusions hâtives lorsque l’on
effectue des tests statistiques sur des échantillons d’effectifs faibles : le risque
d’erreur augmente considérablement avec de petits effectifs.
E - Choix des méthodes d’analyse statistique
:
1- Étude prospective ou étude rétrospective ?
L’étude prospective, qui permet de maîtriser du début à la fin les critères de
sélection des sujets inclus, semble a priori préférable.
Toutefois en pratique,
une étude prospective pure, impliquant la constitution définitive d’un
échantillon de référence en début de gestation est impossible à réaliser.
Certains sujets doivent être exclus de l’étude en cours de gestation en raison
même des critères de sélection de l’échantillon de départ.
Par exemple, si l’on
veut construire des standards n’impliquant que des sujets nés à terme (ce qui
est souhaitable, la prématurité pouvant altérer la croissance), il est
évidemment impossible de prévoir la composition de l’échantillon de départ.
Ce rendement faible et incertain fait que l’on préfère, pour l’établissement des
standards de croissance, les études rétrospectives aux études prospectives.
En fait, la fiabilité de l’échantillon dépend beaucoup plus de la qualité et de la
précision des informations recueillies, que de l’origine prospective ou
rétrospective des données.
Il est sans aucun doute préférable de sélectionner
des sujets au sein d’une base de données très large et hétérogène, a posteriori,
mais rigoureusement (selon des critères précis), que de cumuler petit à petit
des données dont les conditions de recueil sont mal maîtrisées.
Les données
que nous avons utilisées proviennent d’une étude rétrospective.
2- Études longitudinales ou études transversales ?
Dans les études longitudinales, le même foetus est mesuré plusieurs fois. Dans
les études transversales, le même foetus ne contribue qu’une seule fois à
l’échantillon de référence.
L’inconvénient majeur des études longitudinales
est que les mesures successives d’un même sujet présentent entre elles une
très forte corrélation.
Ceci revient en fait à diminuer l’information contenue
dans les données recueillies, la variabilité naturelle de la population étant alors
sous-estimée par la sur-représentation de chaque individu.
En fait dans toute
étude longitudinale, la taille véritable (utile) de l’échantillon est plus proche
du nombre de foetus mesurés que du nombre d’observations collectées.
Il semble donc que des données transversales, correspondant à des sujets si
possible tirés au sort dans chaque classe d’âge soient préférables pour
l’élaboration de standards de croissance.
C’est le cas des courbes présentées.
3- Moyenne et écart type
:
Pour décrire les distributions successives des valeurs d’un paramètre
biométrique au cours de la gestation, on peut employer soit la moyenne (µ) et
l’écart type (s), soit les percentiles.
Lorsque la distribution des données est gaussienne (normale), la moyenne µ
est l’indicateur de la valeur centrale de la distribution, et l’écart type s
l’indicateur de dispersion de cette distribution.
L’intervalle compris entre
µ ± 1 s englobe environ 68,3 %des valeurs de la distribution, µ ± 2 s environ
95,4 %, et µ ± 3 s environ 99,7 %.
L’utilisation de µ et de s pour décrire la distribution suppose cependant que
les données mesurées soient distribuées selon la loi normale.
Ce n’est pas
toujours le cas des échantillons de données biométriques qui peuvent se
départir de la loi normale de deux façons :
– la distribution des données peut être bimodale (distribution présentant deux
« clochers ») ; cette disposition évoque l’existence de deux groupes distincts
au sein du même échantillon (échantillon hétérogène) ;
– la distribution des données peut être asymétrique, avec un plus grand
nombre de valeurs faibles ou de valeurs élevées ; c’est souvent le cas lorsque
l’effectif de l’échantillon est petit ou moyen ; avec des effectifs élevés,
l’asymétrie de la distribution disparaît et la distribution devient normale
(théorème central limite).
Plus la distribution de la population dévie de la loi normale, plus l’effectif
exigé pour une bonne approximation à la loi normale est important.
En
pratique, l’effectif des échantillons est limité par les contraintes techniques
du recueil de données : il est souvent difficile d’obtenir un échantillon
suffisant pour que tous les paramètres biométriques présentent une
distribution normale.
Dans ce cas, il existe un autre mode de description des
données : les percentiles.
4- Percentiles :
Le xe percentile est une valeur telle que, une fois les observations ordonnées
par ordre croissant, x % des observations soient situées au-dessous de cette
valeur.
Le 50e percentile ou médiane correspond à la valeur qui divise la
distribution en deux : 50 % des observations se situent au-dessous de cette
valeur et 50 % au-dessus.
Les percentiles décrivent mieux les distributions asymétriques (cas des petits
échantillons).
La médiane, notamment, n’est pas affectée par des valeurs très
élevées ou au contraire très faibles, comme c’est le cas pour la moyenne.
C’est
une mesure plus sensible du centre de la distribution lorsque celle-ci est très
asymétrique.
5- Comparaison de la moyenne et de la médiane. Écarts types et percentiles
:
Lorsque les distributions ne sont pas normales (notamment dans le cas des
échantillons d’effectifs réduits), médiane et moyenne ne coïncident pas.
Il s’agit d’un échantillon de 27 foetus (15 féminins
et 12 masculins), mesurés en fin de gestation (38-39 SA), extrait d’une base
de données échographiques ayant servi à l’élaboration de standards de
croissance.
Les distributions du PA sont représentées sous forme de « boîte à moustaches ».
Le milieu de la boîte représente le 50e percentile, soit la
médiane, les bords de la boîte représentent les 25e et 75e percentiles, les deux
extrémités des « moustaches ».
La valeur correspondant à la moyenne est
indiquée par un trait à l’intérieur de la boîte.
Dans cet échantillon d’effectif réduit, on remarque que moyenne et médiane
ne coïncident pas chez les filles, comme chez les garçons.
Ceci est dû au fait
que la distribution du PAn’est pas symétrique.
La médiane est décalée vers le
bas, ce qui montre qu’il y a un plus grand nombre de sujets ayant un PAfaible
qu’un PA élevé.
De plus, chez les filles, la distribution est plus étendue dans
les 50 % médians, ce qui montre une variabilité plus grande des filles dans les
valeurs moyennes.
De même, il n’existe pas d’équivalent simple entre écarts types et percentiles.
La plupart du temps, lorsque l’on représente les courbes de croissance en
moyenne et écart type, on définit la normalité de croissance comme située
entre ± 2 s.
Lorsqu’on utilise les percentiles, on a coutume d’utiliser comme
limites de normalité, soit les 10e et 90e percentiles, soit les 5e et
95e percentiles, plus rarement les 3e et 97e percentiles.
Ces deux modes de représentation ne coïncident pas. Il concerne un échantillon de 490 foetus décédés provenant
de la maternité de Port-Royal.
Les courbes de croissance pondérales
correspondant à la µ ± 2 s et celles qui correspondent aux 5e, 50e et
95e percentiles du même échantillon ont été superposées : les
courbes des percentiles extrêmes ne coïncident pas avec les courbes
correspondant à 2 s, car les premières englobent 90 % des données et les
secondes 95 %.
Les 3e et 97e percentiles sont plus proches des courbes
correspondant à 2 s, puisqu’ils englobent 94 % de la distribution.
Néanmoins, la correspondance reste imparfaite puisqu’ils englobent encore
1 % de la distribution en moins que µ ± 2 s.
En fait, si l’on veut pouvoir
comparer des courbes calculées à partir de µ et s avec des courbes de
percentiles, il faut englober la même proportion de la distribution.
Si l’on trace
µ ± 1,645 s, on englobe bien 90 % de la distribution, ce qui correspond aux
5e et 95e percentiles. Néanmoins, comme c’est le cas ici, un décalage
entre les deux modes de représentation persiste souvent.
Ceci est dû au fait
que la distribution est asymétrique : dans le cas présent, l’importance
numérique des sujets présentant un retard de croissance décale les courbes de
percentiles vers le bas entre 26 et 38 SA.
Lorsque l’on ne dispose pas d’échantillons d’effectifs très élevés (plusieurs
milliers de sujets), il est donc plus exact d’utiliser les percentiles plutôt que
les écarts types pour tracer les courbes standards, parce qu’ils tiennent compte
de l’asymétrie fondamentale des distributions.
Cependant les nécessités du diagnostic anténatal imposent une certaine
souplesse dans l’application de cette règle.
En effet, le seuil de détection de
certaines anomalies rares de la croissance se situe bien en dessous du
3e percentile, qui est généralement le dernier percentile calculable.
Par
exemple, le seuil de la microcéphalie est évalué en pratique à -3 s pour le PC,
ce qui est inexprimable concrètement en terme de percentiles.
En effet, µ ±
3 s correspond à 99,7 % de la distribution, ce qui correspond à moins de
0,15 %de la population atteinte de microcéphalie (et corrélativement 0,15 %
atteinte de macrocéphalie) : il est matériellement impossible de calculer le
0,15e percentile d’une distribution !
Le problème se pose également pour
l’appréciation du degré de micromélie observée dans des maladies osseuses
constitutionnelles qui concernent une infime partie de la population :
l’anomalie de croissance du fémur peut être trop importante pour que sa
mesure soit exprimée en percentiles.
Il paraît donc raisonnable de présenter les courbes standards de croissance
sous forme de percentiles pour l’ensemble des paramètres biométriques, ces
courbes permettant de détecter toutes les formes de RCIU.
Ces courbes de
percentiles doivent être complétées pour certaines variables, comme le PC et
la LF, par des courbes de moyennes et écarts types.
L’utilisation d’une autre échelle de mesure, exprimée en multiple de la
médiane, peut également être plus descriptive dans certaines affections graves
qui ne se réfèrent plus à la distribution de la population.
6- Doit-on calculer séparément les standards de croissance des filles
et des garçons ?
Dans notre échantillon, des différences sexuelles de croissance
statistiquement significatives apparaissent dès 20-21 SA et augmentent
graduellement avec l’âge.
Elles concernent quatre des cinq variables
étudiées : le DBP, le DAT, le PC et le PA, pour lesquelles on observe un taux
de croissance plus élevé chez les foetus masculins.
En revanche, il n’existe
pas de différence sexuelle significative de LF.
La connaissance de cette
différence sexuelle peut avoir une certaine importance pour le diagnostic des RCIU dans les cas limites.
C’est pourquoi nous avons complété les tableaux
du PC et du PA en ajoutant les valeurs propres aux foetus masculins et aux
foetus féminins à partir de 20 SA.
7- Modélisation des données - Lissage des courbes
:
* Modélisation mathématique de la croissance foetale :
Il faut distinguer la modélisation des données longitudinales et la
modélisation des données transversales.
La modélisation des données
longitudinales ne sera abordée que brièvement, puisque les standards
présentés ici concernent des données transversales.
Concernant les données longitudinales, plusieurs modèles mathématiques ont
été proposés pour ajuster les valeurs successives d’une variable chez un même
sujet.
Les plus célèbres sont ceux de Deter et Rossavik.
Pour les données transversales, les modèles le plus couramment utilisés sont
des modèles de régression.
Des modèles autres que la régression ont
également été développés : un aperçu de leur diversité en est donné par Zeger
et al et Kokoska et al.
Une équation de régression est calculée pour prédire une variable dépendante
y à partir d’une variable indépendante x.
Qu’il s’agisse d’une régression
simple, correspondant à un ajustement linéaire, ou d’une régression polynômiale, correspondant à un ajustement curviligne, l’équation de la
courbe de régression est calculée par la méthode des moindres carrés.
Le
principe en est le suivant :
– soit la droite de régression y’ = a + bx (b est appelé coefficient de la
régression) ;
– a et b sont choisis de telle sorte que la différence D = ∑ (y-y’)2 soit
minimale, y étant la valeur observée pour un point xy, y’ la valeur prédite par
l’équation ;
– y-y’ correspond au résidu de y, représenté par la distance verticale qui
sépare le point considéré de la droite y’ = a + bx.
Le plus souvent, la relation d’une variable biométrique à l’âge n’est pas
curviligne, l’équation d’une droite ne suffit plus à ajuster correctement les
valeurs observées.
On peut alors calculer une équation correspondant à un
polynôme contenant des termes de plus hauts degrés en x (régression polynômiale) :
– y’ = a + bx + cx2 (courbe à un point d’inflexion) ;
– y’ = a + bx + cx2 + dx3 (courbe à deux points d’inflexion)... ;
b, c, d sont les coefficients de la régression.
Les modèles de régression sont d’un emploi courant dans les études de la
croissance. Néanmoins ils ne conviennent pas à tous les types de données. Un
certain nombre de conditions doivent être remplies :
– la régression suppose que les résidus ne sont pas corrélés, ce qui exclut en
principe les données longitudinales et les données mixtes de ce type de
modélisation ; dans le cas où les données proviennent d’une séquence
ordonnée, on suppose que les résidus ne sont pas dépendants de leurs voisins ;
cette indépendance peut être testée par l’intermédiaire du test de Durbin-Watson, en émettant l’hypothèse que la somme des carrés de la différence
entre résidus successifs, divisée par la somme des carrés des résidus, est
inférieure à une certaine valeur indiquée par la table de Durbin-Watson en
fonction du nombre de degrés de liberté (ddl) ;
– lavariance doit être constante quelle que soit la valeur de x ;
cette condition est rarement réalisée dans le cas de courbes de
croissance de données brutes en fonction de l’âge, la variabilité
(matérialisée par la dispersion des points) augmentant généralement
avec l’âge ; en revanche, ce
problème d’augmentation de la variance n’existe pas avec les percentiles
calculés par classes d’âge, ce qui fait des modèles de régression les modèles
mathématiques de choix pour l’ajustement des percentiles.
+ Comment choisir un modèle de régression et comment tester sa validité ?
Le choix du modèle peut se faire dans un premier temps à partir du nuage de
points : un aspect linéaire orientera vers la régression linéaire, curviligne vers
la régression polynômiale.
Si le modèle polynômial semble le plus adapté, le
choix du polynôme peut se faire en commençant par une équation de degré
élevé (4 au maximum, les courbes de croissance n’ayant pas plus de trois
points d’inflexion) et en réduisant systématiquement le degré du polynôme.
À chaque étape, il faut tester le modèle de régression.
L’analyse des résidus permet de détecter les incompatibilités entre les
hypothèses de départ concernant la régression (variance constante, résidus
non corrélés) et les données.
Elle permet également de tester visuellement la
linéarité et l’adéquation entre le type de régression choisi (simple ou polynômiale) et les données.
Les résidus sont reportés sur un diagramme en
fonction des valeurs ajustées ou en fonction du temps.
Si le modèle choisi est
correct et les conditions d’analyse remplies, le nuage de points ne doit
présenter aucune forme particulière, les résidus se répartissant en une bande
horizontale de largeur constante.
Un exemple peut servir à illustrer l’intérêt de l’analyse des résidus.
Le diagramme de dispersion du poids du corps en fonction de l’âge (foetus
décédés provenant de l’hôpital de Port-Royal) montre une relation plutôt
curviligne entre les deux variables.
Émettons l’hypothèse qu’une
régression polynômiale d’ordre 2 s’ajuste le mieux à ces données.
Le
coefficient R2 est égal à 0,96, le test F(2) est significatif (p = 0,0001).
Le
coefficient de régression associé à x2 est significativement différent de 0 (p =
0,0001).
Si l’on reporte sur un diagramme les valeurs des résidus en fonction
des valeurs ajustées (valeurs calculées à partir de l’équation de régression),
on s’aperçoit que les résidus sont bien répartis symétriquement de part et
d’autre de la courbe d’ajustement (le modèle polynômial s’ajuste bien aux
données) mais leur dispersion croît avec l’âge : la variance n’est donc pas
constante.
Une des conditions à la mise en oeuvre d’un modèle de régression
n’est donc pas remplie.
Notons que cette augmentation de la variance était
déjà visible sur la première figure, la dispersion des points augmentant avec
l’âge.
Si l’on avait contre toute vraisemblance ajusté un modèle de régression
linéaire, le diagramme des résidus en fonction des valeurs ajustées aurait
présenté une forme arquée caractéristique, démontrant l’inadéquation
de la modélisation linéaire.
Lorsqu’un type de modèle ne convient pas, on peut soit transformer les
variables (log x, log y, 1/x, 1/y...) pour stabiliser la variance ou linéariser la
relation, soit chercher un autre type de modèle.
Dans le cas du poids du corps
foetal, nous avions choisi dans un précédent travail la méthode des
moindres carrés localement pondérés utilisant le lissage par LOWESS
(locally weighted regression scatter plot smoothing).
Par rapport aux
méthodes de régression classiques, cette méthode, robuste et peu sensible aux
points aberrants, permet de mettre en évidence des variations plus fines de la
croissance, comme des changements de rythme.
* Lissage des courbes de percentiles standards
:
Dans la littérature, la façon dont sont construites les courbes de croissance est
rarement explicitée avec clarté.
Notamment, le modèle mathématique ayant
éventuellement servi à lisser les courbes est rarement précisé.
Dans le cas des courbes de percentiles, selon l’ajustement utilisé, on peut
obtenir des aspects très différents qui peuvent influencer l’appréciation de la
pathologie éventuelle de chaque sujet reporté sur la courbe.
Elle concerne les poids de naissance de
12 286 enfants. Ce type de lissage ne convient
visiblement pas.
Il entraîne une sous-estimation des RCIU, ou au moins des
foetus de petit gabarit, après 36 SA, et une surestimation des RCIU de 26 à
29 SA.
Les mêmes percentiles sont beaucoup mieux lissés par des courbes polynômiales d’ordre 3.
Ceci montre la nécessité de ne pas effectuer l’ajustement des données au
hasard, mais de toujours vérifier visuellement que le modèle choisi s’adapte
parfaitement aux données initiales.
En résumé, l’appréciation de la qualité de l’ajustement est visuelle, mais doit
être validée par l’analyse de régression.
F - De l’évaluation statique à l’évaluation dynamique
de la croissance : les vitesses de croissance foetale :
Les courbes de percentiles définissent des standards quantitatifs, c’est-à-dire
qu’elles permettent une évaluation statique des dimensions foetales à un âge
donné, autrement dit l’appréciation du gabarit foetal.
L’évaluation de la
croissance d’un sujet donné se fait par comparaison des valeurs obtenues lors
d’un seul examen aux valeurs de référence définies par les standards.
Plus intéressante peut être l’évaluation dynamique de la croissance :
dans ce cas, non plus une seule, mais deux mensurations successives sont
prises en considération afin de déterminer un taux de croissance individuel,
qu’il est facile de comparer à des taux de croissance de référence.
Dans ce
deuxième cas, l’évaluation qualitative de la croissance est évidemment bien
meilleure.
Évaluer la dynamique de croissance d’un sujet revient donc à déterminer le
taux de croissance d’un paramètre biométrique au cours d’un laps de temps
donné et à comparer ce taux aux valeurs moyennes de vitesse de croissance
fournies par une courbe de vitesse de croissance de référence.
Les vitesses de croissance moyennes peuvent être obtenues par dérivation
d’une courbe moyenne ajustée sur les données brutes (mensurations en
fonction de l’âge).
Mais dans ce cas, les vitesses obtenues vont être différentes
selon le type de modèle choisi pour l’ajustement.
C’est pourquoi nous avons
préféré une autre méthode de calcul des vitesses de croissance, appelée
« méthode par intervalles ».
Elle est fondée sur l’estimation des pentes
successives des droites de régression locale.
La gestation a été divisée en
intervalles égaux de 3 ou 4 semaines selon les paramètres, de façon à obtenir
un effectif suffisant par intervalle.
Sur ce court laps de temps, la
croissance est telle qu’un modèle de régression linéaire s’ajuste bien aux
données.
On peut ainsi calculer les pentes des droites de régression, c’est-àdire
les « vitesses » de croissance dans chaque intervalle.
Ces pentes sont
calculées avec un intervalle de confiance fixé conventionnellement à 95 %.
À
titre d’exemple, les droites de régression du poids du corps
par rapport à l’âge gestationnel sont représentées, dans trois intervalles :
18-22, 23-27, 28-32 SA.
La pente de chaque droite fournit la « vitesse »
moyenne dans chacun des intervalles (successivement : 73, 106, 146 g par
semaine).
Par convention, ces valeurs de vitesse de croissance sont reportées
au centre des intervalles (20, 25, 30 SA).
L’ensemble des valeurs des pentes,
reportées sur un même graphique en fonction de l’âge, constitue la « courbe
de vitesse de croissance » de la variable étudiée.
S’agissant de données
transversales, cette courbe correspond en fait à la dérivée de la courbe de
croissance moyenne de la population étudiée, et non à la moyenne des courbes
de vitesse de croissance individuelles, comme dans le cas des données
longitudinales.