Introduction : problématique de l’étude
biométrique de la croissance foetale
Les études de la croissance humaine et particulièrement de la croissance
foetale renvoient constamment à deux types d’interrogations :
– comment choisir les standards de croissance les plus fiables possible ?
– comment utiliser ces standards pour l’appréciation de la croissance
d’un sujet donné ?
Les réponses à ces questions ne sont pas aussi évidentes qu’il y paraît en
première analyse.
Il existe en effet un grand nombre de standards de
croissance disponibles et l’on peut hésiter sur le choix du standard à
utiliser.
D’autre part, il est légitime de se demander dans quelles limites
ces « normes » sont applicables à n’importe quel sujet, qu’il soit ou non
issu de la même population.
A - Diversité des standards de croissance foetale
:
Dans la littérature mondiale, il existe un grand nombre de courbes de
croissance de référence pour chaque variable biométrique, mais ces
courbes standards peuvent différer beaucoup les unes des autres.
Cette
hétérogénéité des standards de croissance mondiaux a deux causes : la
diversité des méthodes utilisées pour leur élaboration et les différences
de structure des populations étudiées.
1- Diversité des modes de construction des standards de croissance
:
Elle concerne tous les stades méthodologiques, du choix de la taille de
l’échantillon au choix du modèle mathématique de lissage des courbes.
C’est ainsi que certaines courbes standards sont construites à partir de
quelques centaines de sujets, d’autres en réunissent plusieurs
centaines de milliers.
Le mode de recueil des données peut
également être très différent d’un standard à l’autre, avec des variations
importantes dans les techniques de mesure échographiques et la
précision de ces mesures.
Enfin, le mode de construction mathématique
des courbes standards (calcul des paramètres statistiques de la variation,
mode de lissage des courbes) est souvent différent d’une étude à l’autre.
Ces variations méthodologiques peuvent avoir des conséquences
importantes sur l’aspect final des courbes de croissance, sur la
détermination des percentiles extrêmes et donc sur la définition des
« seuils » de normalité.
2- Diversité des populations de référence
:
Les différences constatées entre les standards de croissance disponibles
dans la littérature peuvent également avoir pour origine les différences
de structure des échantillons populationnels étudiés.
Les différences dans la composition ethnique ou sociologique des échantillons jouent
évidemment un grand rôle dans la diversité des normes de croissance,
mais les critères de sélection d’ordre médical interviennent également.
C’est ainsi que certains standards prennent en compte tous les foetus ou
nouveau-nés examinés en un lieu et dans un laps de temps donnés,
d’autres excluant certains sujets, comme les jumeaux et/ou les mortnés,
les sujets malformés, les grossesses pathologiques, etc.
3- Une norme ou des normes ?
Les disparités génétiques, sociologiques et médicales créent une
mosaïque de sous-unités populationnelles distinctes.
La question se pose
alors de savoir s’il convient d’utiliser des « normes » de croissance pour
chacun de ces sous-groupes, ou un nombre restreint de normes à valeur
universelle.
Le clinicien peut choisir d’élaborer ses propres standards de croissance
à partir d’une population de référence locale.
Cette solution est
certainement la plus fiable, moyennant quelques précautions
méthodologiques que nous détaillerons plus loin, mais elle nécessite un
investissement pratique parfois difficile à réaliser.
L’autre solution
consiste à choisir un standard de croissance parmi ceux de la littérature.
Ce choix ne peut s’opérer uniquement sur des critères de fiabilité
méthodologique, mais doit pondérer les avantages respectifs des
différents standards disponibles en matière de spécificité et de
sensibilité.
Les critères méthodologiques du choix des standards de
croissance seront abordés plus loin dans le texte.
4- Diversité des variables biométriques
:
Les variables biométriques pour lesquelles il existe des standards de
croissance sont très nombreuses.
On peut les classer en deux groupes :
– les variables représentatives de la croissance staturopondérale du
foetus : entrent dans ce groupe toutes les dimensions linéaires de la tête
(diamètre et périmètre crâniens), des membres (longueur du fémur…)
et du tronc (diamètre et périmètre abdominaux …), mais également le
poids du corps estimé, calculé à partir de ces dimensions linéaires ;
– les variables plus spécifiques, représentatives de la croissance d’un
organe donné (dimensions et volume du rein, du cerveau…) ; ces
variables ne sont pas utilisées pour le dépistage des anomalies de la
croissance globale du foetus, mais dans le cadre de la détection et du suivi
de certaines affections viscérales.
Nous n’évoquerons ici que les variables représentatives de la croissance staturopondérale, les plus utilisées en pratique médicale courante.
B -
Problèmes liés à l’utilisation pratique des standards de
croissance :
L’utilisation pratique d’un standard de croissance, même si celui-ci est
choisi à partir de critères rigoureux, se heurte à deux difficultés :
– à partir d’un standard donné, quel seuil doit-on prendre en compte
pour délimiter la croissance pathologique de la croissance normale ?
Ce
seuil doit-il être le même pour tous les paramètres biométriques ?
– comment évaluer correctement la croissance d’un individu à partir de
standards de croissance moyens ?
La comparaison, à un âge donné, des
dimensions d’un sujet avec des valeurs de référence suffit-elle à détecter
toute anomalie de la croissance ?
C’est à l’ensemble de ces questions méthodologiques et pratiques que
nous nous proposons ici de répondre.
Nous envisagerons tout d’abord
l’importance de la méthodologie dans la construction des standards de
croissance.
Puis nous fournirons un certain nombre de courbes standards
échographiques permettant une évaluation « statique », mais aussi «
dynamique » de la croissance foetale.
Enfin, nous discuterons la
variabilité individuelle de croissance et ses conséquences sur
l’évaluation de la croissance foetale.
Méthodes de construction des standards
de croissance foetale :
A - Techniques de mesure des principaux paramètres
biométriques ; précision des mesures :
Les principaux paramètres concernent la croissance cranioencéphalique, la croissance tronculaire et la taille. Ils permettent
d’approcher la croissance staturopondérale.
1- Diamètre bipariétal
:
Le diamètre transverse du crâne est mesurable à partir de 10 SA.
L’ossification des os pariétaux est reconnue à 13 SA.
Dès lors, le DBP
peut être mesuré, par définition sur une coupe axiale et à l’endroit où le
crâne est le plus large.
Les calibreurs sont placés par convention sur le
bord externe de la table osseuse pariétale proximale et sur le bord interne
de l’os pariétal distal.
Hadlock recommande l’utilisation d’un gain
moyen de sorte que l’épaisseur de la voûte osseuse n’excède pas 3 mm.
Les échos pariétaux doivent être à égale distance des structures
médianes.
Idéalement, celles-ci sont perpendiculaires à l’axe du faisceau
ultrasonore (crâne en position occipitotransverse).
Le plan de coupe,
oblique en bas et en arrière, passe par la faux du cerveau ; il intéresse
également le thalamus, le IIIe ventricule et les pédoncules cérébraux.
Aux deuxième et troisième trimestres, dans le plan de coupe du DBP, la
faux du cerveau est visible dans ses tiers antérieur et postérieur.
À son
tiers antérieur, elle est interrompue en arrière par l’image de la cavité du
septum lucidum ou celle des piliers antérieurs du fornix.
Souvent, la
coupe passe aussi par le glomus choroïdien au niveau de l’atrium de
chaque ventricule latéral.
2- Périmètre crânien
:
La mesure de la circonférence céphalique est recueillie dans le même
plan de coupe que le DBP, mais au niveau des contours externes de la
calvaria, en excluant les échos des tissus mous.
Les résultats obtenus par
l’ellipse électronique et avec le tracé manuel sont comparables.
3- Diamètre abdominal transverse
:
Le DAT est le paramètre abdominal le plus couramment utilisé en
France.
Il correspond au diamètre transverse du PA.
Ces deux paramètres sont
en fait liés par un facteur ∏, à condition que les critères d’une coupe
axiale stricte, la plus circulaire possible, puissent être respectés (en
l’absence de pression de la sonde et d’appui abdominal foetal sur les
contours utéroplacentaires).
Les calibreurs sont placés au niveau des
contours cutanés, en pratique à proximité de l’extrémité antérieure des
images costales, perpendiculairement à l’axe sagittal défini par le rachis
et la veine ombilicale.
4- Périmètre abdominal
:
Le PAest mesuré sur une coupe axiale transhépatique qui circonscrit les
contours externes cutanés.
Cette coupe aborde perpendiculairement le
rachis, l’aorte et la veine cave inférieure.
Elle passe par le récessus
ombilical (portion ombilicale de la veine porte gauche), formant un
segment ovoïde horizontal qui se prolonge en « J » par le sinus porte
(portion transverse de la veine porte gauche) puis par la veine porte
droite sans démarcation nette ni réduction de calibre.
La coupe, située
en T10-T11, passe également par les surrénales.
5- Longueur fémorale
:
La LF correspond à la mesure du fût diaphysaire ossifié du fémur.
Il doit
être rectiligne (quand il est abordé de dehors en dedans).
Il doit
également présenter une échogénicité identique sur toute sa longueur.
Ses extrémités doivent être nettes, rectilignes ou émoussées plutôt
qu’aiguës ou spiculaires.
La mesure doit exclure les échos métaphysoépiphysaires, et bien être effectuée dans l’axe diaphysaire,
quand l’os est positionné horizontalement à l’intérieur de la zone focale.
6- Précision technique des mesures
:
Les variations de la mesure dépendent à la fois de l’opérateur et de la
patiente :
– les valeurs des paramètres varient lors de mensurations itératives
réalisées par un même opérateur (variabilité intraobservateur) et lors
d’un changement d’opérateur (variabilité interobservateur) ; la
variabilité intraobservateur est moindre que la variabilité
interobservateur ;
– des facteurs maternels tels que la multiparité, l’âge gestationnel,
l’épaisseur pariétale, ainsi que la quantité de liquide amniotique,
introduisent une erreur systématique dans la mesure.
La position foetale, outre qu’elle peut modifier les formes, peut limiter la
validité de certaines mesures (par exemple, DBP et PA en cas de
présentation podalique).
Lévi et Smets ont signalé que l’erreur moyenne minimale de la
mesure était de 1,5 mm et pouvait correspondre à la différence entre le
20e et le 10e percentile d’un paramètre.
Pour Harstadt et Little, la mesure la moins reproductible est celle du
PA, alors que la plus fiable est celle de la LF (fiabilité intraobservateur :
PA = 85 %, LF = 99 %, PC = 94 %, DBP = 92 % ; fiabilité
interobservateur : PA= 85 %, LF = 92 %, PC = 88 %, DBP = 91 %).
On pourrait s’étonner que les mesures de l’abdomen, en pratique les
moins précises, aient la plus grande pertinence diagnostique.
Toutefois,
elles sont affectées préférentiellement en cas de retard de croissance
intra-utérin (RCIU) modéré, alors que les mesures du pôle céphalique
ne le sont qu’à un degré moindre et celles du fémur, plus
occasionnellement et à des degrés divers, en particulier selon l’âge
gestationnel.
Ces points soulignent la nécessité d’une grande rigueur dans la
réalisation des mesures, afin d’en améliorer la reproductibilité.
7- Intervalle de temps entre deux mesures
:
Le choix de l’intervalle de temps entre deux mesures dépend de
plusieurs facteurs.
Il doit dans tous les cas être suffisamment grand pour
que la croissance soit mesurable, c’est-à-dire que l’accroissement entre
deux mesures soit supérieur à la précision technique de la mesure.
Cet
intervalle minimal entre deux mesures n’est donc pas fixe au cours de la
gestation, mais dépend du taux de croissance du paramètre étudié : la
croissance ralentissant avec l’âge, l’intervalle minimal entre deux
mesures doit être plus grand en fin qu’en début de gestation.
L’intervalle minimal entre deux mesures dépend également du type de
mensuration : plus une mensuration est petite, plus son accroissement
est faible en valeur absolue et plus long doit être l’intervalle entre deux
mesures pour pouvoir mesurer cet accroissement.
Globalement, si des mesures successives permettent une approche plus
directe de la croissance, le changement d’opérateur est à éviter dans ce
mode d’évaluation de la croissance, puisque la variabilité interopérateur
est plus grande que la variabilité intraopérateur.
En pratique, un
intervalle d’une dizaine de jours est suffisant pour les foetus jeunes, tant
que les vitesses de tous les paramètres sont élevées.
Un délai d’au moins
3 semaines peut être nécessaire pour certains paramètres dans la
deuxième moitié de la gestation.
B - Détermination de l’âge des sujets
:
1- Âge foetal exprimé en semaines d’aménorrhée
:
Avant la diffusion de l’échographie, l’âge gestationnel n’était déterminé
que d’après la date des dernières règles, en considérant que la date de conception coïncide avec la date de l’ovulation survenue 14 jours après
le début des dernières règles chez une femme dont les cycles sont de
28 jours.
On exprimait alors l’âge gestationnel en SA.
Pour une femme
dont les cycles n’étaient pas de 28 jours, la date de conception était
supposée correspondre à la date des dernières règles + le nombre de jours
du (ou des) cycle(s) précédent(s) - 14 jours.
En obstétrique, il est d’usage de continuer à exprimer l’âge gestationnel
en SA, malgré la datation échographique.
Il serait toutefois possible
d’exprimer celui-ci en semaines de gestation à condition de prendre
comme référence la date présumée de conception, ou du moins son
intervalle de confiance déterminé par l’échographie.
La détermination de l’âge gestationnel par l’histoire menstruelle est
insuffisante.
Outre l’imprécision liée aux défauts de mémorisation par
la patiente, il existe une variabilité de la date d’ovulation par rapport aux
cycles.
Ainsi Hadlock rapporte l’étude de Matsumoto qui estime que
20 % des femmes ovulent précocement (< 11 jours) ou tardivement
(> 21 jours).
Campbell etWaldenström (cités également par Hadlock)
ont démontré que la mesure échographique du DBP entre 14 et 20 SA
est plus performante que l’histoire clinique pour la datation, alors même
que cette mesure n’est pas la plus précise.
2- Datation échographique
:
Des normes mettant en relation des mesures échographiques avec un âge
gestationnel ont été établies. Le problème était de disposer, pour la
détermination de l’âge gestationnel, d’un gold standard auquel on
pouvait rapporter les mesures effectuées pour établir les normes.
Les
premières études se sont intéressées à des femmes qui avaient des cycles
réguliers.
Les suivantes ont porté sur des femmes suivies pour une
infertilité dont on monitorait les cycles ou que l’on stimulait.
Plus
récemment, on a utilisé les grossesses obtenues par fécondation in vitro
(FIV) en considérant comme date de conception le jour de la ponction.
* Mesure du sac gestationnel
:
Avant 7 SA, en utilisant les sondes endovaginales à haute fréquence, la
datation échographique peut se faire par la description et la mesure du
sac gestationnel.
Warren et al a ainsi relié l’apparition de structures embryonnaires à
l’âge gestationnel :
– le sac gestationnel est constamment visible à 4 SA ;
– la vésicule vitelline, présente dans 91 %des cas à 5 SA, est constante
à 6 SA ;
– la visualisation d’une échostructure embryonnaire avec activité
cardiaque s’effectue dans 86 % des cas à 6 SA et dans tous les cas à
7 SA ; Daya et al a corrélé la taille du sac gestationnel à l’âge de
l’embryon.
* Mesure de la longueur craniocaudale (LCC)
:
Le paramètre de choix pour la datation échographique est la LCC.
L’habitude en France est de mesurer celle-ci en prenant la plus grande
longueur embryonnaire, sans correction de la courbure naturelle de
l’embryon et en excluant les membres.
Ceci correspond notamment
à la façon de mesurer d’auteurs tels queWisser et al.
Dans une étude française récente, Grangé et al comparent, sur une
population de grossesses obtenues par FIV, les résultats de différentes
courbes du point de vue de la datation échographique.
Ils concluent à la
supériorité de la courbe de Wisser et al, dont l’intervalle de
prédictivité à 95 % est de ± 5 jours.
Afin d’accroître la pertinence, ils
recommandent de n’effectuer de correction de l’âge gestationnel que
lorsque l’âge échographique diffère de plus de 7 jours (avec un intervalle
de prédictivité à 98 %).
Pour Hadlock, la variabilité est de ± 8 %autour de l’âge gestationnel
estimé, tout au long de la grossesse, dans l’intervalle de prédictivité de
95 %.
Ainsi à 8 SA, elle est de ± 4,5 jours, alors qu’à 15 SA elle est de
± 8,4 jours.
Ces auteurs recommandent donc d’effectuer la datation
échographique entre 7 et 9 SA, étant en cela plus restrictifs que Grangé
et al qui estiment qu’elle devrait être réalisée entre 7 et 12 SA.
* Mesure d’autres variables
:
Certains auteurs ont évalué d’autres mesures (DBP, PA, LF) au premier
trimestre.
Pour Hadlock, si elles sont réalisables et apportent des
résultats satisfaisants, elles ne sont pas supérieures à la LCC.
En
revanche, pour la datation tardive, ces mesures ne seront utilisables
qu’avant 20 SA.
C - Choix de la population de référence -
Composition de l’échantillon
:
Une fois l’âge gestationnel précisé et le recueil des mesures effectué, la
construction des standards de croissance foetale suppose d’opérer des
choix méthodologiques sur des critères précis.
Le premier choix concerne celui de la population de référence.
Ce choix
est déterminant et pourtant les critères de sélection des individus sont
loin d’être normalisés, ce qui rend dès lors toute comparaison entre les
différents standards de croissance hasardeuse.
1- Représentativité spatiale de l’échantillon étudié
:
Il est indispensable de savoir si les données ont été recueillies dans un
seul centre médical ou dans plusieurs.
En effet, dans le premier cas,
l’échantillon de la population est homogène, mais nécessairement
restreint quant à son effectif.
Dans le deuxième cas, la taille parfois
considérable des échantillons (allant jusqu’à plusieurs centaines de
milliers d’individus) assure une meilleure représentativité de la
population globale, mais les techniques de mesure peuvent être très
différentes d’un hôpital à l’autre et augmenter considérablement la
variabilité apparente des paramètres biométriques.
Nous avons choisi de ne présenter ici que des courbes de croissance
élaborées à partir de données provenant d’une seule maternité (maternité
régionale de Nancy).
2- Composition « ethnique »
:
Si l’on suppose que la croissance foetale diffère significativement d’un
groupe humain à l’autre (ce qui reste à démontrer), il semblerait justifié
d’élaborer des standards de croissance foetale distincts pour différentes
« ethnies ».
Cette proposition se heurte aux difficultés de définition des
groupes « ethniques » : doit-on les définir au sens culturel du terme
(bretons, basques, corses...), par nationalité (français, belges,
luxembourgeois...), par région géographique (maghrébins, sudeuropéens,
nord-européens) ou encore selon des critères anthropométriques rappelant la définition obsolète des « races ».
Mais
parler de « race » à propos des « Noirs » (Negroes) et des « Blancs
caucasoïdes » (Caucasian infants) nord-américains est un non-sens
scientifique, quand on connaît la diversité d’origine géographique des
individus composant ces groupes.
De fait, on ne peut définir des sousgroupes
« biologiques » qu’à partir d’un seul critère à la fois, et l’on ne
voit pas bien en quoi la couleur de peau aurait une influence plus
importante sur la croissance foetale que n’importe quel autre caractère
biologique pris au hasard, comme le groupe sanguin ou la couleur des
yeux.
C’est pourquoi il nous semble raisonnable de ne prendre en
compte que des critères géographiques et/ou géopolitiques pour
restreindre l’étendue de l’échantillon étudié.
Ainsi, nous avons
considéré notre échantillon de foetus suivis à la maternité régionale de
Nancy comme un échantillon cohérent, sans détailler la provenance
« ethnique » de chacun des sujets qui le composent, préférant une
certaine hétérogénéité à des classifications simplistes, sources d’erreurs.
3- Facteurs héréditaires
:
La question des caractéristiques ethniques renvoie à une autre question
qui lui est complémentaire : celle des facteurs héréditaires susceptibles
d’influer sur la croissance foetale.
Il s’agit essentiellement des
caractéristiques biométriques des parents (taille, poids) et surtout de la
mère, qui sont très corrélées aux caractéristiques biométriques du
nouveau-né.
Il est matériellement impossible d’effectuer autant
de courbes standards que de catégories de taille maternelle, mais il est
impératif de tenir compte de ces différences de gabarits parentaux dans
le dépistage d’une éventuelle anomalie de la croissance.
Ainsi, une
valeur d’un paramètre en dessous du 10e percentile peut ne pas avoir la
même signification selon que la mère est « grande » ou « petite ».
Dans
le premier cas, elle est un signe d’alerte faisant suspecter un RCIU ; dans
le second cas, elle peut n’être que la traduction d’un petit gabarit
constitutionnel. Dans les deux cas, la prise en compte des
caractéristiques biométriques parentales permet de nuancer
l’interprétation de la biométrie foetale.
4- Pathologies maternelles et foetales
:
Les grossesses pathologiques ayant donné lieu à des traitements
médicaux susceptibles de modifier la croissance du foetus doivent être
exclues des populations de référence (par exemple : diabète,
hypertension artérielle, infections, corticoïdes...).
De même pour les
sujets mort-nés ou malformés, même si l’on peut raisonnablement
s’interroger sur l’exclusion de malformations mineures isolées
(polydactylies…) qui ne changent vraisemblablement pas le cours de la
croissance.
5- Grossesses multiples
:
Les grossesses multiples font habituellement l’objet d’études séparées
et ne sont pas incluses dans les échantillons servant à la construction des
standards de croissance foetale.
D - Taille de l’échantillon
:
En théorie, plus l’effectif de l’échantillon est important, plus la précision
dans le calcul des paramètres statistiques de la distribution (moyennes,
écarts types, percentiles) est grande et plus les courbes de percentiles
sont lissées.
La taille minimale d’un échantillon pour tracer une courbe
standard de percentiles a été évaluée à plusieurs centaines d’individus.
La méconnaissance de l’influence de la taille de l’échantillon sur les
résultats d’une étude statistique de la croissance peut être une grande
source d’erreur.
Ceci nous rappelle qu’il faut se garder de conclusions hâtives lorsque
l’on effectue des tests statistiques sur des échantillons d’effectifs
faibles : le risque d’erreur augmente considérablement avec de petits
effectifs.
E - Choix des méthodes d’analyse statistique
:
1- Étude prospective ou étude rétrospective ?
L’étude prospective, qui permet de maîtriser du début à la fin les critères
de sélection des sujets inclus, semble a priori préférable.
Toutefois en
pratique, une étude prospective pure, impliquant la constitution
définitive d’un échantillon de référence en début de gestation est
impossible à réaliser.
Certains sujets doivent être exclus de l’étude en
cours de gestation en raison même des critères de sélection de
l’échantillon de départ.
Par exemple, si l’on veut construire des
standards n’impliquant que des sujets nés à terme (ce qui est souhaitable,
la prématurité pouvant altérer la croissance), il est évidemment
impossible de prévoir la composition de l’échantillon de départ.
Ce
rendement faible et incertain fait que l’on préfère, pour l’établissement
des standards de croissance, les études rétrospectives aux études
prospectives.
En fait, la fiabilité de l’échantillon dépend beaucoup plus de la qualité et
de la précision des informations recueillies, que de l’origine prospective
ou rétrospective des données.
Il est sans aucun doute préférable de
sélectionner des sujets au sein d’une base de données très large et
hétérogène, a posteriori, mais rigoureusement (selon des critères précis),
que de cumuler petit à petit des données dont les conditions de recueil
sont mal maîtrisées.
Les données que nous avons utilisées proviennent
d’une étude rétrospective.
2- Études longitudinales ou études transversales ?
Dans les études longitudinales, le même foetus est mesuré plusieurs fois.
Dans les études transversales, le même foetus ne contribue qu’une seule
fois à l’échantillon de référence.
L’inconvénient majeur des études
longitudinales est que les mesures successives d’un même sujet
présentent entre elles une très forte corrélation.
Ceci revient en fait à
diminuer l’information contenue dans les données recueillies, la
variabilité naturelle de la population étant alors sous-estimée par la surreprésentation
de chaque individu.
En fait dans toute étude
longitudinale, la taille véritable (utile) de l’échantillon est plus proche
du nombre de foetus mesurés que du nombre d’observations collectées.
Il semble donc que des données transversales, correspondant à des sujets
si possible tirés au sort dans chaque classe d’âge soient préférables pour
l’élaboration de standards de croissance.
C’est le cas des courbes
présentées.
3- Moyenne et écart type
:
Pour décrire les distributions successives des valeurs d’un paramètre
biométrique au cours de la gestation, on peut employer soit la moyenne
(µ) et l’écart type (α), soit les percentiles.
Lorsque la distribution des données est gaussienne (normale), la
moyenne µ est l’indicateur de la valeur centrale de la distribution, et
l’écart type α l’indicateur de dispersion de cette distribution.
L’intervalle compris entreµ ± 1 α englobe environ 68,3 % des valeurs
de la distribution, µ ± 2 α environ 95,4 %, et µ ± 3 α environ 99,7 %.
L’utilisation de
µ et de α pour décrire la distribution suppose cependant
que les données mesurées soient distribuées selon la loi normale.
Ce
n’est pas toujours le cas des échantillons de données biométriques qui
peuvent se départir de la loi normale de deux façons :
– la distribution des données peut être bimodale (distribution présentant
deux « clochers ») ; cette disposition évoque l’existence de deux groupes
distincts au sein du même échantillon (échantillon hétérogène) ;
– la distribution des données peut être asymétrique, avec un plus grand
nombre de valeurs faibles ou de valeurs élevées ; c’est souvent le cas
lorsque l’effectif de l’échantillon est petit ou moyen ; avec des effectifs
élevés, l’asymétrie de la distribution disparaît et la distribution devient
normale (théorème central limite).
Plus la distribution de la population dévie de la loi normale, plus
l’effectif exigé pour une bonne approximation à la loi normale est
important.
En pratique, l’effectif des échantillons est limité par les
contraintes techniques du recueil de données : il est souvent difficile
d’obtenir un échantillon suffisant pour que tous les paramètres
biométriques présentent une distribution normale.
Dans ce cas, il existe
un autre mode de description des données : les percentiles.
4- Percentiles
:
Le Xe percentile est une valeur telle que, une fois les observations
ordonnées par ordre croissant, x % des observations soient situées audessous
de cette valeur.
Le 50e percentile ou médiane correspond à la
valeur qui divise la distribution en deux : 50 % des observations se
situent au-dessous de cette valeur et 50 % au-dessus.
Les percentiles décrivent mieux les distributions asymétriques (cas des
petits échantillons).
La médiane, notamment, n’est pas affectée par des
valeurs très élevées ou au contraire très faibles, comme c’est le cas pour
la moyenne.
C’est une mesure plus sensible du centre de la distribution
lorsque celle-ci est très asymétrique.
5- Comparaison de la moyenne et de la médiane.
Écarts types et percentiles :
Lorsque les distributions ne sont pas normales (notamment dans le cas
des échantillons d’effectifs réduits), médiane et moyenne ne coïncident
pas.
Il s’agit d’un échantillon de 27 foetus
(15 féminins et 12 masculins), mesurés en fin de gestation (38-39 SA),
extrait d’une base de données échographiques ayant servi à l’élaboration
de standards de croissance.
Les distributions du PAsont représentées
sous forme de « boîte à moustaches ».
Le milieu de la boîte représente le
50e percentile, soit la médiane, les bords de la boîte représentent les
25e et 75e percentiles, les deux extrémités des « moustaches ».
La valeur
correspondant à la moyenne est indiquée par un trait à l’intérieur de la
boîte.
Dans cet échantillon d’effectif réduit, on remarque que moyenne et
médiane ne coïncident pas chez les filles, comme chez les garçons.
Ceci
est dû au fait que la distribution du PAn’est pas symétrique.
La médiane
est décalée vers le bas, ce qui montre qu’il y a un plus grand nombre de
sujets ayant un PA faible qu’un PA élevé.
De plus, chez les filles, la
distribution est plus étendue dans les 50 % médians, ce qui montre une
variabilité plus grande des filles dans les valeurs moyennes.
De même, il n’existe pas d’équivalent simple entre écarts types et
percentiles.
La plupart du temps, lorsque l’on représente les courbes de croissance
en moyenne et écart type, on définit la normalité de croissance comme
située entre ± 2 α.
Lorsqu’on utilise les percentiles, on a coutume
d’utiliser comme limites de normalité, soit les 10e et 90e percentiles, soit
les 5e et 95e percentiles, plus rarement les 3e et 97e percentiles.
Il concerne un échantillon de 490 foetus décédés
provenant de la maternité de Port-Royal.
Les courbes de croissance pondérales correspondant à la
µ ± 2 α et celles qui correspondent aux 5e,
50e et 95e percentiles du même échantillon ont été superposées
: les courbes des percentiles extrêmes ne coïncident pas avec
les courbes correspondant à 2 α, car les premières englobent 90 % des
données et les secondes 95 %.
Les 3e et 97e percentiles sont plus proches
des courbes correspondant à 2 α, puisqu’ils englobent 94 % de la
distribution.
Néanmoins, la correspondance reste imparfaite
puisqu’ils englobent encore 1 %de la distribution en moins que µ ± 2 α.
En fait, si l’on veut pouvoir comparer des courbes calculées à partir de
µ
et α avec des courbes de percentiles, il faut englober la même proportion
de la distribution. Si l’on trace µ ± 1,645 α, on englobe bien 90 % de la
distribution, ce qui correspond aux 5e et 95e percentiles.
Néanmoins, comme c’est le cas ici, un décalage entre les deux modes de
représentation persiste souvent.
Ceci est dû au fait que la distribution est
asymétrique : dans le cas présent, l’importance numérique des sujets
présentant un retard de croissance décale les courbes de percentiles vers
le bas entre 26 et 38 SA.
Lorsque l’on ne dispose pas d’échantillons d’effectifs très élevés
(plusieurs milliers de sujets), il est donc plus exact d’utiliser les
percentiles plutôt que les écarts types pour tracer les courbes standards,
parce qu’ils tiennent compte de l’asymétrie fondamentale des
distributions.
Cependant les nécessités du diagnostic anténatal imposent une certaine
souplesse dans l’application de cette règle.
En effet, le seuil de détection
de certaines anomalies rares de la croissance se situe bien en dessous du
3e percentile, qui est généralement le dernier percentile calculable.
Par
exemple, le seuil de la microcéphalie est évalué en pratique à -3 α pour
le PC, ce qui est inexprimable concrètement en terme de percentiles.
En
effet, µ ± 3 α correspond à 99,7 % de la distribution, ce qui correspond à
moins de 0,15 % de la population atteinte de microcéphalie (et
corrélativement 0,15 % atteinte de macrocéphalie) : il est
matériellement impossible de calculer le 0,15e percentile d’une
distribution !
Le problème se pose également pour l’appréciation du
degré de micromélie observée dans des maladies osseuses
constitutionnelles qui concernent une infime partie de la population :
l’anomalie de croissance du fémur peut être trop importante pour que sa
mesure soit exprimée en percentiles.
Il paraît donc raisonnable de présenter les courbes standards de
croissance sous forme de percentiles pour l’ensemble des paramètres
biométriques, ces courbes permettant de détecter toutes les formes de RCIU.
Ces courbes de percentiles doivent être complétées pour
certaines variables, comme le PC et la LF, par des courbes de moyennes
et écarts types.
L’utilisation d’une autre échelle de mesure, exprimée en multiple de la
médiane, peut également être plus descriptive dans certaines affections
graves qui ne se réfèrent plus à la distribution de la population.
6- Doit-on calculer séparément les standards de croissance
des filles et des garçons ?
Dans notre échantillon, des différences sexuelles de croissance
statistiquement significatives apparaissent dès 20-21 SA et augmentent
graduellement avec l’âge.
Elles concernent quatre des cinq variables
étudiées : le DBP, le DAT, le PC et le PA, pour lesquelles on observe un
taux de croissance plus élevé chez les foetus masculins.
En revanche, il
n’existe pas de différence sexuelle significative de LF.
La connaissance
de cette différence sexuelle peut avoir une certaine importance pour le
diagnostic des RCIU dans les cas limites.
C’est pourquoi nous avons
complété les tableaux du PC et du PAen ajoutant les valeurs propres aux
foetus masculins et aux foetus féminins à partir de 20 SA.
7- Modélisation des données - Lissage des courbes
:
* Modélisation mathématique de la croissance foetale
:
Il faut distinguer la modélisation des données longitudinales et la
modélisation des données transversales.
La modélisation des données
longitudinales ne sera abordée que brièvement, puisque les standards
présentés ici concernent des données transversales.
Concernant les données longitudinales, plusieurs modèles
mathématiques ont été proposés pour ajuster les valeurs successives
d’une variable chez un même sujet.
Les plus célèbres sont ceux de Deter
et Rossavik.
Pour les données transversales, les modèles le plus couramment utilisés
sont des modèles de régression.
Des modèles autres que la
régression ont également été développés : un aperçu de leur diversité en
est donné par Zeger et al et Kokoska et al.
Une équation de régression est calculée pour prédire une variable
dépendante y à partir d’une variable indépendante x.
Qu’il s’agisse
d’une régression simple, correspondant à un ajustement linéaire, ou
d’une régression polynômiale, correspondant à un ajustement
curviligne, l’équation de la courbe de régression est calculée par la
méthode des moindres carrés. Le principe en est le suivant :
– soit la droite de régression
y’ = a + bx (b est appelé coefficient de la
régression) ;
– a et b sont choisis de telle sorte que la différence
D = ª (y-y’)2 soit
minimale, y étant la valeur observée pour un point xy, y’ la valeur prédite
par l’équation ;
– y-y’ correspond au résidu de y, représenté par la distance verticale qui
sépare le point considéré de la droite y’ = a + bx.
Le plus souvent, la relation d’une variable biométrique à l’âge n’est pas
curviligne, l’équation d’une droite ne suffit plus à ajuster correctement
les valeurs observées.
On peut alors calculer une équation correspondant
à un polynôme contenant des termes de plus hauts degrés en x
(régression polynômiale) :
– y’ = a + bx + cx2 (courbe à un point d’inflexion) ;
– y’ = a + bx + cx2 + dx3 (courbe à deux points d’inflexion)... ;
b, c, d sont les coefficients de la régression.
Les modèles de régression sont d’un emploi courant dans les études de
la croissance. Néanmoins ils ne conviennent pas à tous les types de
données. Un certain nombre de conditions doivent être remplies :
– la régression suppose que les résidus ne sont pas corrélés, ce qui
exclut en principe les données longitudinales et les données mixtes de
ce type de modélisation ; dans le cas où les données proviennent d’une
séquence ordonnée, on suppose que les résidus ne sont pas dépendants
de leurs voisins ; cette indépendance peut être testée par l’intermédiaire
du test de Durbin-Watson, en émettant l’hypothèse que la somme des
carrés de la différence entre résidus successifs, divisée par la somme des
carrés des résidus, est inférieure à une certaine valeur indiquée par la
table de Durbin-Watson en fonction du nombre de degrés de liberté
(ddl) ;
– la
variance doit être constante quelle que soit la valeur de x ;
cette condition est rarement réalisée dans le cas de courbes de
croissance de données brutes en fonction de l’âge, la
variabilité (matérialisée par la dispersion des points)
augmentant généralement avec l’âge ; en revanche, ce problème d’augmentation de la variance
n’existe pas avec les percentiles calculés par classes d’âge, ce qui fait
des modèles de régression les modèles mathématiques de choix pour
l’ajustement des percentiles.
+ Comment choisir un modèle de régression et comment tester
sa validité ?
Le choix du modèle peut se faire dans un premier temps à partir du nuage
de points : un aspect linéaire orientera vers la régression linéaire,
curviligne vers la régression polynômiale.
Si le modèle polynômial
semble le plus adapté, le choix du polynôme peut se faire en
commençant par une équation de degré élevé (4 au maximum, les
courbes de croissance n’ayant pas plus de trois points d’inflexion) et en
réduisant systématiquement le degré du polynôme.
À chaque étape, il
faut tester le modèle de régression.
L’analyse des résidus permet de détecter les incompatibilités entre les
hypothèses de départ concernant la régression (variance constante,
résidus non corrélés) et les données.
Elle permet également de tester
visuellement la linéarité et l’adéquation entre le type de régression choisi
(simple ou polynômiale) et les données.
Les résidus sont reportés sur un
diagramme en fonction des valeurs ajustées ou en fonction du temps.
Si
le modèle choisi est correct et les conditions d’analyse remplies, le
nuage de points ne doit présenter aucune forme particulière, les résidus
se répartissant en une bande horizontale de largeur constante.
Un exemple peut servir à illustrer l’intérêt de l’analyse des résidus.
Le diagramme de dispersion du poids du corps en fonction de l’âge
(foetus décédés provenant de l’hôpital de Port-Royal) montre une
relation plutôt curviligne entre les deux variables.
Émettons
l’hypothèse qu’une régression polynômiale d’ordre 2 s’ajuste le mieux
à ces données.
Le coefficient R2 est égal à 0,96, le test F(2) est significatif
(p = 0,0001).
Le coefficient de régression associé à x2 est
significativement différent de 0 (p = 0,0001).
Si l’on reporte sur un diagramme les valeurs des résidus en
fonction des valeurs ajustées (valeurs calculées à partir de l’équation de
régression), on s’aperçoit que les résidus sont bien répartis
symétriquement de part et d’autre de la courbe d’ajustement (le modèle polynômial s’ajuste bien aux données) mais leur dispersion croît avec
l’âge : la variance n’est donc pas constante.
Une des conditions à la mise
en oeuvre d’un modèle de régression n’est donc pas remplie.
Si l’on avait contre toute vraisemblance ajusté un modèle de régression
linéaire, le diagramme des résidus en fonction des valeurs ajustées aurait
présenté une forme arquée caractéristique, démontrant
l’inadéquation de la modélisation linéaire.
Lorsqu’un type de modèle ne convient pas, on peut soit transformer les
variables (log x, log y, 1/x, 1/y...) pour stabiliser la variance ou linéariserla relation, soit chercher un autre type de modèle.
Dans le cas
du poids du corps foetal, nous avions choisi dans un précédent travail
la méthode des moindres carrés localement pondérés utilisant le lissage par LOWESS (locally weighted regression scatter plot smoothing).
Par
rapport aux méthodes de régression classiques, cette méthode, robuste
et peu sensible aux points aberrants, permet de mettre en évidence des
variations plus fines de la croissance, comme des changements de
rythme.
* Lissage des courbes de percentiles standards
:
Dans la littérature, la façon dont sont construites les courbes de
croissance est rarement explicitée avec clarté.
Notamment, le modèle
mathématique ayant éventuellement servi à lisser les courbes est
rarement précisé.
Dans le cas des courbes de percentiles, selon l’ajustement utilisé, on peut
obtenir des aspects très différents qui peuvent influencer l’appréciation
de la pathologie éventuelle de chaque sujet reporté sur la courbe.
Elle concerne les poids de
naissance de 12 286 enfants.
Ce
type de lissage ne convient visiblement pas.
Il entraîne une sousestimation
des RCIU, ou au moins des foetus de petit gabarit, après 36
SA, et une surestimation des RCIU de 26 à 29 SA.
Les mêmes
percentiles sont beaucoup mieux lissés par des courbes polynômiales
d’ordre 3.
Ceci montre la nécessité de ne pas effectuer l’ajustement des données au
hasard, mais de toujours vérifier visuellement que le modèle choisi
s’adapte parfaitement aux données initiales.
En résumé, l’appréciation de la qualité de l’ajustement est visuelle, mais
doit être validée par l’analyse de régression.
F - De l’évaluation statique à l’évaluation dynamique
de la croissance : les vitesses de croissance foetale
Les courbes de percentiles définissent des standards quantitatifs, c’est-à-dire qu’elles permettent une évaluation statique des dimensions
foetales à un âge donné, autrement dit l’appréciation du gabarit foetal.
L’évaluation de la croissance d’un sujet donné se fait par comparaison
des valeurs obtenues lors d’un seul examen aux valeurs de référence
définies par les standards.
Plus intéressante peut être l’évaluation dynamique de la croissance
: dans ce cas, non plus une seule, mais deux mensurations
successives sont prises en considération afin de déterminer un taux de
croissance individuel, qu’il est facile de comparer à des taux de
croissance de référence.
Dans ce deuxième cas, l’évaluation qualitative
de la croissance est évidemment bien meilleure.
Évaluer la dynamique de croissance d’un sujet revient donc à déterminer
le taux de croissance d’un paramètre biométrique au cours d’un laps de
temps donné et à comparer ce taux aux valeurs moyennes de vitesse de
croissance fournies par une courbe de vitesse de croissance de référence.
Les vitesses de croissance moyennes peuvent être obtenues par
dérivation d’une courbe moyenne ajustée sur les données brutes
(mensurations en fonction de l’âge).
Mais dans ce cas, les vitesses
obtenues vont être différentes selon le type de modèle choisi pour
l’ajustement.
C’est pourquoi nous avons préféré une autre méthode de
calcul des vitesses de croissance, appelée « méthode par intervalles
».
Elle est fondée sur l’estimation des pentes successives des droites de
régression locale.
La gestation a été divisée en intervalles égaux de 3 ou
4 semaines selon les paramètres, de façon à obtenir un effectif suffisant
par intervalle.
Sur ce court laps de temps, la croissance est telle
qu’un modèle de régression linéaire s’ajuste bien aux données.
On peut
ainsi calculer les pentes des droites de régression, c’est-à-dire les
« vitesses » de croissance dans chaque intervalle.
Ces pentes sont
calculées avec un intervalle de confiance fixé conventionnellement à
95 %.
À titre d’exemple, les droites de régression du
poids du corps par rapport à l’âge gestationnel sont représentées, dans
trois intervalles : 18-22, 23-27, 28-32 SA.
La pente de chaque droite
fournit la « vitesse » moyenne dans chacun des intervalles
(successivement : 73, 106, 146 g par semaine). Par convention, ces
valeurs de vitesse de croissance sont reportées au centre des intervalles
(20, 25, 30 SA).
L’ensemble des valeurs des pentes, reportées sur un
même graphique en fonction de l’âge, constitue la « courbe de vitesse de
croissance » de la variable étudiée.
S’agissant de données transversales,
cette courbe correspond en fait à la dérivée de la courbe de croissance
moyenne de la population étudiée, et non à la moyenne des courbes de
vitesse de croissance individuelles, comme dans le cas des données
longitudinales.