Actualités Médicales

Généralités sur l’épistémologie des méthodes de recherche en psychiatrie

Par

5 avril 2016

4353

Référence épistémologique :

ÉPISTÉMOLOGIE ET MÉTHODOLOGIE :

Dans un premier sens l’épistémologie désigne la théorie de la connaissance ou de la science et, selon l’accent mis sur l’une ou l’autre de ces notions, le propos s’oriente vers une épistémologie kantienne, voire phénoménologique, et leurs thèmes apparentés des conditions de possibilité et de la constitution ou bien, à l’inverse, vers une épistémologie positiviste attentive aux critères de démarcation d’une science à l’égard des modes de connaissance non

Généralités sur l’épistémologie des méthodes de recherche en psychiatrie

scientifiques qui la précèdent ou l’entourent. En un sens plus restreint, l’épistémologie se réduit à la revue et l’analyse des méthodes et des techniques propres à une science. C’est essentiellement le second de ces sens que le titre de cet article nous incite à retenir ici, même s’il est fortement dépendant du premier, comme suffirait à le montrer l’examen de ce qui relie l’introduction systématique de la pensée méthodique et de la mesure ou même la causalité physicochimique à l’épistémologie cartésienne, la médecine expérimentale à l’épistémologie bernardienne, les divers modes de l’inférence statistique à l’épistémologie probabiliste et l’utilisation de procédures de validation à l’épistémologie analytique issue du cercle de Vienne.

ACTIVITÉ DE RECHERCHE :

L’épithète de « scientifique » dont on qualifie habituellement la « recherche » nous conduit également à mettre l’accent sur les droits éventuels de la connaissance psychiatrique à se présenter comme science, d’autant qu’à en croire Peirce, à travers du moins la lecture qu’en propose, dans un projet d’épistémologie critique, Habermas, c’est le processus de recherche dans son ensemble qui assure le caractère véritablement scientifique d’un type de connaissance.

Reconnaissant en effet dans le progrès scientifique la forme exemplaire d’un progrès cognitif intersubjectivement assuré, Peirce semble en conclure que l’« institutionnalisation du processus de recherche a une fois pour toutes défini le chemin que nous devons suivre pour parvenir à des conceptions que nous ne pouvons appeler connaissances que parce qu’elles obtiennent spontanément et de façon permanente une reconnaissance intersubjective ».

On pourrait voir ici la préforme des critères d’explicitation, publicité et réfutabilité exigibles des énoncés scientifiques dans les théories modernes de la science. Le processus de recherche qui doit y conduire « commence lorsque les conceptions en vigueur deviennent problématiques » ; ce processus « met en place une stratégie sûre permettant de parvenir à des conceptions non problématiques, en d’autres termes d’éliminer des doutes naissants au profit de nouvelles certitudes…

À la place du doute universel, c’est le doute virtuellement général qui intervient : nul fait et nul principe n’en est non plus excepté ». C’est à la forme organisée de la recherche scientifique que revient le mérite de conférer à cette stratégie son caractère de sûreté, sa voie méthodique. Elle n’est, toujours selon cette interprétation de la pensée de Peirce, que l’aspect « collectif et orienté » d’un « processus d’apprentissage cumulatif autoréglé de l’espèce humaine ». Ce dernier conduit à un savoir d’accumulation par essais-erreurs qui est le fruit de l’expérience vécue. Un tel processus permet à l’homme d’accroître ses connaissances au contact de l’expérience, ce que l’épistémologie génétique exprime avec Piaget en voyant dans le « comportement cognitif », « l’une des adaptations essentielles de l’organisme » allant « du savoir-faire propre à l’instinct jusqu’à la connaissance humaine et scientifique ».

PSYCHIATRIE : UNE DOUBLE ORIENTATION FONDAMENTALE

Une tradition qui remonte à Jaspers et alimente en particulier l’opposition entre recherche phénoménologique et recherche empirique distingue, en psychiatrie, les sciences d’essences des sciences des faits. À la saisie intuitive des phénomènes et de leurs enchaînements eidétiques dans les premières, s’opposent dans les secondes l’opérationnalisation de leurs définitions et de leurs relations empiriques. Les unes favorisent la compréhension des concepts aux dépens de leur extension, tandis que les autres sacrifient leur dimension intensive à une démarche explicative. Plus que d’une opposition théorique, il s’agit là d’une dualité d’objectifs, différemment privilégiés dans l’histoire de la psychiatrie et prenant appui sur des méthodes de recherche spécifiques. Ainsi, l’observation du cas unique joue un rôle décisif en phénoménologie tandis que la multiplication des observations gouverne la recherche à visée explicative.

Le paradigme actuel de la psychiatrie, favorisé par le développement technique et le pragmatisme anglo-saxon, met l’accent sur la recherche de type empirique au risque d’un réductionnisme formalisant et d’une stérilisation de l’innovation. L’enrichissement mutuel des deux démarches paraît souhaitable pour éviter que non seulement les sciences empiriques ne s’enferment dans un opérationnalisme aveugle mais aussi pour que les sciences eidétiques ne soient confinées dans l’altitude de leur tour d’ivoire. Des exemples récents montrent que les neurosciences et la psychologie du développement peuvent s’alimenter dans la recherche phénoménologique et réciproquement.

PRINCIPES DE LA RECHERCHE EMPIRIQUE :

Selon Habermas, la recherche empirique repose sur le principe qui consiste à établir « une relation entre au moins deux grandeurs empiriques au moyen d’une succession contrôlée d’événements.

Cette relation satisfait à deux conditions : elle peut être exprimée grammaticalement sous la forme d’une prévision conditionnelle qui peut être déduite d’une hypothèse nomologique générale à l’aide de conditions initiales, en même temps elle peut être représentée factuellement sous la forme d’une action instrumentale qui manipule les conditions initiales de telle façon que le succès de l’opération peut être contrôlé par l’effet obtenu ». Cette définition met l’accent sur les deux notions essentielles de « conditions initiales » et d’« opération ». Je puis expliquer un concept (comme celui de dépression) aussi bien qu’une relation (entre le stress et la dépression) par leurs conditions initiales d’existence (toutes les fois qu’il y a tel ou tel x il y a y) et l’opération qui permet de les valider (toutes les fois par exemple que l’on agit de telle ou telle façon sur x, cela a telle ou telle conséquence sur y).

Dans une telle perspective, le concept de dépression apparaît luimême comme l’ensemble des relations opératoires qui en conditionnent l’existence. La notion de relation ou d’association revêt ainsi un sens plus large que l’explication ou la causalité au sens traditionnel de ces termes. Son importance pour l’empirisme remonte à Mach pour qui « le but de la science était d’établir des connexions entre nos perceptions » et à Pearson qui lui a donné ses premières formalisations mathématiques à travers les notions de corrélation et de contingence. Les notions de « conditionnalité », « association » et « opération » jouent un rôle directeur dans la recherche empirique ou explicative.

La causalité y apparaît comme forme particulière d’association caractérisée par sa force, sa plausibilité biologique, sa consistance à travers la répétition des observations, sa spécificité, l’irréversibilité de sa liaison temporelle et sa consistance avec d’autres observations. Toute recherche empirique obéit ainsi à une exigence méthodologique de principe, qui consiste à se présenter comme validation d’une association ou d’un ensemble de relations à l’aide d’une opération ou d’un jeu réglé d’opérations.

Formulation et validation des hypothèses :

HYPOTHÈSE ET CADRE EXPÉRIMENTAL :

Tenter de valider une hypothèse est le but de toute recherche empirique. L’hypothèse se présente comme un jugement ou une proposition universelle sur la réalité qui, prenant forme de loi, mérite souvent le qualificatif de nomologique. La valider consiste à lui donner le caractère d’une opinion définitivement ou, à défaut, provisoirement valable, c’est-à-dire à la transformer en conviction non problématique. L’hypothèse permet seulement l’anticipation d’un résultat sous certaines conditions, soit une simple prévision conditionnelle. Elle est donc partie intégrante d’un processus de recherche où interviennent et se complètent diverses modalités d’inférence logique. Selon Peirce, la déduction conduit à inférer le résultat de l’hypothèse et des conditions initiales, l’induction l’hypothèse des conditions et du résultat, l’abduction les conditions de l’hypothèse et du résultat.

Ce modèle du processus de recherche et d’explication scientifiques est aussi connu sous le nom de « schéma de Hempel et Oppenheim ». L’hypothèse y apparaît comme la proposition majeure d’un syllogisme, les conditions initiales étant la mineure et le résultat la conclusion. Elle nous met en mesure de prévoir certains faits comme conséquences de causes, faits qui, confirmés par l’expérience, autoriseront la validation de l’hypothèse, infirmés obligeront à l’invention d’une hypothèse nouvelle. Les causes ou conditions initiales sont ainsi susceptibles d’être spécifiées, donc manipulées techniquement et l’obtention ou la non-obtention du résultat attendu témoigne de la mise en jeu d’une activité couronnée ou non par le succès.

« Le sens de la validité des énoncés » écrit Habermas « se mesure par rapport à la manipulation technique possible de la connexion de grandeurs empiriques » et Peirce « la fin de l’hypothèse est, du fait qu’elle est soumise à l’épreuve de l’expérimentation, de parer à toute surprise et de permettre une attente positive qui ne sera pas déçue ». C’est ainsi, semble-t-il, que les divers modes d’inférence logique sont partie intégrante de l’activité instrumentale qui assure leurs conditions de validité, via l’épreuve expérimentale. Les convictions non problématiques que sont les hypothèses validées fonctionnent, d’après Habermas, dans le domaine expérimental comme les règles d’action et de comportement dans le domaine de l’activité préscientifique. Elles restent telles « aussi longtemps que les modes de comportement qu’elles régissent n’échouent pas devant la réalité ».

CARACTÈRE OPÉRATIONNEL D’UNE HYPOTHÈSE :

Si l’activité expérimentale est la forme réflexive de l’activité instrumentale et si l’hypothèse détermine le plan de recherche, on comprend facilement que sa validité dépende avant tout de sa précision, de sa clarté, de sa simplicité et de son absence d’ambiguïté. Ces critères d’évidence et de rigueur assurent classiquement la validité des énoncés formels et leur vaut d’ailleurs le qualificatif d’opérationnels. Selon Gordon et al, une définition opérationnelle « fournit un énoncé sur la signification précise d’un concept quand il est exprimé en termes d’opération ou de procédure ». Ainsi, la définition de l’anxiété ou de la dépression dans le DSM IV (Diagnostic and statistical manual of mental disorders, fourth edition) est une définition opérationnelle car elle donne aux chercheurs des indications sur les moyens ou la procédure qui permettent de tester sa valeur d’hypothèse. Il en est de même d’une échelle qui permet de donner une évaluation quantitative d’un concept. Présentée sous forme opérationnelle, objective ou quantifiable, l’hypothèse sera susceptible d’être soumise à validation expérimentale aussi bien de la part du chercheur qui l’a proposée que d’autres.

Il va de soi que, pour ce faire, elle doit donc avoir un caractère limité, ne pas embrasser un domaine trop large ou trop complexe. Selon Bochenski, l’hypothèse possède une extension bien moindre que la théorie, elle se situe entre celle-ci et les énoncés protocolaires que ses prévisions conditionnelles autorisent. Un théorie donne naissance à plusieurs hypothèses qui elles-mêmes engendrent différents énoncés protocolaires. Ainsi, la théorie monoaminergique des maladies mentales est à l’origine des hypothèses noradrénergique, sérotoninergique et dopaminergique, alors que l’hypothèse noradrénergique conduit à des prévisions conditionnelles portant alternativement sur les acides aminés précurseurs ou les catabolites.

L’hypothèse selon laquelle il existe une hyperactivité noradrénergique dans la manie donnera lieu par exemple à l’énoncé prévisionnel d’une association entre diagnostic de manie et élévation d’un catabolite plasmatique tel que le MHPG (3-méthoxy-4-hydroxyphénylglycol), principal catabolite de la noradrénaline cérébrale chez l’homme. En utilisant les critères DSM IV et les entretiens structurés qui y conduisent pour poser le diagnostic de manie et en précisant ce que j’entends par hyperactivité noradrénergique, je rends l’hypothèse opérationnelle en expliquant les processus qui me permettent d’en tester la validité.

HYPOTHÈSE NULLE ET HYPOTHÈSE ALTERNATIVE :

L’un des procédés le plus classiquement utilisés consiste à partir de l’hypothèse nulle (H0) selon laquelle les sujets maniaques ne se distinguent pas d’une population de comparaison pour démontrer l’hypothèse alternative (H1) qui m’intéresse. Il s’agit là d’un principe de base de l’inférence statistique qui tente d’apprécier, en le quantifiant sur la base du calcul des probabilités, le degré de vraisemblance de l’hypothèse. En fonction de la plus ou moins grande représentativité de l’échantillon de départ, je peux, aux termes de l’expérience, soit choisir raisonnablement l’une des deux hypothèses, soit me contenter d’évaluer la seule plausibilité de l’hypothèse nulle. Dans les deux cas, ma décision prend appui sur le calcul de la probabilité qui va quantifier le désaccord observé entre l’expérience réalisée et l’hypothèse nulle.

Les contraintes qui pèsent sur l’hypothèse alternative influencent également la décision du chercheur. Si l’hypothèse nulle pose l’absence de différence ou de relation entre les populations étudiées, l’hypothèse alternative doit tenir compte du caractère plausible ou non de la différence ou de la relation concernée. En effet, si je considère comme absurde d’envisager que les sujets maniaques puissent avoir des taux de MHPG inférieurs à ceux de la population comparée, je dois exclure cette proposition de l’hypothèse alternative pour ne considérer que l’éventualité d’une relation positive entre manie et MHPG. On parle alors d’hypothèse unilatérale. Dans ce cas, la probabilité d’une erreur de type I ou risque á, à savoir d’accepter H1 alors que H0 est vraie, diminue ce qui justifie l’emploi de tests appropriés (tests unilatéraux).

Le non-respect du caractère uni- ou bilatéral de l’hypothèse peut induire des significativités abusives et conduire par conséquent à des conclusions prématurées. Dans certains cas, il peut être utile de poser l’hypothèse nulle comme hypothèse d’inéquivalence et l’hypothèse alternative comme hypothèse d’équivalence. Une telle démarche s’avère particulièrement appropriée lorsque le but de la recherche est, justement, de démontrer l’équivalence de deux mesures thérapeutiques.

ORIGINE DES HYPOTHÈSES :

Si une hypothèse donnée peut subir un certain nombre de corrections dans le déroulement d’un processus de recherche en cours, il existe en fait des voies très diverses susceptibles de conduire à la génération de nouvelles hypothèses. Ce peut être l’observation, l’impression personnelle, l’expérience, la lecture, les discussions, la revue des résultats issus de recherches récentes ou la compréhension d’une théorie nouvelle. Le domaine clinique largement ouvert à l’exploration herméneutique demeure à ce niveau une source privilégiée d’inspiration précisément parce que, dégagé des contraintes formelles de l’investigation expérimentale, il porte sur un champ d’observation plus étendu. Il paraît en conséquence souhaitable que le chercheur en psychiatrie dispose de cette soupape de sécurité et donc d’un certain degré de distanciation par rapport à son engagement technique dans la recherche.

Choix du protocole et élaboration du plan de recherche :

ORGANISATION DES PROTOCOLES :

La formation et la validation des hypothèses s’opèrent à l’intérieur de protocoles fixant l’objectif, les moyens et les conditions de l’étude. Ces cadres généraux où prend place la recherche revêtent plusieurs aspects. On peut, avec Trent et Brodie et de manière classique, distinguer :

– une recherche exploratoire évitant le contrôle expérimental et centrée sur l’observation de phénomènes qui échappent encore à notre savoir ;

– une recherche préexpérimentale qui a pour tâche de décrire les caractéristiques de situations spécifiques et de déterminer la fréquence avec laquelle un phénomène s’associe à d’autres ;

– une recherche quasi expérimentale dans laquelle un contrôle expérimental complet n’est pas possible ;

– une recherche expérimentale où un contrôle expérimental, aussi exhaustif que possible, permet une inférence causale et la généralisation des résultats. La formation des hypothèses a lieu au cours des deux premiers types de recherche alors que leur validation est le fait des deux suivantes. Ces grands types de recherche sont en fait hiérarchisés non seulement parce qu’ils correspondent à une attitude différente à l’égard de l’hypothèse mais aussi du fait d’un contrôle accru des variables impliquées. Ils ont ainsi pu être systématisés en diverses phases, en particulier dans les recherches en psychopharmacologie clinique.

PSYCHOPHARMACOLOGIE CLINIQUE : UN MODÈLE

L’investigation d’une drogue psychotrope s’effectue, en effet, selon différentes étapes séquentielles qui correspondent à une connaissance de plus en plus extensive du produit. Après la phase de pharmacologie humaine fixant les limites d’utilisation de la drogue chez l’homme et, en connaissance des données de la pharmacologie animale, l’étude du produit comporte deux phases essentielles :

– la phase de screening est une phase d’exploration de la gamme des indications et de l’activité thérapeutique. Elle s’effectue sur un petit groupe de patients en s’efforçant d’inclure les pathologies les plus variées ;

– la phase des essais contrôlés lui fait suite : la valeur psychotrope de la drogue doit être démontrée sur des populations très précises de malades et en excluant le maximum de variables extérieures qui pourraient biaiser le résultat. Elle précède une phase dite « naturaliste » introduite pour identifier les effets qui auraient pu échapper à l’investigateur dans le cadre trop strict des protocoles précédents.

PLAN DE RECHERCHE :

L’objectif et le contrôle différenciés de ces protocoles impliquent par conséquent des plans de recherche spécifiques. Ceux-ci supposent une construction élaborée et structurée qui préside à la phase expérimentale envisagée, la précède et lui donne son schéma directeur.

Ce schéma déploie une stratégie d’analyse et de recueil des données propre à chaque type de recherche. Le plan de recherche doit être, en dehors de la phase exploratoire, surtout, aussi précis et détaillé que possible. La rédaction préalable d’un tel plan est nécessaire non seulement pour obtenir un soutien matériel et financier mais aussi pour comprendre et guider la recherche, notamment quand celle-ci implique la participation de plusieurs collaborateurs. Les contraintes, les exigences, les difficultés et partant la faisabilité, en apparaîtront d’autant mieux. C’est aussi très souvent dès ce stade que le statisticien devra faire valoir son point de vue sur le recueil et l’analyse des données. Les erreurs dans l’élaboration du plan de recherche peuvent conduire à l’obtention de résultats erronés. Ce plan est d’autant plus contraignant qu’on abandonne la phase exploratoire pour les phases proprement expérimentales.

Ainsi, au cours d’une recherche préexpérimentale, ce plan se limite à la description et à l’observation d’une relation entre deux ou plusieurs catégories de variables. Il implique donc qu’il existe deux ou plusieurs mesures de chacune d’au moins deux variables mesurables, que les changements d’une variable soient liés à ceux d’une autre variable, d’autres facteurs connus ou inconnus pouvant ou non être maintenus constants. Ce schéma relativement souple a pour contrepartie, comme nous l’avons signalé, que ce type de recherche sert davantage à la formulation qu’à la validation d’une hypothèse.

PSYCHIATRIE BIOLOGIQUE : UN EXEMPLE

Ainsi, l’observation d’une relation étroite entre le transport sang/cerveau et le transport plasma/globules rouges du tryptophane avait pu nous conduire à faire l’hypothèse que les transports érythrocytaires des acides aminés précurseurs pourraient servir d’indices de leur transport à travers la barrière hémoméningée et donc de leur disponibilité cérébrale et qu’il serait en conséquence possible de détecter chez des malades déprimés d’éventuelles anomalies de ces transports qui nous permettraient de prescrire un traitement antidépresseur sur une base biologique. La différence essentielle entre une telle procédure et une recherche proprement expérimentale est que l’investigateur n’impose aucun changement à la situation mais se contente de décrire et d’examiner ce qu’il observe dans une situation donnée.

Dans un plan quasi expérimental, en revanche, le chercheur manipule l’une des deux variables mesurées – la variable indépendante ou variable traitement – et observe les changements qui en résultent sur la variable dépendante. Il existe donc deux ou plusieurs valeurs de la variable traitement et une ou plusieurs variables dépendantes, deux ou plusieurs mesures de chaque variable dépendante correspondant à deux ou plusieurs valeurs de la variable indépendante. Néanmoins, le contrôle exercé sur la variable traitement est en général moindre que dans le cas d’une recherche expérimentale. Dans une étude de type quasi expérimental portant sur une population de 66 patients hospitalisés pour syndrome dépressif, nous avions effectué le choix de l’antidépresseur sur la base des résultats des transports membranaires érythrocytaires de la tyrosine et du tryptophane et observé, après 1 mois de traitement, un taux de 85 % de succès, soit un gain de 20 % par rapport aux résultats classiquement décrits sous antidépresseurs.

Étant donné qu’une amélioration spontanée des dépressifs hospitalisés aurait lieu dans 20 à 40 % des cas, l’efficacité des antidépresseurs ne serait donc en jeu que pour une moitié des sujets déprimés ; dans ces conditions, ce gain de 20 % ne prend que plus de relief, d’autant que le problème posé à la psychiatrie dans le domaine de la pharmacologie des syndromes dépressifs est précisément le 35 % des sujets qui ne répondent pas à nos prescriptions. Néanmoins, les limites de ce travail tenaient au fait qu’il ne pouvait être considéré comme totalement expérimental. En effet, un plan expérimental suppose en outre que le traitement (dans le sens large du terme) soit appliqué à un groupe expérimental de patients ou de sujets et refusé à un groupe contrôle. Tous les autres facteurs que le traitement susceptibles de jouer un rôle sont en principe maintenus constants de telle sorte que le groupe contrôle est aussi proche que possible du groupe expérimental, à l’exception du traitement appliqué par l’investigateur.

Nous avions poursuivi nos recherches sur les transports membranaires et le choix de l’antidépresseur en comparant un groupe de 100 patients traités en relation avec leurs transports de tyrosine et de tryptophane à un groupe de 30 patients traités dans les mêmes conditions mais en fonction de la seule intuition du clinicien. Dans ces deux groupes, la fréquence des patients améliorés de plus de 70 % était de 77 % dans le premier contre 47 % dans le second. Un second groupe contrôle de 38 patients traités contre les résultats de leurs transports montrait une fréquence d’amélioration de 16 %. Ces résultats apportaient un degré de plus dans la validation de l’hypothèse initiale et suggéraient que le clinicien puisse prendre en compte dans son choix intuitif certains facteurs probablement impliqués dans les transports membranaires. Les plans de recherche dont nous venons de parler sont en pratique utilisés dans un certain nombre d’études que l’on peut aussi schématiser selon certains grands types, usuels en psychiatrie.

Recherche clinique en psychiatrie : types usuels d’étude

ÉTUDES DE CAS SINGULIER :

Le but de telles études est de mettre en évidence un phénomène clinique original. Le choix du cas singulier provient de son caractère exemplaire eu égard au but recherché. Ce type d’observation fait apparaître « ce qui dans la plupart des cas est inaccessible, couvert par autre chose ou appréhendable seulement sous forme d’impressions ». La « profusion quantitative » cède ici le pas à l’« optimum qualitatif ».

Le cas singulier présente dans sa pureté ce qui est à la base d’une multiplicité de syndromes cliniques. Le témoignage et les explications du patient y jouent souvent un rôle décisif. Les structures essentielles que dévoile ce type d’approche ne relèvent pas seulement des phénomènes constitutifs de l’expérience mais peuvent aussi bien concerner un « pattern typique » de réponse à une drogue, par exemple. Certains rangent parfois dans cette rubrique l’étude d’un environnement spécifique par le biais de l’« observation participante ».

ÉTUDES DESCRIPTIVES :

Les études descriptives sont des études épidémiologiques relatives aux caractéristiques cliniques, démographiques, géographiques et historiques d’une affection. Elles ont pour but de répondre aux questions : Quels sont les sujets qui sont atteints par l’affection ? Dans quels lieux les taux de l’affection sont-ils les plus élevés ou les plus bas ? L’affection est-elle rare ou fréquente ? La prévalence change-t-elle avec le temps ?

On peut schématiquement distinguer quatre types d’études descriptives : les études écologiques, les séries de cas, les enquêtes transversales et les études de tendances séculaires. Les études écologiques concernent des agrégats d’individus tels que, par exemple, les habitants d’une aire géographique donnée. Les associations observées entre variables au niveau de tels agrégats ne traduisent pas obligatoirement une association réelle au niveau individuel, néanmoins elles peuvent être source d’hypothèses qu’il conviendra de tester à ce niveau.

Les séries de cas représentent des collections de cas individuels pouvant survenir au sein d’une période de temps limitée qui attirent l’attention sur une affection épidémique ou un trouble préalablement passé inaperçu. L’exemple le plus typique est celui des névroses post-traumatiques décrites en temps de guerre ou à l’occasion de catastrophes naturelles. Les enquêtes transversales portent sur l’étude de la prévalence d’un trouble et des facteurs d’exposition à ce trouble dans une population donnée, à l’intérieur d’un cadre temporel circonscrit. Il s’agit le plus souvent d’études en population générale effectuées sur des échantillons représentatifs. L’une des plus célèbres est l’enquête ECA (Epidemiologic Catchment Area) réalisée aux États-Unis au début des années 1980.

La représentativité de l’échantillon est assurée par des enquêtes chez l’habitant, équilibrant zones rurales et urbaines et prenant appui sur des aires de recensement définies pour prendre en compte le statut socio-économique et l’origine ethnique de la population. Les habitations sont choisies au hasard et un algorithme oriente la sélection du sujet interviewé dans chaque habitation. Les entretiens structurés permettent, à des enquêteurs préalablement formés, de recueillir une information fiable.

L’évaluation des troubles et des facteurs d’exposition en un seul point temporel limite cependant l’interprétation causale, en particulier lorsque les facteurs d’exposition sont cumulatifs ou se modifient au cours du temps. C’est le cas par exemple des événements stressants, mais cela ne concerne pas les caractéristiques démographiques qui restent stables avec le temps et précèdent généralement l’apparition de la maladie. Les études de tendances séculaires concernent la mise en évidence de fluctuations sur de longues périodes de la fréquence d’un trouble.

Ainsi, au cours des dernières décennies, plusieurs études ont observé dans différents pays une diminution des premières admissions pour schizophrénie. Il pourrait s’agir d’un artefact lié à une baisse de l’accessibilité aux soins mais aussi, à l’inverse, d’une réelle baisse de l’incidence de la maladie tenant à un changement radical dans l’exposition à un ou plusieurs facteurs de risque, tels que les infections prénatales ou les traumatismes obstétricaux. Ici encore, les études descriptives évoquent des hypothèses qui pourront être testées à l’occasion de recherches expérimentales.

ÉTUDES LONGITUDINALES :

Les études longitudinales ou études de cohorte comparent des sujets répartis en deux groupes en fonction de l’absence ou non d’exposition à un facteur de risque pour une affection donnée (ou une autre variable dépendante) et qui sont suivis dans le temps afin d’évaluer l’occurrence de l’affection (ou de la variable dépendante). Les études de cohorte peuvent être prospectives ou rétrospectives. Dans une étude prospective, l’affection n’est pas survenue au début de l’étude. Dans une étude rétrospective, à l’inverse, l’affection est déjà survenue en début d’étude, mais les groupes à risque ou non sont constitués rétrospectivement et suivis dans le temps comme si l’affection n’était pas encore apparue.

Le principal avantage des études de cohorte est de permettre l’établissement d’une relation temporelle entre un facteur de risque et l’affection. Elles permettent en outre d’apprécier l’impact des changements d’intensité du facteur de risque (un stress par exemple), sur la maladie. Un autre de leurs avantages est que l’on peut, lorsque l’exposition à un facteur de risque est rare, sélectionner les échantillons qui présentent a priori un risque élevé d’exposition. C’est le type de démarche, notamment adoptée, dans les recherches de suivi à long terme des enfants à risque nés de parents schizophrènes. Elles donnent également la possibilité de conserver des prélèvements biologiques, qui pourront éventuellement être analysés en fin d’étude pour des marqueurs de risque qui n’avaient pas encore été identifiés au moment où la recherche commençait.

Ce n’est enfin que dans les études de cohorte que l’on peut avoir une estimation directe de l’incidence de l’affection dans les deux groupes et par conséquent du risque d’apparition de la maladie après exposition. La proportion de sujets qui développent la maladie dans les deux groupes traduit en effet la probabilité réelle de la maladie dans ces groupes et le rapport de ces proportions le risque relatif (RR) en fonction de l’exposition. Les études de cohorte ont néanmoins des inconvénients. Souvent lorsque l’incidence de l’affection recherchée est faible, il est difficile de pouvoir observer l’apparition de nouveaux cas en cours d’étude. Un problème majeur est celui des « perdus de vue ». Des visites fréquentes permettent de revoir les sujets régulièrement mais peuvent être ressenties comme trop contraignantes et favoriser la sortie d’étude.

Les erreurs initiales de diagnostic constituent en outre une source non négligeable de biais. Par exemple, dans une étude comparant le taux de rechutes dépressives des sujets bipolaires et unipolaires, l’existence de sujets bipolaires classés à tort comme unipolaires risque de fausser l’évaluation. Si les erreurs de classement initial se répartissent aléatoirement dans les deux groupes, la possibilité d’identifier une différence d’évolution entre les deux groupes diminuera. Enfin, les études longitudinales doivent tenir compte des effets de l’âge (augmentation de l’incidence de la maladie d’Alzheimer, par exemple, chez les sujets les plus âgés), des effets de la période (influence de l’environnement socioculturel au moment de l’étude) et des effets de cohorte (incidence accrue du suicide chez les sujets nés après 1945 par exemple). Les études longitudinales ont bénéficié, ces dernières années, des développements réalisés dans l’analyse statistique des données de survie.

ÉTUDES CAS-TÉMOINS :

Dans ces études, les sujets porteurs d’une affection sont identifiés comme cas et comparés à des sujets non porteurs (témoins) eu égard à la notion d’exposition à un facteur de risque. Le plan de recherche diffère de celui des études longitudinales en ce que les sujets sont identifiées comme malades ou non avant d’être classés en fonction de leur exposition à un facteur de risque. À l’inverse des précédentes, il s’agit ici d’inférer la cause du trouble en identifiant d’abord son effet putatif.

Leur premier avantage est de permettre l’étude des affections de faible prévalence en commençant par le recueil des cas. Par rapport aux études longitudinales elles ont également l’avantage de la rapidité et, par conséquent, d’être moins onéreuses. Elles sont aussi plus appropriées à l’étude de nombreux facteurs d’exposition pouvant intervenir comme variables indépendantes ou interactives. En revanche, les études cas-témoins permettent difficilement l’évaluation de l’influence des facteurs de risque auxquels les sujets sont rarement exposés, à moins qu’une telle exposition ne soit à l’origine d’un nombre élevé de cas. Elles ne sont pas appropriées non plus à l’étude des affections pour lesquelles la demande de soins est faible.

Comme dans les études rétrospectives, la recherche des facteurs de risque est soumise à de nombreux aléas. Enfin, l’estimation du risque n’est ici, à la différence des études de cohorte, qu’indirecte. Elle se fait non plus au moyen du RR mais de l’odds ratio (cf infra) qui est une estimation de la vraisemblance d’avoir été exposé à un facteur de risque pour les sujets malades par rapport à la vraisemblance d’une exposition chez les sujets témoins.

Connaissance et contrôle des variables :

DÉFINITION DES VARIABLES :

La définition d’une situation expérimentale au sens large et l’élaboration d’un plan de recherche supposent une connaissance aussi complète et précise que possible des diverses variables en jeu. Cette connaissance est un préalable à toute tentative de contrôle aussi bien qu’à l’analyse des données. On définit, sous le nom de variable, un terme ou un symbole auxquels il est possible d’attribuer différentes valeurs : ces valeurs correspondent à la mesure d’un phénomène ; le qualificatif d’« aléatoire » indique que le résultat d’une telle mesure est soumis au hasard. Les variables habituellement rencontrées dans des situations de recherche peuvent être classées en trois catégories. La première est celle des variables qualitatives qu’on peut répartir en utilisant des échelles nominales.

Les lettres ou les chiffres employés ne servent qu’à identifier des catégories d’objets similaires ou différents. L’ordre de ces catégories est indifférent. Dans le DSM IV, les classes diagnostiques représentées par des chiffres sont des variables de ce type. Ces variables sont parfois dichotomiques ou binaires comme dans le cas du sexe. Les variables semi-quantitatives sont, elles, classées par des échelles ordinales. Les valeurs de la variable marquent un rang et leur ordre n’est plus arbitraire. Elles classent les objets en fonction de leur magnitude bien que les valeurs ne possèdent pas la même distance entre elles sur l’échelle. L’appréciation de la réponse aux traitements psychotropes a souvent fait appel à ce type de variables. La troisième catégorie est celle des variables quantitatives appartenant à des échelles d’intervalle ou de rapport. Les distances entre deux valeurs sont ici égales. Celles-ci ne sont pas arbitraires car chacune de ces valeurs est indépendante.

Les variables biologiques ou les doses d’un médicament en sont de bons exemples. On parle de variable quantitative « discrète » quand celle-ci ne peut prendre qu’un petit nombre de valeurs. Quand elle n’est pas discrète, une variable quantitative est dite « quantitative continue ». Les échelles de rapport se distinguent des échelles d’intervalle parce qu’on peut définir un zéro absolu, comme pour la mesure de la taille d’un individu par exemple, alors qu’on ne peut le faire dans le cas d’un test d’intelligence où un score de zéro ne signifie pas une absence d’intelligence. Quand l’information portant sur une variable est parcellaire, on parle de variable « censurée ». Cela concerne tout particulièrement les variables correspondant à des durées temporelles (durées de survie par exemple) qu’on ne peut être sûr de pouvoir mesurer en un laps de temps préalablement fixé.

L’identification et la classification des variables servent à faciliter leur contrôle. Celui-ci doit être maximal dans les situations expérimentales proprement dites dans lesquelles le plan de recherche a pour tâche de définir la manière dont les sujets sont mis en présence des différents niveaux de la ou des variables indépendantes afin qu’on puisse statuer sans ambiguïté sur l’impact de cette ou de ces variables sur la variable dépendante. La variable dépendante est la variable à expliquer, la variable indépendante, la variable explicative. Le contrôle expérimental porte avant tout sur les variables indépendantes qui peuvent être directement manipulées par l’expérimentateur, c’est le cas de la posologie d’une drogue, par exemple, ou à défaut neutralisées comme les variables d’âge, de sexe ou d’appartenance diagnostique des patients. Contrôler l’effet de ces variables extrinsèques exige donc l’anticipation de leur influence.

TECHNIQUES HABITUELLES DE COMPARAISON :

Dans les plans de recherche classiques, le contrôle des variables repose en majeure partie sur la comparaison de groupes. Certains plans ne comportent que des comparaisons intersujets et d’autres des comparaisons intrasujets. Un troisième type combine les deux. Les comparaisons intersujets dans des plans à groupes indépendants sont les plus utilisées en recherche psychiatrique. Les deux groupes doivent être au départ équivalents, c’est-à-dire se situer de la même manière sur toutes les variables censées jouer un rôle en dehors de la ou des variables indépendantes étudiées. Les facteurs peuvent être contrôlés en étant maintenus constants (les groupes ont même âge, même sexe, même statut socioéconomique, même appartenance diagnostique, etc).

La randomisation est une technique qui consiste à répartir de manière aléatoire les sujets dans chacun des groupes : cette technique repose sur l’utilisation de tables de « nombres au hasard ». Elle suppose de sélectionner un groupe de sujets ayant deux fois la taille de celle qui est souhaitée pour le groupe expérimental et d’assigner chacun d’eux au groupe expérimental ou au groupe contrôle. C’est une technique très utilisée dans les essais contrôlés en psychopharmacologie clinique. Une autre technique est celle de l’appariement. Elle consiste à former un groupe contrôle avec des sujets aussi identiques que possible deux à deux à ceux du groupe expérimental pour les variables qu’on veut neutraliser. Elle est assez souvent employée dans les recherches biologiques. Les comparaisons intrasujets offrent l’avantage que le sujet est son propre contrôle et qu’on évite ainsi le problème de l’hétérogénéité des sujets comparés. Cette technique étudie les changements intraindividuels.

Le cross-over utilisé en psychopharmacologie en est un exemple ; il consiste à donner deux substances en alternance, croisement ou permutation chez un même sujet. Il expose néanmoins à des sources d’erreur comme l’interaction entre les drogues, la modification spontanée de l’état psychopathologique des sujets, l’existence d’effets différés ou d’effets cumulatifs psychologiques. De manière plus générale les comparaisons avant-après posent le problème de la variation temporelle (vieillissement des groupes, exposition à d’autres facteurs, etc) qui doit être prise en compte dans la planification de l’expérience en constituant, par exemple, un groupe témoin suivant la même évolution temporelle mais ne recevant pas de traitement.

AUTRES TECHNIQUES DE CONTRÔLE :

Certains plans de recherche utilisent des groupes combinés. Ainsi, dans la méthode des blocs, des carrés latins ou gréco-latins, chaque sujet est utilisé comme son propre contrôle pour chacune des procédures expérimentales mais l’ordre de présentation de chaque procédure est randomisé parmi les sujets pour éviter l’effet de l’utilisation de chaque traitement en position première, seconde, etc.

La comparaison de groupes peut porter sur des groupes différents par un seul facteur, mais il existe aussi des modèles permettant d’envisager des plans à plusieurs facteurs. C’est le cas notamment des plans fishériens qui s’opposent aux plans bernardiens à une seule variable indépendante. Il devient alors possible d’étudier le rôle de chaque facteur ainsi que leurs interactions éventuelles sans que les variables extérieures au système aient à être maintenues constantes. Leur utilisation est cependant souvent très contraignante en pratique et ce d’autant plus que le plan de recherche est complexe.

La représentativité des populations étudiées peut être également contrôlée. L’échantillonnage au hasard permet une sélection représentative des sujets. Elle est souvent difficile à réaliser en pratique. Le contrôle de la taille des groupes est un autre problème important.

Si trop peu de sujets sont inclus dans une étude thérapeutique par exemple, le bénéfice potentiel d’un traitement peut être manqué. On parle alors d’erreur de type II ou risque â (accepter H0 alors que H1 est vraie). La taille de l’échantillon accroît la puissance du test, c’est-à-dire la probabilité de rejeter H0 alors qu’elle doit être rejetée (1- â). Les groupes de grande taille permettent par ailleurs des stratifications en sous-groupes dans le but d’une meilleure comparaison ultérieure.

PARTICULARITÉS DES VARIABLES PSYCHIATRIQUES :

Certains facteurs prennent une importance particulière en psychiatrie et constituent des sources de variance indéniables comme, par exemple, le milieu expérimental, la personnalité des investigateurs et des patients, l’alimentation, l’activité et l’administration de traitements psychosociaux. Le simple fait de l’hospitalisation est un facteur non négligeable et, idéalement, les sujets contrôles devraient être également hospitalisés si la recherche porte sur des patients hospitalisés. De même, dans les comparaisons à des volontaires sains, l’investigateur doit s’assurer que ceux-ci le sont effectivement en éliminant toute pathologie psychiatrique latente ou potentielle. Des instruments d’évaluation standardisés existent à cet effet. La subjectivité de l’investigateur et son intérêt pour la recherche doivent être neutralisés. C’est le but d’une technique comme celle du double-insu dans laquelle ni le patient, ni les observateurs, ne savent quels sont les sujets du groupe expérimental et quels sont ceux du groupe contrôle. Le tripleinsu implique en outre l’évaluation des sujets par une équipe indépendante de celle qui conduit la recherche. Ces techniques sont très utilisées dans les essais contrôlés de traitements psychotropes. Les deux agents comparés doivent avoir, dans ce cas, une apparence et une présentation identiques. Il est également intéressant de disposer de drogues ayant des effets secondaires voisins pour éviter l’identification prématurée de l’une d’entre elles.

Recueil des données; Évaluation et mesure :

NUMÉRISATION DES DONNÉES :

Le recueil des données sous une forme numérique est la condition première de leur exploitation mathématique ultérieure. Il assure en même temps leur homogénéité et leur précision et concerne aussi bien l’appréciation diagnostique que la quantification d’un comportement ou d’une donnée biologique. On distingue classiquement la notion d’évaluation de celle de mesure. La première a trait à l’appréciation clinique à l’aide d’échelles ou de critères opérationnels alors que la seconde renvoie à l’utilisation de techniques paracliniques. On tend cependant à confondre les deux dans la limite où chacun de ces instruments a valeur d’épreuve ou de test devant répondre à un certain nombre de qualités qui définissent sa valeur heuristique et opérationnelle. Ces qualités de l’instrument de mesure sont exigibles de toute recherche empirique prétendant à l’objectivité. Elles peuvent elles-mêmes faire l’objet de la recherche et un nombre croissant de travaux relève de ce domaine.

QUALITÉS ET PROPRIÉTÉS DES TESTS :

Les qualités premières de ces tests sont la standardisation, c’est-à-dire le fait que le test est identique pour tous les sujets et présenté dans des conditions invariables et l’étalonnage qui permet de repérerou d’identifier le sujet testé par rapport à un groupe de référence. La validité d’un test renvoie à sa capacité à n’évaluer que ce qu’il doit évaluer. On distingue trois grandes catégories de validité : la validité de contenu (homogénéité), soit le fait que tous les items du test mesurent le même objet ; la validité concourante ou la corrélation des scores obtenus à ce test avec des mesures indépendantes du même concept ; la validité théorique, enfin, qui montre que le test mesure bien ce pourquoi il a été construit.

Au cours d’un travail expérimental, nous avions pu par exemple apprécier la validité d’une échelle originale d’évaluation de l’angoisse psychotique, la PAS (Psychotic anxiety scale), en montrant la corrélation de la plupart de ses items au score global, la corrélation de ce score et de celui obtenu aux principaux items à celui de l’évaluation de l’anxiété par le clinicien, donc sa validité de contenu et sa validité concourante. La validité théorique a été évaluée en montrant l’absence de corrélation significative entre le score total de la PAS et l’appréciation globale de l’anxiété par le clinicien chez des patients névrotiques. La fidélité fait référence à l’uniformité et à la consistance de la mesure. On distingue une fidélité intrajuges et une fidélité interjuges. Il existe différentes méthodes pour apprécier la fidélité d’un test. Dans le cas de la PAS, la fidélité intercotateurs a été évaluée à l’aide d’une méthode permettant de situer un cotateur par rapport aux autres selon deux dimensions, l’une relative à la sévérité, l’autre relative au profil de la cotation. L’appréciation de la fidélité permet de modifier l’énoncé des items pour lesquels existe une faible fidélité interjuges.

Elle nous avait notamment conduit à proposer une nouvelle version de la PAS avec un énoncé plus explicite de certains items. La pertinence définit la précision de la mesure à l’égard du but poursuivi. Ainsi, nous avions montré que des taux de MHPG plasmatique total de 25 ng/mL représentaient une valeur seuil pour séparer des patients souffrant de maladie d’Alzheimer (taux > 25 ng/mL) de patients déprimés (taux < 25 ng/mL) : la pertinence de la mesure est de 87,5 % (35 patients sur 40 peuvent être distingués sur la base de cette seule mesure). Elle correspond à la concordance observée entre la mesure utilisée comme test diagnostique et le diagnostic clinique :

Co = (vrais positifs + vrais négatifs)/(vrais positifs + faux positifs + vrais négatifs + faux négatifs).

Le recours au coefficient kappa permet d’éliminer la concordance due au seul hasard ou Ch :

kappa = (Co-Ch)/(1- Ch).

Le kappa varie entre 0 (concordance liée au seul hasard) et 1 (concordance parfaite). Dans l’étude citée il était égal à 0,75 (p < 0,001). La limite d’un tel coefficient est néanmoins de dépendre de la prévalence du trouble dans la population testée. La notion de sensibilité (SN) renvoie au pourcentage de vrais positifs soit à celui des sujets porteurs d’un trait donné chez qui le test est positif :

SN = vrais positifs/(vrais positifs + faux négatifs).

La spécificité (SP) concerne, elle, le pourcentage de vrais négatifs c’est-à-dire des sujets non porteurs d’un trait donné chez qui le test est négatif :

SP = vrais négatifs/(faux positifs + vrais négatifs).

Dans l’étude précédente, des taux de MHPG > 25 ng/mL permettaient d’identifier les patients atteints de maladie d’Alzheimer avec une sensibilité de 85 % (17 patients sur 20) et une spécificité de 90 % (18 patients sur 20). Dans le cas de faux positifs, on a tendance à attribuer à un sujet un état qu’il n’a pas, alors que dans le cas de faux négatifs on n’accorde pas à un sujet l’état qui est le sien. La valeur prédictive positive (VPP) mesure le degré de confiance qu’un clinicien peut accorder à l’observation d’un test positif pour prédire l’existence du trait donné :

VPP = vrais positifs/(vrais positifs + faux positifs). Le degré de confiance avec lequel un test négatif dénote l’absence de trait est appelé valeur prédictive négative ou VPN : VPN = vrais négatifs/(vrais négatifs + faux négatifs).

Le rapport de vraisemblance du résultat (LR pour likelihood ratio) d’un test chez des sujets porteurs d’un trait donné est le quotient de la fréquence de ce résultat chez les sujets porteurs par la fréquence de ce même résultat chez les non porteurs. Si le résultat est positif, le rapport de vraisemblance positif (L) est égal à : taux de vrais positifs/taux de faux positifs ou SN/(1 – SP) Si le résultat est négatif, le rapport de vraisemblance négatif (ì) est égal à : taux de faux négatifs/taux de vrais négatifs ou (1 – SN) /SP Le rapport de ces deux rapports est appelé odds ratio (OR ou ¾ = L / ì.

C’est un rapport de cotes ou de paris qui compare la vraisemblance d’avoir un test positif chez les sujets porteurs à la vraisemblance d’un test positif chez les sujets non porteurs. Il s’applique à toute variable binaire (par exemple l’exposition ou non à un facteur de risque peut remplacer la positivité ou la négativité du test). Deux autres problèmes méthodologiques dans l’application des tests ont trait aux notions de Jingle-Jangel fallacy et de persévération.

La Jingle fallacy définit le fait de croire que deux tests mesurent la même chose parce qu’ils ont la même dénomination et la Jangel fallacy le fait de penser que les tests mesurent des choses dissemblables parce qu’ils ont des appellations différentes. L’appréciation de la validité concourante permet en général de résoudre le premier problème alors que le second pose des questions plus délicates, comme, par exemple, celle liée au fait que des instruments d’appréciation de l’anxiété puissent évaluer la même chose que des échelles de dépression. La notion de persévération renvoie, elle, à l’observation que lors de tests répétés l’investigateur persévère dans son évaluation. Elle met l’accent sur la nécessité d’apprécier la fidélité intracotateurs avant l’utilisation clinique du test.

DÉVELOPPEMENTS EN PSYCHIATRIE :

Si les techniques d’ordre biologique, physiologique, voire neuropsychologique, se sont beaucoup développées ces dernières années dans les travaux de recherche psychiatrique, cela est encore plus vrai des instruments d’évaluation clinique qu’il s’agisse des systèmes de critères diagnostiques ou des échelles psychométriques. Si les premiers « visent à définir des entités normalisées repérables par l’ensemble des psychiatres », les secondes ont pour but l’appréciation quantitative d’un comportement psychopathologique.

Les systèmes de critères diagnostiques aussi bien que les échelles psychométriques couvrent aujourd’hui l’ensemble du champ psychiatrique. Les systèmes de critères les plus utilisés sont les critères de Feighner, les critères de recherche RDC (Research diagnostic criteria)(1) et surtout le DSM IV. Des instruments standardisés de recueil de l’information existent : ils facilitent l’usage de ces systèmes et permettent en même temps de réduire la variabilité liée à ce recueil. On a pu cependant reprocher à ce mode d’évaluation diagnostique le fait de sacrifier la validité au profit de la fidélité interjuges.

Les recherches de validation restent cependant ouvertes. Les échelles d’évaluation psychiatrique se composent d’un certain nombre de traits cliniques (ou items) dont la somme donne un score global. On distingue des échelles de cotation par observateur et des échelles d’autoévaluation. Les premières comprennent des échelles d’évaluation psychiatrique globale qui évaluent l’ensemble de la symptomatologie psychiatrique et des échelles plus spécifiques de certains vécus ou comportements psychopathologiques. Des échelles spécifiques existent également pour l’appréciation des antécédents psychiatriques ou l’évaluation des effets indésirables.

MESURE DU CHANGEMENT :

Les échelles ont aussi l’avantage de permettre l’appréciation du changement et donc de la réponse à une drogue, ce qui est le but de toute recherche psychopharmacologique.

L’appréciation de la réponse clinique à l’aide d’instruments standardisés reste cependant un sujet de controverses. On a pu proposer l’évaluation globale à l’aide d’une ou plusieurs croix ou d’échelles à plusieurs degrés. Une note seuil sur une échelle spécifique en fin de traitement a été également utilisée indépendamment du score initial. Ainsi un score inférieur ou égal à 12 sur l’échelle MADRS a pu être considéré comme indicatif d’une dépression guérie, un score de 22 était jugé comme seuil d’une dépression authentique. La différence de réponse entre un antidépresseur et un placebo étant de l’ordre de 30 % dans la dépression, un tiers ou plus de cet intervalle de 10 points pourrait représenter la différence entre la réponse à la drogue et la réponse au placebo. Par conséquent, une différence moyenne de 3,3 points a pu servir de base pour fixer une différence d’effet qui puisse avoir une significativité clinique et pas seulement statistique. La plupart du temps, néanmoins, la réponse est définie comme un pourcentage de changement par rapport à l’évaluation faite en ligne de base sur une échelle d’appréciation psychiatrique globale ou mieux sur une échelle spécifique.

Analyse des données :

TRAITEMENT STATISTIQUE :

L’analyse des données fait appel à des méthodes mathématiques d’ordre statistique dont l’utilisation est aujourd’hui facilitée par le développement de l’informatique. Selon Schwartz, la statistique est avant tout « une méthode de raisonnement permettant d’interpréter le genre de données très particulières, qu’on rencontre dans les sciences de la vie, dont le caractère essentiel est la variabilité ». Cette variabilité est liée à l’individualité biologique soit au « fait fondamental et constant que les individus d’un groupe, au moment où on les étudie sont différents ». La connaissance que donne la statistique concerne la reconnaissance de processus déterministes (susceptibles de fournir des relations « répétables ») derrière la variabilité des observations. Celle-ci peut être résumée par l’intervention du hasard ou de processus aléatoires.

L’observation d’un processus déterministe dans un groupe d’individus doit donc tenir compte de cet effet du hasard que traduit l’expression probabiliste du résultat, le p des statisticiens qui quantifie le degré de signification de l’effet observé. Comme nous l’avons déjà souligné, si le groupe étudié constitue un échantillon extrait au hasard d’une population, le degré de signification p exprimera la fréquence avec laquelle l’hypothèse nulle H0 sera rejetée lors de la répétition d’échantillonnages au hasard dans cette population. Sur 100 fois où nous formulerons l’hypothèse alternative H1, nous nous tromperons au plus cinq fois, si l’on admet 5 % comme seuil habituel de significativité dans les sciences de la vie. S’il ne s’agit pas d’un échantillon aléatoire, p indique uniquement la probabilité d’un effet dû au hasard dans ce seul échantillon. On parle de test d’hypothèse dans le premier cas, de test de significativité dans le second.

Dans ce dernier cas, et contrairement au premier, la généralisation de l’effet observé à l’ensemble de la population ne relèvera plus de l’inférence statistique mais d’une inférence purement argumentative. Cette généralisation du résultat dans le cas d’échantillons aléatoires fait appel à l’existence de modèles mathématiques portant sur des distributions théoriques de fréquences. Ces distributions permettent, entre autres, le calcul d’intervalles de confiance dont l’utilisation peut être une alternative aux tests d’hypothèse. La pierre angulaire de tels modèles est la loi de l’erreur ou loi de distribution normale. Sa formulation première qui en est aussi la plus intuitive est due à Bernoulli sous la forme de « loi des grands nombres » : dans une répétition d’épreuves, la fréquence moyenne d’apparition d’un résultat tend d’autant plus vers sa probabilité que le nombre de ces répétitions augmente.

Elle a pour corollaire que la moyenne d’un échantillon extrait au hasard d’une population quelconque est distribuée selon une loi pratiquement normale quand la taille de l’échantillon est suffisamment grande. Le problème statistique n’est donc pas posé au niveau de l’individu mais du groupe défini par une propriété moyenne dont la distribution peut être tenue pour normale et donc la loi de probabilité connue. Cette propriété moyenne peut être elle-même une moyenne dans le cas de variables quantitatives, une proportion dans le cas de variables qualitatives ou un indice de la moyenne pour des variables semi-quantitatives. Dans le premier cas, il s’agit de statistiques paramétriques, dans les deux autres de statistiques non paramétriques. Les premières imposent, à la différence des secondes, l’hypothèse d’une distribution normale sur la ou les variables étudiées. Il existe ainsi un certain nombre de contraintes susceptibles de peser sur la taille des échantillons mais aussi sur leur forme et leur dispersion. Théoriquement les tests paramétriques sont toujours des tests d’hypothèses alors que les tests non paramétriques peuvent être utilisés comme tests de significativité et tests d’hypothèse. C’est dans ce dernier cas qu’intervient la contrainte d’égalité de forme et de distribution des échantillons aléatoires comparés. La contrainte de taille (n > 30) concerne les échantillons aléatoires en cas de tests paramétriques ; elle garantit généralement la normalité des variables étudiées.

TECHNIQUES EXPLICATIVES :

Les tests classiques permettent la comparaison de deux ou plusieurs moyennes (tests paramétriques) ou bien d’indices de valeurs moyennes ou de pourcentages (tests non paramétriques). La liaison entre deux ou plusieurs variables peut être également estimée par certains de ces tests. Des tests non paramétriques donnent aussi la possibilité de comparer deux ou plusieurs répartitions entre elles. Cela vaut particulièrement pour la comparaison de données de survie dans le cas de variables censurées.

Dans le cas où l’hypothèse de normalité pour la variable étudiée ne peut être formulée, on peut, lorsqu’on a affaire à des variables quantitatives, les transformer en variables semi-quantitatives et donc leur appliquer des tests non paramétriques. Néanmoins la plupart des variables étudiées en psychiatrie suivent une distribution voisine de la normale car chacune de ces variables peut être considérée, pour un individu donné, comme la résultante « d’une multitude de facteurs ajoutant indépendamment leurs effets, elle a donc la signification d’une somme ou, ce qui revient au même, d’une moyenne, vis-à-vis de ces facteurs élémentaires, sa loi de probabilité est alors celle d’une moyenne proche de la loi normale ». C’est la raison qui permet de supposer la normalité des variables quand les effectifs étudiés sont importants. Ces tests supposent pour la majorité d’entre eux qu’une distinction préalable entre variables dépendantes et indépendantes ait été opérée et visent à répondre à des questions à énoncé précis, soit la validation ou non d’une proposition de relation entre variables définies. Autrement dit, ce type de statistiques est parfaitement à l’aise dans une démarche expérimentale ou dans des plans quasi expérimentaux. On parle à leur propos de techniques explicatives.

TECHNIQUES DESCRIPTIVES :

Les procédés que nous venons de développer s’opposent à un autre type de démarche aux techniques purement descriptives. Celui-ci utilise simultanément un grand nombre de variables et ne fait pas de distinction entre elles. Les analyses multivariées donnent la possibilité de dégager à partir de données originelles une organisation en un système intelligible. Ce système repose sur une représentation barycentrique où chaque élément est individuellement responsable de la construction de tout. Cela nous permet de penser chaque élément comme ayant structuralement des qualités de ressemblance mais également de dissemblance par rapport aux autres éléments. C’est cette addition similarité et dissimilarité qui justifie la place de chacun.

Ce type de statistique paraît plus à même d’être appliqué à des problèmes complexes, si la complexité, à la suite d’Atlan définit l’absence de compréhension que nous avons d’un système que nous savons cependant reconnaître. « Nos catégories habituelles de représentation sensorielle et de bon sens ne sont pas adaptées à l’extrême complexité des systèmes biologiques. » Nous savons que la complexité provient d’une part du grand nombre d’informations qui nous parviennent, certaines étant pertinentes, d’autres sources de bruit. Cette complexité provient d’autre part de la difficulté que nous avons à définir de manière opératoire des objets précis.

Les analyses multivariées permettent de regrouper et de hiérarchiser les variables pertinentes et donc une simplification de l’information (analyse factorielle, analyse en composantes principales), de classer des individus (analyse en cluster) ou de différencier des groupes préformés à partir de la meilleure combinaison des variables que l’on a choisi d’introduire (analyse discriminante). En entrant dans l’étude des rapports systématiques des données et de leur liaison, ce type d’analyse interroge les faits, les commente, les sépare pour en tirer quelque chose de nouveau. Il possède donc une valeur exploratoire certaine et peut aboutir à la modulation des hypothèses initiales, voire à la formation de nouvelles hypothèses.

EXEMPLE D’APPLICATION DE L’ANALYSE DISCRIMINANTE :

Appliquées au domaine de la dépression, par exemple, les analyses mutivariées ont pu accréditer l’hypothèse de l’homogénéité du groupe des dépressions endogènes par rapport à l’hétérogénéité des dépressions névrotico-réactionnelles. Dans une étude, portant sur 97 patients atteints de troubles de l’humeur et 33 témoins, effectuée avant et après guérison et utilisant une analyse discriminante pas à pas sur les taux endogènes et les transports membranaires des acides aminés précurseurs, nous avions montré que les témoins et les troubles bipolaires semblaient constituer deux classes relativement homogènes avec un facteur discriminant prépondérant : le transport de la tyrosine. Les dépressions majeures récurrentes se distinguent par un classement moins satisfaisant obtenu par le transport du tryptophane et de la tyrosine. Les troubles dysthymiques se présentent comme un groupe peu homogène, l’affectation de ces patients s’effectuant préférentiellement vers les témoins et les dépressions majeures récurrentes, contribuant ainsi à la très grande majorité des faux positifs de ces deux groupes. La même répartition est obtenue après guérison sous traitement.

Cependant les variables biologiques les plus informatives ne sont plus dans ce cas les transports membranaires mais les paramètres du tryptophane. Ce travail permet de faire l’hypothèse de l’homogénéité du groupe des bipolaires, de l’importance qu’y joue le transport de la tyrosine et du rôle du système sérotoninergique dans l’obtention d’une guérison sous antidépresseurs. Les hypothèses suggérées par ce type d’analyse ouvrent le champ à des investigations, nous semble-t-il, dignes d’intérêt.

Interprétation des résultats :

PROBLÈME DES BIAIS :

L’un des problèmes majeurs dans l’interprétation des résultats d’une recherche tient à la reconnaissance des biais susceptibles d’en grever la portée. Les sources de biais sont multiples. Nous en avons déjà évoqué un certain nombre. Parfois ces sources confluent pour produire des effets qui peuvent surprendre. C’est notamment le cas de méta-analyses qui ont pu récemment montrer une supériorité de l’homéopathie sur le placebo. Nous ne ferons que mentionner les biais de publication qui favorisent la seule publication des résultats positifs. Nous développerons surtout les biais intervenant dans l’organisation d’une expérience, dans son analyse et dans la lecture qui en est faite.

BIAIS D’ORGANISATION :

Un premier problème, déjà évoqué, tient à la stricte comparabilité des groupes à l’étude. Citons un exemple. Dans une étude sur le MHPG plasmatique total dans la dépression, nous trouvions, chez les déprimés, un abaissement des taux par rapport aux témoins, ce qui pouvait donner lieu à de multiples interprétations sur le rôle du système noradrénergique dans la dépression. Cependant, quand on tient compte de la symptomatologie dépressive, on constate qu’un certain nombre de symptômes sont individuellement corrélés aux taux de MHPG. La symptomatologie constitue donc une source de

variation et l’interprétation causale évoquée devrait s’appuyer sur des groupes symptomatiquement identiques, ce qui est difficilement réalisable en pratique. Ce type de réflexion vaut encore plus dans le domaine des essais thérapeutiques où, en toute rigueur, les patients devraient être homogénéisés au niveau des facteurs pronostiques. Les classifications habituelles ne remplissent donc que très imparfaitement leur rôle, il faut en outre souligner que leur utilisation n’est souvent que partielle comme le montre le fait de n’homogénéiser les patients qu’en fonction de l’axe I du DSM IV, négligeant ainsi toutes les différences possibles au niveau des autres axes.

Une autre difficulté tient à l’exclusion de tout facteur systématique dans la sélection des patients, le tirage au sort étant souvent impossible à réaliser. Dans l’étude citée (cf supra), on montre que les taux de MHPG augmentent avec l’âge chez les témoins mais pas chez les dépressifs ; la diminution constatée dans l’échantillon étudié, où patients et témoins ont pourtant été appariés selon l’âge, tient donc en partie à la proportion élevée de sujets âgés de plus de 60 ans qu’on rencontre. Citons aussi à ce niveau le problème que constitue le facteur temps puisqu’on sait notamment qu’un certain nombre de paramètres biologiques étudiés en psychiatrie subissent des variations saisonnières.

Une nouvelle source de biais dans la sélection des patients a été introduite avec la nécessité du consentement éclairé, les patients acceptant de participer à une étude ayant pu être jugés moins gravement atteints que ceux qui refusent. Il est donc théoriquement utile de documenter le profil de ces patients pour repérer une éventuelle différence avec les sujets inclus. Quand les biais de sélection ont été identifiés, il est possible, après-coup, de pondérer les résultats à l’aide de méthodes appropriées.

BIAIS D’ANALYSE :

Nous avons déjà évoqué les conditions auxquelles est soumise l’application des diverses techniques statistiques. Il apparaît que certaines d’entre elles ne sont souvent pas respectées, cela est particulièrement vrai pour la contrainte d’échantillonnage aléatoire qui pèse sur l’utilisation des tests paramétriques. Les corrélations qui quantifient la force d’une liaison sont des techniques très sensibles aux valeurs extrêmes. Une seule valeur extrême peut parfois transformer une corrélation non significative en liaison significative. La variabilité des données entre également en ligne de compte, l’existence d’une corrélation ne pouvant pas être observée si l’éventail de variation des données est trop limité. Il en va de même de la taille des échantillons qui peut conduire à des liaisons statistiquement significatives mais dénuées de signification pratique. Le mélange d’échantillons de populations différentes peut également conduire à l’existence d’une corrélation significative du fait de scores moyens différents pour les deux variables étudiées dans chacun des deux échantillons. L’existence de tels biais dans les techniques de corrélation a pu conduire à utiliser le terme de « liaisons dangereuses » à leur propos.

Un autre biais statistique classique tient à la multiplication des comparaisons. Dans ce cas, la probabilité d’obtenir au moins une différence par le seul effet du hasard augmente. Le problème des comparaisons multiples se pose essentiellement dans deux circonstances : lorsque plusieurs groupes sont comparés sur la même variable dépendante ou lorsque l’investigateur utilise de nombreuses variables dépendantes. Pour chaque situation, il existe cependant des solutions statistiques relativement appropriées.

Le recours aux méthodes multivariées n’est pas, lui non plus, sans poser problème. Cela tient à plusieurs raisons, mais avant tout au fait qu’il s’agit de techniques mathématiques puissantes risquant donc de produire des groupements au hasard et que la représentation graphique habituellement choisie par projection plane d’une image de points peut rapprocher des éléments qui sont en réalité très éloignés l’un de l’autre.

L’utilisation des techniques statistiques implique, par conséquent, un aller et retour données-résultats qui soit constant, en sachant que ces résultats dépendent avant tout du choix des variables que l’on a décidé d’étudier et que « ce choix ne peut se faire qu’en fonction d’une connaissance préalable non formalisée du domaine considéré ».

BIAIS DE LECTURE :

Il s’agit essentiellement ici de la signification clinique et de la portée pratique des résultats. Une confusion dans la hiérarchie logique des niveaux explicatifs peut ainsi conduire à des conclusions prématurées. Un exemple caricatural est celui d’imputer la mort à la médecine devant l’existence d’une corrélation significative entre le fait de recevoir la visite d’un médecin et celui de mourir dans les jours suivants, la corrélation tenant en fait à l’existence d’une troisième variable, cause commune des deux premières, la maladie. La corrélation est une technique préexpérimentale et ne doit par conséquent pas conduire à une explication causale qui ne pourra être envisagée qu’à un niveau proprement expérimental avec un plan et des techniques d’analyse adéquats.

Nous évoquions, dans le préambule, ce en quoi la causalité diffère de l’association. Un auteur tel qu’Edlund a évoqué la complexité du problème en psychiatrie. En effet, plusieurs variables causales peuvent ici être à l’origine de la cause et de l’effet étudiés, des variables intermédiaires sont susceptibles d’intervenir entre la cause et l’effet avec des propriétés de synergie et d’antagonisme, des variables peuvent agir comme composantes d’autres variables causales, enfin des variables isolées peuvent être la cause de multiples effets dont l’ordre séquentiel d’apparition évoque, à tort, une connexion causale. Étant donné la grande variété des causes qui peuvent être évoquées en psychiatrie (génétiques, biologiques, environnementales, intrapsychiques) et leur caractère vraisemblablement interactif, on perçoit à travers elles les limites des plans expérimentaux classiques. En effet, en neutralisant l’impact d’un certain nombre de facteurs, on risque de créer une situation artificielle telle que les conclusions de la recherche ne valent que dans le contexte expérimental et pas dans le milieu naturel. Cela tient entre autres à la suppression d’interactions dont la sommation peut aboutir à l’apparition d’un effet causal dans le milieu naturel uniquement.

La question qui se pose ici est celle de la généralisation des résultats expérimentaux. Nous venons d’énumérer les nombreuses sources de biais qui entravent ce type d’inférence. Il faut y ajouter le réductionnisme épistémologique inhérent à la démarche même de recherche empirique. Celle-ci n’est en effet, comme nous l’évoquions, que l’une des deux sources de droit de notre connaissance. Il y a peut-être quelque imprudence à vouloir fonder la pratique médicale sur les seuls niveaux de preuve des sciences explicatives, comme le revendique le mouvement actuel de l’ Evidence – Based Medicine qui, victime en quelque sorte de l’acception anglo-saxonne du terme (evidence = preuve) et peu soucieux de l’enseignement de Kurt Godel, néglige comme le rappelle Isabelle Stengers « ce savoir que, à propos de notre objet, d’autres évidences ont existé et existent encore, qui réintroduisent le monde entre nous et nous » et « nous empêchent d’adhérer pleinement à une évidence théorique ».

Annexe :

Herméneutique : se dit de toute méthode dont le but est de comprendre ce qui est donné, soit d’en saisir, au-delà de sa valeur de « fait », la nature intime ou mieux l’essence. Les méthodes herméneutiques sont d’inspiration phénoménologique et s’opposent classiquement aux méthodes logico-expérimentales, empiricoformelles ou analytico-conditionnelles fondées sur un système d’hypothèses vérifiables par l’expérimentation et visant à l’explication des « faits ». La question de savoir si l’expression de « science herméneutique » est licite reste ouverte.

Heuristique : se dit de ce qui sert à la découverte. Inférence : terme employé pour caractériser l’acceptation d’un énoncé en vertu de sa liaison avec d’autres énoncés déjà tenus pour vrais. Opération : terme possédant une double signification, stratégique (« ensemble d’actions coordonnées en vue d’une fin ») et logique (« jeu réglé de transformations régies par des schémas formels »). Le qualificatif d’opérationnel fait référence à la première, celui d’opératoire à la seconde. Une des thèses majeures de Habermas, aussi présente d’une certaine façon chez Piaget, est que l’opératoire dérive de l’opérationnel. Les deux termes sont néanmoins souvent confondus en pratique.

Science « normale » : expression qui selon Kuhn désigne « la recherche solidement fondée sur un ou plusieurs accomplissements scientifiques passés, accomplissements que tel groupe scientifique considère comme suffisants pour fournir le départ d’autres travaux ». Ces « accomplissements » ou « paradigmes » sont « suffisamment remarquables pour soustraire un groupe cohérent d’adeptes à d’autres formes d’activité scientifique concurrentes » en même temps qu’ils ouvrent de vastes perspectives de recherche. La science « normale » a cependant tendance à oublier les paradigmes qui lui ont donné naissance et dont son activité de recherche dépend.

Evidence-Based Medicine : mouvement d’origine anglo-saxonne et d’influence croissante dans nos milieux qui a notamment pour ambition d’apprendre aux médecins à légitimer leur décisions en fonction des niveaux de preuve des données empiriques.

Ainsi, dans le domaine thérapeutique le niveau Ia renvoie à une revue systématique des essais contrôlés randomisés, le niveau Ib à au moins un essai contrôlé randomisé, le niveau IIa à au moins une étude contrôlée sans randomisation, le niveau IIb à au moins un autre type d’étude quasi expérimentale, le niveau III à des études descriptives non expérimentales, le niveau IV enfin à l’opinion consensuelle d’experts ou à l’expérience clinique. Ce mouvement s’appuie largement sur la raison statistique, les banques informatiques de données et un vocabulaire mathématique dont nous avons précédemment donné un bref aperçu. Appliqué au domaine de la psychiatrie, il prend le nom d’Evidence-Based Mental Health. De nombreux ouvrages et articles lui sont consacrés. Des revues portent son nom.