L'analyse des correspondances

Page 7 sur 8 | Table des matières | Précédent | Suivant

.

7. Extensions et limitations

.

A.

Les points supplémentaires

.

On peut vouloir ajouter des points dans un graphique dont on pense qu'ils pourraient nous aider à l'interprétation. Mais on ne veut pas forcément que ces points entre dans la composition des axes factoriels, ce qui modifierait notre analyse par des élements qui ne sont pas l'objet de notre travail. On peut alors ajouter des points ayant un profil (ils font partie de la table, soit en ligne soit en colonnes) mais sans masse (ils n'existent pas pour les axes). De tels points sont réputés supplémentaires. On les projette après la construction des axes factoriels dans ce nouveau repère. Leur contribution à l'inertie est donc de zero, bien que les logiciels fréquentables donnent les mêmes indications que pour les points actifs, mais ces paramêtres sont évidemment à interpréter comme etant "si mes points supplémentaires étaient actifs, alors ils auraient une CTR, COR, MAS etc... de x pourmilles".

Ces points ne sont pas une curiosite et on les rencontre tres frequemment dans la pratique. On peut citer trois règles qui peuvent pousser à déclarer un point supplémentaire:

..

(1) Un point inhéremment différent du reste, qui ne nous intéresse pas comme tel mais qui peut nous aider à interpréter

.

(2) Un outlier de petite masse dont la position excentree peut déformer le graphe suffisamment pour masquer les contrastes plus intéressants entre des points plus important (i.e. MAS plus grande)

 

(3) On peut vouloir subdiviser une catégorie (par exemple on pourrait representer le point Universite et vouloir montrer en même temps la division entre les hommes et les femmes classes sous cette mention) mais on ne voudrait pas compter les individus deux fois! On declare donc les partitions variables supplémentaires.

 

J'aurais pu aussi ajouter certains points comme les classes de revenu ou les professions (en ligne) pour aider l'interprétation du deuxieme axe. Dans l'appendice je donne une application de l'analyse des correspondances en analyse discriminante factorielle qui utilise des points supplementaires pour une application de diagnostic médical.

 

.

B.

L'analyse des correspondances multiples

.

La méthode présentée ici ne permet de traiter que deux variables catégorielles, I et J. Pourtant une méthode multivariée existe et est très largement utilisée (surtout dans le dépouillement de questionnaires, ou la description synthétique rendue possible par l'ordinateur est incontournable), bien que statistiquement elle soit moins "pure". Je n'ai pas la place pour exposer cette méthode ici, mais on peut néamoins remarquer deux choses: (1) les principes généraux d'interprétations sont les memes et (2) le pourcentage d'inertie exprime par les premiers axes est tres bas par rapport à ceux de l'analyse simple (environ 3 à 5%) mais il donne une idee tres pessimiste de la part d'inertie décrite : on peut donc l'interpréter sans retenue.

On utilise en général un procédé au nom off-putting mais assez simple qu'on appelle tableau de Burt ou codage disjonctif complet.

.

C.

Extensions et exemples

L'analyse des correspondances est souvent appliquée à l'analyse de tableaux croisés qui ne sont pas de vraies tables de contingences. En effet, on peut, en etant moins exigeant du point de vue de la rigueur mathématique, utiliser des tables dont les cases contiennent autre chose que des individus. Il suffit de respecter les critères d'homogeneité (toutes les cases sont mesurées dans la même unite) et d'exhaustivité (chaque cas est classable selon une et une seule modalité dans chacune des deux variables du tableau). Les statisticiens, ayant fait de longues études de mathématiques, grinceront des dents pour nous le rappeler quand on "abusera" de la méthode pareillement. Mais après tout, si cette derniere nous fournit une aide utile dans nos recherches, pourquoi s'en priver?

 

.

D.

Exemples

.

Par exemple les etudes suivantes ont pu etre menees à l'aide de notre méthode:

  • Un tableau donnant les depenses de 37 categories socio-professionnelles pour 126 postes de consommation
  • Un tableau dont les colonnes figuraient les 210 modalites de reponses d'un questionnaire distribue à des paysans iraniens, avec les 240 individus en lignes
  • L'étude d'un tableau indiquant pour 127 pays le vote de leur delegue à l'ONU en 1967 sur 13 scrutins importants. Les votes ont ete classes 1 pour oui, 0 pour non et 1/2 pour abstention. Le premier facteur opposait nettement un groupe centre autour des USA à un nuage très dense autour de l'URSS, et plusieurs autres facteurs interprétés commes facteur d'isolation, d'abstention, etc...
  • Un tableau donnant la valeur des importations en machines du Bresil pour 1971 ventilées suivant 128 categories de machines en lignes et 16 pays vendeurs en colonnes.
  • Un travail de typologie mene par des paléontologues sur un echantillon de 349 crânes d'equidae (cheveaux, zebres, etc...) pour tenter de les classer. Le tableau indiquanait pour chacun des 349 crânes (lignes) les resultats de 25 mesures crâniometriques
  • plus récemment, le journal The New-Yorker a demande à un linguiste d'etudier un livre anonyme sur la campagne presidentielle de William Clinton. Le journal a propose 15 auteurs possibles et a donne au chercheur un echantillon de textes pour chacun. Le tableau a analyser comportait les 15 textes plus le livre en lignes et tout les mots en colonne, chaque case donnant le nombre de fois que le mot j figurait dans le texte i. L'auteur a ete demasque.

On voit donc que toutes sortes de données se prêtent à l'analyse des correspondances, bien que son champ de predilection soit les "vraies" tables de contingences et, pour l'analyse des correspondances multiples, le depouillement de questionnaires.

Finalement, une remarque qui vaut pour la plupart des methodes statistiques multivariees exploratoires : le nombre de choix que l'analyste doit faire aux differents stades de l'analyse, et les effets de la combinaison de ces choix, produira nombre de resultats differents. Bien qu'on puisse donner des indications generales pour guider le chercheur à chaque phase, un element de subjectivite fera inevitablement partie du resultat final.

.

E.

Logiciels

.

L'analyse des correspondances se pratique exclusivement avec des ordinateurs. Plusieurs logiciels existent, tels que SPSS (classe dans data reduction), et d'autres logiciels pour sciences sociales "molles" (honni soit qui mal y pense!). A noter que SPSS ne permet pas d'afficher de points supplementaires et qui fournit des graphes petits et impossibles à aggrandir. La solution est censee etre d'exporter les scores factoriels sur un logiciel de graphique et de creer un nouveau graphique depuis là, mais personnellement je n'ai pas reussi à faire appara"tre ni les noms des points sous les points ni meme les deux series de points en couleurs differentes. J'ai du finalement me resoudre à aggrandir le graphe de SPSS à la photocopieuse et à le decalquer, ce qui est un peu desolant mais efficace rapidement.

Si certains logiciels sont plus gratifiants que SPSS, il faut néamoins toujours veiller à une chose : les deux axes doivent être représentés à la même échelle, et non pas rétrécis pour remplir un rectangle prédéterminés. On indiquera donc toujours : constant aspect ratio.

Les lecteurs interesses pourront trouver une discussion complete (quoique déjà datée) dans le Greenacre 1993. Les gens pratiquant cette methode à l'universite de Lausanne sont à ma connaissance à trouver en Lettres, en SSP (sociologie, Bourdieu oblige) et à l'IGUL

.

Page suivante : Bibliographie


L'analyse des correspondances
La homepage de François Micheloud