L'analyse des correspondances

Page 2 sur 8 | Table des matières | Précédent | Suivant

.

2. Généralités sur la méthode

.
.

Cliquez pour voir une
carte de Lausanne

dans une nouvelle fenêtre

.

A.

.

Objet

.

L'analyse des correspondances est une méthode qui permet de décrire de maniere synthétique une table de contingence dans laquelle sont classés des individus homogènes suivant deux critères (ou variables catégorielles, les variables continues étant à discretiser). Par exemple j'utiliserai pour illustrer mon propos la table suivante, qui classe 169'836 individus de plus de 15 ans habitant le district de Lausanne, dont la carte est donnée ci-dessus, suivant le niveau maximum de formation qu'elles ont atteint (c'est-à-dire leur plus haut diplôme), la variable I en lignes, et leur commune de residence J en colonnes.

..

Cliquez pour voir
la table à analyser
dans une nouvelle fenêtre

..

Chaque case de la table ci-dessus represente le nombre d'individus Kij ayant reçu la formation i et habitant la commune j. On voit par exemple que 244 personnes ont declares n'avoir reçu aucune formation à Renens. Tel est le materiau brut qui va servir de p‰tee au programme d'analyse des correspondances. Le but de l'analyse va être de déterminer s'il y a entre une ligne et une colonne une attraction, une independance, ou une répulsion, et de representer ces mouvements graphiquement. Mais avant de voir comment le programme procede, il nous faut comprendre pourquoi.

.

.

B.

Un peu d'histoire de la linguistique

.

On appelle distribution d'un mot l'ensemble de ses environnements possibles

.

Note: cette partie peut être sautee lors d'une premiere lecture pour y revenir quand le le lecteur sera familier avec la notion de profil.

.

L'analyse des correspondances a été developpée par le franco-libanais Benzecri à la fin des annees 60 pour des applications linguistiques. Nous devons nous pencher un instant sur l'idee qui est à la base de cette méthode.En opposition à Noam Chomsky, qui pense qu'il est impossible à partir d'un corpus (un recueil de textes, 10'000 pages) d'une langue inconnue d'en déterminer la syntaxe et la semantique inductivement (s'elever par une méthode explicitement formulee des faits aux lois qui les regissent), des linguistes et des statisticiens travaillerent conjointement pour prouver à Chomsky qu'il avait tort.

Admettons qu'on ait dejà réussi à séparer les phonemes et les mots, et qu'on essaie de déterminer la grammaire (syntaxe) et le sens (semantique) de ces mots. On va analyser des tableaux tels que le suivant. Soit I un ensemble fini de noms (les lignes du tableau), J un ensemble fini de verbes (les colonnes du tableau) : à l'intersection de la ligne i et de la colonne j on inscrit le nombre k(i,j) de fois que dans un certain corpus le nom i a ete trouve sujet du verbe j. Si k(i,j) ­ 0, alors le verbe j est un contexte permis pour le nom i et vice et versa (c'est comme ça que les linguistes distributionnaliste disent que la phrase est grammaticalement correcte). On peut mesurer l'importance relative pour un nom i du contexte j par le quotient f(i,j)=k(i,j)/k(i) avec k(i) le total de la ligne i. La suite des nombres f(i,j) caracterisant l'affinite d'un nom donne i avec tous les verbes j sera appele profil de i. Deux noms seront synonymes s'ils ont le meme profil. En effet, deux êtres qui courent, chantent et toussent avec la meme frequence ne peuvent que se ressembler. Pratiquement, nous ne rencontrerons jamais deux profils exactement similaires, aussi se pose à nous le probleme de la representation spatiale de l'ensemble des profils.

Benzécri choisit un critère qu'il nomme principe d'équivalence distributionnelle pour déterminer la formule de la distance entre deux profils. En effet, il pose que si deux noms i et i' sont synonymes distributionnels (i.e. ils ont le meme profil) alors si on remplace les deux lignes i et i'' par une nouvelle ligne i''' somme des deux precedentes, la distance entre deux verbes j et j' ne doit pas être modifiee. Donc si fourmilier et tamanoir admettent la meme distribution, on doit pouvoir les identifier et n'inscrire plus qu'une ligne pour les deux dans notre tableau. Ce principe doublé de l'exigence mathématique de quatraticite de la formule de distance (on veut une somme de carres) suffit à fixer la distance distributionnelle : Distance distributionnelle dite de :

Que doit-on retenir de cette digression? L'essentiel, c'est l'idee qu'en analyse des correspondances, de la même maniere que le sens d'un mot appara"t par son contexte, le sens d'une reponse ou d'une caracteristique appara"tra par les associations revelees par l'analyse.

Note à l'attention des sociologues : en sociologie, telle que l'utilise Pierre Bourdieu et les auteurs ecrivant dans les Actes, cette méthode est d'inspiration structuraliste. Son origine exposee ci-dessus le laisse dejà deviner, et on verra plus bas que les objets decrits sont principalement des relations.

.

Page suivante : Fonctionnement de l'analyse

 

L'analyse des correspondances
La homepage de François Micheloud