L'analyse des correspondances

Page 4 sur 8 | Table des matières | Précédent | Suivant

.

4. Fonctionnement de l'analyse II

A.

Dimensionnalité du problème

.

Nous observons un nuage qui represente un tableaux de chiffres rectangulaire dont la somme en ligne (ou en colonne) est de 1 (pourcentages!). Ce nuage de points est donc contenu dans une espace de dimension card(I)-1 ou card(J)-1, celui des deux qui est le plus petit. Pour la suite de l'expose nous considererons que I<J et donc que le probleme est de dimension card(I)-1. Dans notre exemple, la table fait 8x12 et est donc contenue apres sa transformation en pourcent dans un espace à 7 dimensions.

.

B.

Principe géométrique

.

Fondamentalement, l'idee de l'analyse factorielle et ici de l'analyse des correspondances, est que le nuage de points que l'on veut decrire ne s'etend pas dans toutes les directions egalement, mais qu'au contraire qu'il est deforme (car il y des affinites entre lignes et colonnes). On va donc definir un nouveau systeme de repere orthogonal plus "economique".

Plus précisement il s'agit de trouver pour un nuage de points N(I) (chaque point est determine par ses card(J) coordonees sur J, ou son profil sur J) la representation qui, dans une dimension aussi petite que possible soit aussi fidele que possible. Si nous voulons obtenir un graphique sur papier le probleme peut se formuler ainsi: determiner le sous espace L de dimension 2 passant par le centre de gravite du nuage (soit son profil moyen) qui maximise l'inertie de N(I) parallelement à L. Mais les programmes ne se contentent pas de deux dimension et nous donnent les card(I)-1 dimensions du problemes. Il nous faut pour cela etre plus general.

.

C.

Axes factoriels

.

Si l'on dénote par Lambda une ligne quelconque passant par le centre de gravite du nuage N(I), on peut decomposer l'inertie totale du nuage comme la somme de l'inertie parrallele (ou projetee sur) à Lambda et de l'inertie perpendiculaire à Lambda. Le premier axe factoriel est la ligne Lambda pour laquelle l'inertie parrallèle à Lambda est maximum. Le second axe factoriel sera, parmi toutes les droites orthogonales à Lambda celle pour laquelle la dispersion projetee (inertie) du nuage complément orthogonal à Lambda est maximale. ("ce qui reste"). En continuant de la sorte axe apres axe, nous pouvons extraire card(I)-1 axes factoriels qui constitueront un nouveau repere d'axes orthogonaux dans lequel le nuage sera entièrement décrit. Ces axes s'appellent dans la langue de Spearman principal axis of inertia..

.

Nous cherchons pour le nuage N(I) une représentation aussi bonne que possible dans un espace de moindre dimension. Nous projetons le nuage N(I) sur un sous-espace linéaire L (ligne, plan, etc...) passant par son centre de gravité. C'est la projection sur L qui constituera la représentation approximative que nous recherchons. Sur l'illustration on a représenté la projection d'un nuage applati et allongé dans la direction de l'axe D. Le deuxième axe lui est perpendiculaire. Après tout, l'analyse factorielle n'est qu'un changement d'axe !

.

A chaque axe est associee une valeur propre (ou eigenvalue) dont la somme vaut l'inertie du nuage (on l'appelle aussi trace d'une matrice detaillee dans l'appendice). Chaque valeur propre vaut au maximum 1. On voit immediatement que si N(I) n'avait qu'un point, il n'y aurait pas d'axes, si N(I) avait deux points, un seul axe; avec trois points nous aurions au plus deux axes perpendiculaires et pour n points au maximum card(J)-1 axes.

.

D.

Symétrie des deux analyses

.

Nous n'avons parle jusqu'alors que de l'analyse d'un des côtes du tableau, les lignes, ou les colonnes sans preciser. Soit on projette les points-lignes dans l'espace des communes à 11 dimensions, soit on projette les points-colonnes dans l'espace des formations à 7 dimensions. Nous obtiendrons donc deux representation de deux nuages. Mais ces representations sont-elles differentes?En fait, les deux analyses sont symetriques, et de trois manieres :

.

(1) Comme on l'a dejà montre, les deux nuages N(I) et N(J) ont la meme dimensionnalite (le rang de la matrice, soit ici 7) et sont donc totalement descriptibles par un systeme de 7 axes orthogonaux.

.

(2) On peut demontrer que quand on cherche ce nouveau systeme d'axes pour les colonnes, on trouve les memes valeurs propres pour les deux nuages

 

(3) Les points colonnes projetes dans l'analyse des points-lignes apparaissent dans le meme ordre mais à une echelle moindre dans l'analyse des points-colonnes. Le coefficient de proportionnalite est egal à la racine carree de l'inertie de la table.

.

Les statisticiens ont donc decides de confondre les deux systemes d'axes factoriels issus des deux analyses et de representer les points sur le meme graphe. L'algorithme represente les points (voir plus bas comment) dans l'espace engendre par les k premiers axes factoriels. La distance entre les points sera, representee dans l'espace Euclidien de la feuille, une distance de Khi 2 au profil moyen ou centroïde.

En plus des graphiques, les logiciels nous fournisse de quoi repondre aux questions du scientifique telles que : Quelle part de l'inertie totale les k premiers axes decrivent-ils? Quelle part de la variation d'un point donne est rendue par tel graphique? Quels sont les contribution des points à la construction du systeme d'axe?

.

Page suivante : Interprétation du listing


L'analyse des correspondances
La homepage de François Micheloud