Fonctionnement de l'analyse I

L'analyse des correspondances

Page 3 sur 8 | Table des matières | Précédent | Suivant

3. Fonctionnement de l'analyse I

L'hypothèse d'indépendance

Pour pouvoir dire quelque chose sur nos donnees, il nous faut quelque chose par rapport à quoi situer la distribution observee des individus. Le plus simple est de se demander quelle serait le contenu des cases si les individus se repartissaient de la meme maniere dans toutes les communes, leur nombre absolu dependant de la taille de la commune. On sait par exemple que dans toute notre population on a 8.2% d'universitaires (cf infra, tables des profils) et que Pully contient 7.8% de notre population. On devrait s'attendre sous l'hypothese d'independance (ou homogeneite) à avoir 0.082x0.078x169836 individus dans la case (Uni, Pully), soit 1086. La table suivante donne pour chaque case la valeur qu'on aurait si l'hypothese d'indépendance:

Cliquez pour voir la
table sous l'hypothèse d'indépendance
dans une nouvelle fenêtre

Mais pour pouvoir juger des affinites un peu mieux nous pouvons soustraire cette matrice du premier tableau. Nous obtiendrons ainsi une table donnant les ecarts absolus. J'ai (laborieusement) calcule cette table sur Excel:

Cliquez pour voir la
table des différences entre les deux tables
dans une nouvelle fenêtre

On lit dans la case (Renens ; Université) la valeur de -799. Nous devrions donc observer 799 universitaires de plus à Renens si l'hypothese d'independance etait satisfaite. Il y a en quelque sorte un deficit d'universitaires à Renens, ou une sous-representation. On observe par contre une sur-representation des universitaires à Jouxtens de 56 individus. Mais au vu de la population de Jouxtens, c'est beaucoup. Le but de l'analyse des correspondances sera de resumer les sur- et sous-representations ainsi constatees, non pas en valeurs absolues comme nous venons de le faire, mais en valeurs relatives.

De manière plus generale, l'independance, c'est la situation que nous observerions si le nombre d'individus de la case (i,j) etait le produit du nombre d'individus de la ligne i par le nombre d'individus de la colonne j, le tout divise par le nombre d'individus de toute la table. C'est le nombre d'individus theoriques du test du Khi².

Khi² et inertie
.

Nos donnees de depart sont sous la forme d'une table dans laquelle des individus sont ventiles suivant deux criteres I et J. Nous sommes alors en droit d'appliquer la statistique dite du

pour nous faire une idee de la distance qui separe cette distribution de l'independance, si certaines hypotheses sont satisfaites. On peut ainsi calculer la somme sur toutes les cases du tableau du carre de la difference entre la valeur theorique et la valeur observee, le toute divise par la valeur theorique. Nous obtiendrons une valeur de

, qui nous permettrait de tester la significativite d'une eventuelle associtation sous certaines hypotheses.

Cette valeur de est-elle interprétable facilement? Pas vraiment. En effet, si on doublait le nombre d'individus de chaque case de la table, on augmenterait le alors que les ecarts relatifs n'auraient pas changes. En analyse des correspondances on divisera donc le par le nombre d'individus de la table pour obtenir une grandeur qui porte le nom de ou inertie. Formellement, on peut reécrire l'inertie comme etant la somme pondérée de la distance de entre chaque profil et le profil moyen. On utilise la masse, ou fréquence moyenne du profil (par exemple, 1.7% sans formation) pour pondérer.

On retiendra que plus l'inertie est grande, plus grande est l'association lignes/colonnes soit la distance de la moyenne. Elle peut varier de 0 (pas d'association) au rang de la matrice (card(I)-1, association parfaite entre de chaque ligne avec chaque colonnes. La valeur absolue de l'inertie dependra des unites de mesures des variables dans le cas ou l'analyse ne porte pas sur une vraie table de contingence.

Profils

Les points sur lesquels l'analyse des correspondances va travailler sont definis par un vecteur de coordonnees : ce sont des profils, ou pourcentages par rapport au total de la ligne ou de la colonne. Notre table peut se decomposer en profils-lignes:

Cliquez pour voir la
table des profils lignes
dans une nouvelle fenêtre

où l'on trouve en lignes les 12 coordonnees de 8 points (les formations), et de maniere equivalente, le tableau des profils colonnes :

Cliquez pour voir la
table des profils colonnes
dans une nouvelle fenêtre

qui nous donne les 8 coordonnees des 12 points-communes dans l'espace des formations.J'ai omis les labels des modalites des deux variables sur ces tableaux et les suivants, mais l'ordre est le même que pour le premier tableau (SPSS est difficile!)

Ce que l'on trouve sous margin dans les tables ci-dessus est appele aussi masse ou profil moyen des lignes et des colonnes, ou centre de gravite, c'est à dire le nombre d'individus dans toute la ligne (ou la colonne) correspondant au point divise par le total de la table, et ce pour chaque point. Ces profils sont les coordonees d'un nuage de points N(I) dans l'espace J ou de maniere equivalente un nuage N(J) dans l'espace I.On va d'abord presenter l'analyse pour le nuage N(I), puis nous montrerons que l'analyse est symetrique pour le nuage N(J).

Page suivante : Fonctionnement de l'analyse II