Comment faire une analyse factorielle avec R Commander ?


Une analyse factorielle est utile pour synthétiser l'information contenue dans un grand jeu de données (avec de multiples variables). Le but est d'avoir un minimum de dimensions ou facteur (combinaison de variables) qui expliquent le maximum de la variance du jeu de données.

Il existe différentes façons de faire une analyse factorielle. Si les variables à analyser sont quantitatives alors une Analyse en Composantes Principales (ACP) peut être effectuée. Si les variables sont qualitatives, une Analyse de Correspondances Multiples (ACM) convient. Ces 2 méthodes sont similaires et se basent sur les liens entre variables (table de corrélation, table de contingences).

L’intérêt d'une analyse factorielle est d'explorer rapidement un jeu de données et de créer une base de travail pour de futurs analyses comme une classification.

Faire une ACP

Nous allons réaliser une ACP avec R-Commander et le plugin FactomineR correspondant (RcmdrPlugin.FactoMineR).

En chargeant le jeu de données "decathlon" (dans le package FactoMineR), l'ACP peut être réalisée via le menu FactoMineR > Analyse en Composantes Principales (ACP)

Une fenêtre s'ouvre alors pour configurer l'analyse.

Le jeu de données dcathlon contient les performances des athlètes lors de 2 décathlons.

La première étape est de sélectionner les variables actives, c'est à dire les variables qui seront prises en compte pour la création des dimensions.

Les variables actives s'opposent aux variables illustratives qui ne sont pas prises en compte dans les calculs mais qui peuvent servir de repères. De même, on parle de facteurs illustratifs pour les variables qualitatives qui pourront servir de repère. Et il en est de même pour les individus (lignes de données).

Ensuite, il faut préciser les résultats qu'on souhaite afficher : Graphiques, Tableaux, etc

Il est conseillé lorsqu'il y a beaucoup de variables d'afficher les résultats pour retrouver les coordonnées de chaque point sur les graphiques. Et de réduire les variables pour éviter les effets d’échelle et donner le même poids à chaque variable.

Il est possible de configurer les graphiques des variables et celui des individus.

Ci-dessous on sélectionne les résultats pour lesquels on souhaite avoir les détails.

Après avoir fini la configuration, il est possible de lancer l'ACP en cliquant sur "Appliquer".

Les graphiques et résultats sont alors générés.

Comment lire les graphiques ?

 

Le premier graphique est celui des variables (colonnes du jeu de données).

Il est fait de 2 axes (horyzontal et vertical), chacun représentant une dimension. Et chaque variable est placée en fonction de son centre de gravité (en fonction de la dimension, et donc des autres variables). Plusieurs choses sont à noter :

  • Les 2 axes sont indépendants, donc un angle droit illustre une indépendance.
  • Les 2 axes s'entrecoupent à l'origine avec d'un côté les valeurs positives et de l'autre les valeurs négatives.
  • Les variables sont placés sur le graphique en fonction de leur corrélation avec la dimension (et donc les autres variables).
  • Une variable proche de l'origine  a peu d'influence sur les axes et dimensions, alors qu'une variable éloignée de l'origine en a plus.
  • Une variable ayant une valeurs négative est en opposition avec une autre variable qui aurait une valeur positive. Un individu qui a une faible valeur pour la première variable aura donc une forte valeur pour la seconde.
  • Deux variables qui sont à proximité ont une forte corelation, c'est à dire qu'un individu qui a une grande valeur pour la première aura aussi une grande valeur pour la seconde.

 

Par exemple, dans le graphique,

On observe une indépendance entre les variables X400m et Shot.put, Discus, ce qui signifie qu'il n'y a pas de lien entre ces variables.

Et il y a également une opposition entre X100m et Long.jump, ce qui illustre le fait que si un individu a une faible valeur (temps court) au 100m, il a une grande valeur au Saut en longueur (grande distance sautée).

Et pour finir, on observe aussi avec les positions que les variables forment des groupes. Ainsi, les courses à pied sont à gauche et les sauts et lancers à droite. Et seul le saut en longueur et le saut à la perche sont en bas.

Les variables en bleu sont les variables illustratives. Elles permettent notamment de dire que l'individu qui gagne (qui a le rang 1 donc le plus petit rang) est la personne qui a le plus de points. Et ce sont les individus qui sont forts sur la dimension horyzontale qui gagnent. C'est à dire ceux qui courent vite et sont bons au saut en longueur. La dimension 1 pouvant être résumé comme la dimension de la vitesse puisqu'elle est décrite surtout avec les variables X100m, X100m.hurdle, X400m et Long.jump. Alors que la deuxième dimension correspond plutôt à celle de la force où les variables des épreuves de lancer sont en haut du graphique.

Ci-dessous le même graphique avec les individus (lignes du jeu de données).

Ainsi, on se rend compte que l'individu Warners est bon au saut en longueur et à la course car il est positionné en bas à droite. Il est proche de la position de la variable Longjump, ce qui veut dire qu'il doit avoir une grande valeur pour cette variable. Et il est à l'opposé de la variable X100m et X100m.hurdle, ce qui signifie qu'il doit avoir des petites valeurs (donc des bons chronos, plus le chrono est petit, plus la performance est meilleure). Par contre ces performances sont moins bonnes pour les autres épreuves, contrairement à Karpov, Clay et Serbrle, dont la position est proche de la variable illustrative Points.

Apres les graphiques, on peut regarder plus précisément les résultats affichés dans la console pour notamment mieux identifier certains points.

Le premier tableau est celui des valeurs propres des dimensions (eigen value). Ce tableau résume la part de variance expliquée par les dimensions. Ainsi avec les 2 premières dimensions (celles du graphique), on résume 50% de la variance du jeu de données.

Le deuxième tableau est celui des coordonnées des variables (corrélation de la variable avec chaque dimension).

Les variables qui ont une valeur absolue élevée sont celles qui sont le mieux décrites par la dimension. Ce fait est décrit par le tableau suivant qui est celui de la contribution de chaque variable pour chaque dimension.

Les mêmes tableaux sont aussi affichés pour les individus et variables illustratives. Ainsi, si le graphique est peu lisible, il est possible de retrouver facilement les coordonnées d'une variable ou d'un individu.

Et un autre tableau précise la part de signification des corrélations avec la p-value associée (test t en prenant l'hypothèse que la corrélation est de 0). Cela peut servir pour déterminer les variables qui ont une vraie influence sur la dimension (donc sur d'autres variables).

 

Pour + d'infos :

- Les analyses factorielles avec R-Commander et FactoMineR

0.00 avg. rating (0% score) - 0 votes

Laissez un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *