Comment faire une analyse factorielle avec R Commander ?

Une analyse factorielle est utile pour synthétiser l’information contenue dans un grand jeu de données (avec de multiples variables). Le but est d’avoir un minimum de dimensions ou facteur (combinaison de variables) qui expliquent le maximum de la variance du jeu de données.

Il existe différentes façons de faire une analyse factorielle. Si les variables à analyser sont quantitatives alors une Analyse en Composantes Principales (ACP) peut être effectuée. Si les variables sont qualitatives, une Analyse de Correspondances Multiples (ACM) convient. Ces 2 méthodes sont similaires et se basent sur les liens entre variables (table de corrélation, table de contingences).

L’intérêt d’une analyse factorielle est d’explorer rapidement un jeu de données et de créer une base de travail pour de futurs analyses comme une classification.

Faire une ACP

Nous allons réaliser une ACP avec R-Commander et le plugin FactomineR correspondant (RcmdrPlugin.FactoMineR).

En chargeant le jeu de données « decathlon » (dans le package FactoMineR), l’ACP peut être réalisée via le menu FactoMineR > Analyse en Composantes Principales (ACP)

Une fenêtre s’ouvre alors pour configurer l’analyse.

Le jeu de données dcathlon contient les performances des athlètes lors de 2 décathlons.

La première étape est de sélectionner les variables actives, c’est à dire les variables qui seront prises en compte pour la création des dimensions.

Les variables actives s’opposent aux variables illustratives qui ne sont pas prises en compte dans les calculs mais qui peuvent servir de repères. De même, on parle de facteurs illustratifs pour les variables qualitatives qui pourront servir de repère. Et il en est de même pour les individus (lignes de données).

Ensuite, il faut préciser les résultats qu’on souhaite afficher : Graphiques, Tableaux, etc

Il est conseillé lorsqu’il y a beaucoup de variables d’afficher les résultats pour retrouver les coordonnées de chaque point sur les graphiques. Et de réduire les variables pour éviter les effets d’échelle et donner le même poids à chaque variable.

Il est possible de configurer les graphiques des variables et celui des individus.

Ci-dessous on sélectionne les résultats pour lesquels on souhaite avoir les détails.

Après avoir fini la configuration, il est possible de lancer l’ACP en cliquant sur « Appliquer ».

Les graphiques et résultats sont alors générés.

Comment lire les graphiques ?

 

Le premier graphique est celui des variables (colonnes du jeu de données).

Il est fait de 2 axes (horyzontal et vertical), chacun représentant une dimension. Et chaque variable est placée en fonction de son centre de gravité (en fonction de la dimension, et donc des autres variables). Plusieurs choses sont à noter :

  • Les 2 axes sont indépendants, donc un angle droit illustre une indépendance.
  • Les 2 axes s’entrecoupent à l’origine avec d’un côté les valeurs positives et de l’autre les valeurs négatives.
  • Les variables sont placés sur le graphique en fonction de leur corrélation avec la dimension (et donc les autres variables).
  • Une variable proche de l’origine  a peu d’influence sur les axes et dimensions, alors qu’une variable éloignée de l’origine en a plus.
  • Une variable ayant une valeurs négative est en opposition avec une autre variable qui aurait une valeur positive. Un individu qui a une faible valeur pour la première variable aura donc une forte valeur pour la seconde.
  • Deux variables qui sont à proximité ont une