Comment faire un test de proportion avec R-Commander?

Nous allons voir comment réaliser un test de proportion avec R Commander. R Commander est un des « packages » de R. Il permet d’utiliser la puissance de R pour les calculs statistiques en lui associant une interface graphique facilitant son utilisation.

Le test de proportion convient lorsqu’on souhaite savoir si des groupes/échantillons sont différents et qu’on ne dispose que de variables qualitatives (textuelles). Le principe du test est de calculer les proportions de chaque combinaison de variables/modalités (dénombrement) et de tester l’égalité de ces différentes proportions.

Comment lancer R-Commander

Une fois le package « Rcmdr » installé, Pour lancer R-commander depuis R, il faut entrer la ligne de code suivante :

> library(Rcmdr)

Si on ferme l’interface graphique et qu’on souhaite la relancer, il faut éxécuter la fonction Commander() du package :

> Commander()

Avant de faire un test de proportion

Avant de faire le test, il faut :

  • Choisir les variables à analyser (en tenant compte du fait qu’on ne peut avoir que 2 variables et une d’entre elles ne peut pas avoir plus de 2 valeurs/modalités)
  • Bien présenter les données dans une table de contingence

Concernant les variables,
Une d’entre elles va servir de base pour le calcul des proportions en partant du principe qu’il ne peut y avoir que 2 valeurs : échec ou réussite. Pour cela, le test a besoin d’une variable qualitative n’ayant que 2 valeurs possibles (modalités). Si les variables ne correspondant pas à ce cas, il faut alors en transformer une dans ce sens. Par exemple, si on a une variable qui enregistre les couleurs des yeux des personnes, on aura plus de 2 couleurs enregistrées. Pour faire le test, si on souhaite savoir si la proportion des personnes ayant des yeux bleus est différente selon une autre variable, il faut alors réorganiser les données afin de n’avoir que 2 valeurs possibles : « personnes ayant les yeux bleus » versus « personnes n’ayant pas les yeux bleus » (cette dernière valeur étant alors la consolidation des données pour les yeux verts, les yeux marrons, etc).

Concernant la structure des données,
Lorsque l’on ne dispose que de variables qualitatives, l’information récoltée correspond à un dénombrement du nombre d’individus pour chaque combinaison de variables/modalités. Pour réaliser le test, on structure souvent les données dans une table de contingence qui est une table comptabilisant les individus correspond à chaque combinaison (par exemple, le nombre d’individus qui ont les yeux bleus et sont de sexe masculin). Pour réaliser cette table de contingence, il faut que la base de données soit « propre », c’est à dire que sa structure soit complète et que chaque colonne corresponde au même nombre de lignes.

Faire un test de proportion avec R-Commander

Nous allons faire un exemple de test de proportion à partir des donnés « HairEyeColor » du package « dataset ». L’objectif de notre test est de savoir si il y a une différence entre les proportions des personnes ayant des yeux bleus ou non et le fait que ce soit des hommes ou des femmes. Autrement dit, est-ce qu’il semble que les hommes ont plus ou moins de chance d’avoir des yeux bleus ? Avec R-commander, nous allons procéder en plusieurs étapes :

  • Recoder les données
  • Faire la table de contingence
  • Faire le test de proportion

Dans la table de données, il y a plusieurs valeurs pour la couleur des yeux (Brown, Blue, Hazel, Green). Etant donné que notre test ne porte que sur le fait que les personnes aient les yeux bleus ou non, nous devons recoder les données en catégorisant « Brown », « Hazel » et « Green » comme « Not Blue ». Pour cela, il faut aller dans le menu Données > Gérer les variables du jeu de données actif > Recoder des variables.

Nous avons donc créé une nouvelle variable n’ayant que 2 valeurs / modalités (Blue ou NotBlue).

Maintenant, nous allons créer la table de contingence. Il est normalement possible de le faire automatiquement via le menu Statistiques > Tables de contingence (la table de contingence est calculée en dénombrant le nombre de lignes pour chaque modalité). Mmais dans notre cas, nous n’aurions pas la table de contingence voulu car nos données sont structurées dans une table de consolidation où le dénombrement de chaque modalité est renseigné dans la variable numérique « Freq » (1 ligne pour chaque modalité au lieu de plusieurs). Nous devons donc procéder autrement via le menu Statistiques > Résumés > Tableau de statistiques en calculant la somme de Freq pour chaque modalité (« sum »).

Nous avons ainsi créé la table de contingence suivante. On peut remarquer qu’à chaque action, le code R correspondant est généré dans la  fenetre de script et la fenetre de sortie (qui lit le code et affiche les résultats).

En lisant les lignes de la table ci-dessus, on sait qu’il y 101 personnes de sexe masculins qui ont les yeux bleus contre 178 personnes de sexe masculin qui n’ont pas les yeux bleus (soit une proportion de 36,2%). C’est cette lecture horyzontale qui nous intéresse (savoir si il y a une différence entre les hommes et les femmes), plutôt que la lecture verticale (concernant la différence entre les personnes ayant des yeux bleus et les autres).
Si on souhaitait modifier la structure de la table (basculement horyzontal/vertical), il faudrait modifier le code R généré en mettant en premier la variable qui nous intéresse pour le test (la variable devant être positionné dans les lignes du tableau).

Il ne nous reste plus qu’à faire le test de proportion.
Juste avant, il ne faut pas oublier de mettre la table de contingence que l’on vient de créer dans un objet. Ce qui permet de pouvoir l’utiliser pour le test. Dans le code ci-dessus, la table de contingence est mise dans l’objet « .Table » : ceci est fait en modifiant manuellement le code R généré dans la fenêtre de script (à noter qu’il est possible de rajouter des commentaires en commençant par #).

Pour faire le test de proportion,
il faut aller dans le menu Statistiques > Proportions, et configurer le test avec les variables souhaitées, l’hypothèse nulle, l’indice de confiance, etc. Du code R est alors généré et il doit être adapté pour utiliser la table de contingence que nous avons créé.
Une fois le code modifié, il est possible de voir le résultat en sélectionnant les lignes de code et en cliquant sur « Soumettre ».

En regardant la p-value, on sait si on rejette ou non l’hypothèse nulle d’égalité des proportions. Si la p-value est en-dessous de 0,05, alors cela signifie que les proportions (prop1 et prop2) sont significativement différentes.

Dans notre cas, la p-value > 0,05, les hommes et femmes ont donc les mêmes chances/proportions d’avoir les yeux bleus.

Pour + d’infos :

Le test de proportion « pour les nuls »

Exemple de test de proportion

Test de proportion avec Excel

Différence entre le test de proportion (z-test) et le test du Chi-2 (chisq.test)

0.00 avg. rating (0% score) - 0 votes

Laissez un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *