Comment faire le test du chi-deux avec R-Commander ?


Nous allons voir comment faire le test du chi-deux (ou khi-carré) avec R. Pour cela nous allons utiliser le package Rcmdr qui applique une interface graphique à R.

Le test du chi-deux permet de tester l'indépendance entre des variables qualitatives. Le principe du test repose sur une table de contingence où on comparera les valeurs obtenues avec les valeurs espérés qui correspondent à une situation d'indépendance entre les variables.

Faire un test du Chi-deux avec R Commander

Le test du chi-deux ne peut se faire qu'entre 2 variables. Et pour bien structurer les données, il faut faire une table de contingence avec ces 2 variables. La table de contingence va comptabiliser le nombre d'individus pour chaque combinaison.

Pour cela,
nous allons charger le jeu de données "Cars93" via le menu Données > Données dans les paquets > Lire les données depuis un paquet attaché.
Et nous allons tester l'indépendance entre les variables "Type de véhicules" et "Airbags" pour savoir si l'équipement en airbag dépend du type de voiture.

Pour charger les données,
Le code suivant est généré : data(Cars93, package="MASS")

Le test du chi-deux se fait en même temps que la création de la table de contingence dans R-commander, en allant dans Statistiques > Tables de contingence > Tri croisé.

En configurant la table de contingence, on peut réaliser le test du Chi-deux, en cochant les cases "Test Chi-deux d'indépendance", "Composants de la statistique du Chi-deux" et "Imprimer les fréquences attendues".

Le code et les résultats suivants apparaissent :

La table de contingence créé est affichée ci-dessus, juste avant que soit réalisé le test du chi-deux.

Le test du Chi-deux donne une p-value de 0,00027, ce qui signifie qu'on peut rejeter l'hypothèse nulle d'indépendance des variables en ayant que 0,027% de chances de se tromper.

En regardant la table des résidus, on peut trouver les valeurs déterminantes pour considérer que les variables sont dépendantes.

Les résidus correspondent à la différence entre la valeur observée (la valeur dans les données) et la valeur espérée (valeur théorique pour qu'il y ait indépendance). Dans le tableau ci-dessus, il s'agit des carrés des résidus. Ceci permet de pouvoir comparer toutes les valeurs (que la différence soit positive ou négative).

Dans le tableau on remarque qu'il y a un lien entre le fait d'avoir des airbags pour le conducteur et le passage ("driver & passenger") et le type de véhicule "small", "midsize" et "large", pareil avec le fait de ne pas avoir d'airbags ("none").

Pour voir les valeurs espérées, il faut appeler la propriété "expected" de l'objet créé pour le test du chi-deux (.Test$expected dans notre cas).

Pour voir les résidus, avec les différences positives et négatives, il faut appeler la propriété "residuals" (.Test$residuals"). On voit alors que les véhicules de type "large" et "midsize" ont plus de chance d'avoir des airbags pour le conducteur et le passager, contrairement au type de véhicule "small" qui a plus de chance de ne pas avoir d'airbags.

Le test du Chi-deux est fiable, cependant il peut être approximatif si une des valeurs attendues est en-dessous de 5. Si c'est le cas, un message s'affiche alors en bas de R-commander ("Chi-squared approximation may be incorrect").

C'est le cas pour notre test, il convient alors à chacun de juger si on peut considérer que le test est assez fiable, en fonction de la valeur de la p-value et des valeur de la table des valeurs attendues .

Pour + d'infos :

Test du chi-deux avec Excel : http://www.youtube.com/watch?v=HJ7aHiF6Z1o

Détails du test du Chi-deux : http://www.univ-st-etienne.fr/lbti/biomath/Cours/chi2/Chi2.htm

avec R : http://mehdikhaneboubi.free.fr/stat/co/khi_deux_r.html

avec R commander :

0.00 avg. rating (0% score) - 0 votes

Laissez un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *