Comment préparer les données avant un test statistique avec Excel ?

Avant de lancer un test statistique, il convient parfois d’organiser les données afin de les présenter au format adéquat. Nous allons prendre l’exemple du set de données ci-dessous que nous allons préparer à un test de Student (t-test).

Pour préparer les données, il faut :

  • Structurer les données
  • Enlever les données incomplètes
  • Vérifier la distribution des données

Structurer les données

Avant de faire un test statistique, il faut que les données soient structurées afin de pouvoir être traité par le logiciel.

La structure d’un fichier correspond à la façon d’organiser les données en ligne et en colonnes. Et cela comprend également les nom à donner à chaque libellé et valeurs textuelles.

En règle générale, il convient d’éviter les caractères spéciaux, mathématiques ou qui ont une signification pour un code informatique.

  • Commencer le nom par une lettre (et non un chiffre ou autres)
  • Pas d’espace dans un nom (il est préférable de mettre un underscore _ )
  • Pas d’accents (pas de é par exemple, mettre e à la place)
  • Pas de majuscules (un nom avec majuscules peut être interprété différemment que le même nom en minuscules)
  •  Pas de signe mathématique (+, -, :, /)
  • Eviter le point (.) qui peut être mal interprété dans du code informatique (le point servant à faire référence aux propriétés d’un objet informatique)

 

Il faut savoir que la structure nécessaire avec Excel est différente de celle utilisée pour un logiciel de statistiques comme R (dont la structure doit être similaire à une base de données avec une ligne pour chaque individu/mesure et une colonne pour chaque facteur/variable mesuré, cette structure permettant une certaine flexibilité). Pour qu’Excel puisse réaliser le calcul statistique, il faut présenter les données sous un autre format qui est celui correspondant à ce qu’une personne ferait intuitivement en saisissant les données manuellement.

Dans excel, pour faire un test t de Student, il faut comparer 2 séries de données indépendantes. Si on souhaite savoir si les ventes des jours pluvieux sont différentes de celles des jours ensoleillés, il faut avoir une série avec les ventes des jours pluvieux dans une colonne et une série avec les ventes les jours ensoleillés dans une autre colonne. Les 2 séries de données peuvent être extraites d’une « base de données » à l’aide du champ « Meteo ». Pour cela, nous allons utiliser le filtre sur la colonne « Meteo » pour avoir les jours pluvieux pour créer la première série, et la deuxième série avec un filtre pour les jours ensoleillés.

Ainsi, on a 2 séries de données : 24 données pour les jours de pluie et 33 données pour les jours de soleil.

Enlever les données incomplètes

Lorsqu’on a plusieurs variables, il faut vérifier que des données ne soient pas manquantes. Par exemple, il est possible qu’il n’y ait qu’1 seule mesure pour un individu au lieu de 2. Etant donné que l’information n’est pas exploitable, il faut donc l’écarter. La ligne correspondant aux mesures de l’individu peut donc être supprimée.

De même si certaines mesures ont des valeurs trop extrêmes, il faut envisager de les écarter. pour cela, il peut être utile de regarder la distribution des données.

Vérifier la distribution des données

Si on souhaite visualiser la distribution de chaque série de données, pour avoir un apercu avant de valider que les séries de données (échantillons) suivent une distribution normale, on peut utiliser un Tableau Croisé Dynamique (TCD). Il suffit de sélectionner le champ (série de données) et de le mettre dans le « champs Axe (Abscisse) » et dans la partie « Valeurs » en tant que « Nombre ». Ainsi, il est possible d’avoir le graphique suivant :

Pour + d’infos :

Exemple pour un t-test

0.00 avg. rating (0% score) - 0 votes

Laissez un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *