Comment faire référence aux colonnes dans les data frames avec R ?

Pour manipuler les données et pouvoir réaliser des calculs personnalisés, il est primordial de savoir comment interagir avec les différents elements d’un data frame (le format standard dans lequel sont normalement stockées les données).

Cet article va lister différentes méthodes incontournables. Et les illustrations seront faites sur la base de ce data frame :

data <- data.frame( 
  fonctionnalite=c("a","b","c","a","b","c"), 
  note=c(1,2,3,4,5,6)
)
FonctionnaliteNote
a1
b2
c3
a4
b5
c6
Illustration du data frame d’exemple

Pour connaitre le nombre de colonnes et de lignes :

La fonction permettant de connaitre le nombre de colonne est ncol(). Pour les lignes, il s’agit de nrow().

ncol(data)
nrow(data)

Pour travailler avec le nom des colonnes :

La fonction permettant de connaitre le nom des colonnes est colnames().

colnames(data)

Cette fonction renvoie un « vecteur » contenant les noms des colonnes. Il est ainsi possible de connaitre le nombre de colonnes en regardant la longueur du vecteur avec length() (ce qui donne le même résultat que ncol() ).

colnames(data) %>% length()

Pour connaitre le nom de la x-ieme colonne, il s’agit de faire référence à son index dans le vecteur :

#Exemple pour avoir le nom de la 2eme colonne
colnames(data)[2]

Pour changer le nom d’une colonne, il s’agit alors de le définir en faisant référence à colnames() :

#Exemple pour changer le nom de la deuxième colonne
colnames(data)[2] <- "nouveauNom"

Pour récupérer la valeur d’une ligne donnée et d’une colonne donnée :

Il s’agit de faire référence au data frame avec son index en commenceant par la ligne, puis par la colonne :

#Exemple pour recuperer la valeur de la 3eme ligne pour la 2eme colonne
data[3,2] 

Il est possible de faire intervenir des fonctions pour préciser l’index. Par exemple pour avoir la valeur de la derniere ligne et de la derniere colonne :

data[nrow(data), nol(data)]

Pour récupérer toutes les valeurs d’une colonne donnée :

Il est possible de récupérer toutes les valeurs d’une colonne avec son index (en mettant une valeur vide pour l’index de la ligne). Le résultat a un format de type vecteur.

#Exemple pour recuperer les valeurs de la 2eme colonne
data[,2]

Une autre méthode est de faire référence au nom de la colonne. Par defaut, le resultat a un format de type data.frame (avec le nom de colonne conservé).

#Exemple pour recuperer les valeurs d'une colonne avec son nom (resultat de type data.frame)
data["note"]

Si on souhaite récupérer un résultat de type vecteur, au lieu de data.frame, il s’agit de « descendre un niveau plus bas » :

#Exemple pour recuperer les valeurs d'une colonne avec son nom (resultat de type vecteur)
data[["note"]]

Pour créer une nouvelle colonne :

Il s’agit de faire reference au data frame avec le nouveau nom de colonne et de lui attribuer un vecteur de données (de la meme taille que le nombre de lignes du data frame) :

#Exemple pour ajouter une colonne "pays"
data["Pays"] <- c("FR","DE","ES","DE","FR","ES")

Pour + d’infos :

https://www.w3schools.com/r/r_data_frames.asp

0.00 avg. rating (0% score) - 0 votes

Laissez un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *