La librairie stringr permet de manipuler facilement des chaines de caractères pour extraire et/ou modifier certaines parties. Elle est souvent utile lors du "nettoyage" des jeux de données avant d'attaquer la vraie analyse de données.
Pour illustrer l'utilisation de cette librairie et quelques-unes des fonctionnalités, nous allons prendre l'exemple de la chaine de caractère suivante représentant le nom d'un champ de jeu de données : "Mon champ de jeu de données !".
Pour travailler avec cette chaine de caractère et éviter des erreurs, nous avons besoin de :
- remplacer les espaces par des underscores, à l'aide de str_replace_all()
- enlever la ponctuation, à l'aide de str_replace_all()
- appliquer un Title Case (mettre en majuscules la premiere lettre de chaque mot), à l'aide de str_to_title()
- couper aux 10 premiers caractères, à l'aide de str_sub()
Le code correspondant est le suivant :
a <- "Mon champ de jeu de données !" a <- str_to_title(a) a <- str_replace_all(a,"[:blank:]","_") a <- str_replace_all(a,"[:punct:]","_") a <- str_sub(a,1,9)
Ce qui donne au final "Mon_Champ"
Pour plus d'infos :
- https://stringr.tidyverse.org/