Comment manipuler et remplacer des chaines de caractères dans R avec stringr ?


La librairie stringr permet de manipuler facilement des chaines de caractères pour extraire et/ou modifier certaines parties. Elle est souvent utile lors du "nettoyage" des jeux de données avant d'attaquer la vraie analyse de données.

Pour illustrer l'utilisation de cette librairie et quelques-unes des fonctionnalités, nous allons prendre l'exemple de la chaine de caractère suivante représentant le nom d'un champ de jeu de données : "Mon champ de jeu de données !".

Pour travailler avec cette chaine de caractère et éviter des erreurs, nous avons besoin de :
- remplacer les espaces par des underscores, à l'aide de str_replace_all()
- enlever la ponctuation, à l'aide de str_replace_all()
- appliquer un Title Case (mettre en majuscules la premiere lettre de chaque mot), à l'aide de str_to_title()
- couper aux 10 premiers caractères, à l'aide de str_sub()

Le code correspondant est le suivant :

a <- "Mon champ de jeu de données !"
a <- str_to_title(a)
a <- str_replace_all(a,"[:blank:]","_")
a <- str_replace_all(a,"[:punct:]","_")
a <- str_sub(a,1,9)

Ce qui donne au final "Mon_Champ"

stringr_exemple

 

Pour plus d'infos :

- https://stringr.tidyverse.org/

 

0.00 avg. rating (0% score) - 0 votes

Laissez un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *