Comment manipuler et remplacer des chaines de caractères dans R avec stringr ?

La librairie stringr permet de manipuler facilement des chaines de caractères pour extraire et/ou modifier certaines parties. Elle est souvent utile lors du « nettoyage » des jeux de données avant d’attaquer la vraie analyse de données.

Pour illustrer l’utilisation de cette librairie et quelques-unes des fonctionnalités, nous allons prendre l’exemple de la chaine de caractère suivante représentant le nom d’un champ de jeu de données : « Mon champ de jeu de données ! ».

Pour travailler avec cette chaine de caractère et éviter des erreurs, nous avons besoin de :
– remplacer les espaces par des underscores, à l’aide de str_replace_all()
– enlever la ponctuation, à l’aide de str_replace_all()
– appliquer un Title Case (mettre en majuscules la premiere lettre de chaque mot), à l’aide de str_to_title()
– couper aux 10 premiers caractères, à l’aide de str_sub()

Le code correspondant est le suivant :

library(stringr)
a <- "Mon champ de jeu de données !"
a <- str_to_title(a)
a <- str_replace_all(a,"[:blank:]","_")
a <- str_replace_all(a,"[:punct:]","_")
a <- str_sub(a,1,9)

Ce qui donne au final « Mon_Champ »

stringr_exemple

Pour plus d’infos :

https://stringr.tidyverse.org/

0.00 avg. rating (0% score) - 0 votes

Laissez un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *