Pour programmer des tâches récurrentes automatiques sur une machine virtuelle, il est pratique de configurer des cronjobs (dans une crontable) qui vont lancer automatiquement l’execution d’un script python (via une commande bash de type python3 #chemin-acces-script-python#). Le script python peut […]
Il est utile pour automatiser des tâches de traitement de données récurrentes (Extraction, Transformation, Chargement) de demander à une machine virtuelle (qui est dans un datacenter connecté en permanence) de les réaliser automatiquement (le plus souvent la nuit pour avoir […]
R permet d’automatiser des calculs, mais aussi de générer des rapports sous différents formats qui peuvent être facilement partagés (HTML, PDF, etc). Cela se fait grâce à R Markdown (intégré dans RStudio)(cela correspond aux fichiers .Rmd). R Markdown permet d’écrire […]
Pour manipuler les données, le SQL est très pratique. Mais cela demande d’ecrire les actions à réaliser en 1 seul bloc. Avec R, c’est beaucoup plus facile, car il est possible de décomposer les actions une à une, les unes […]
La méthode pour faire une fonction personnalisée est similaire celle de Javascript. Il s’agit de declarer la fonction avec « function() » en mettant les paramètres dans les parenthèses (il est possible de définir la valeur par défaut avec =). Le code […]
Pour extraire des données d’un data frame à partir de règles conditionnelles, la methode la plus simple est d’appliquer un filtre (l’autre méthode avec which est décrite ici). Il est possible d’appliquer un filtre en faisant reference aux index du […]
Il existe 2 methodes pour fusionner les données de 2 data frame (en ajoutant les données les unes à la suite des autres). Pour fusionner les données, il est nécessaire que les 2 data frames aient les mêmes noms de […]
Il existe plusieurs méthodes pour créer une nouvelle colonne dans un data frame dans R. Nous allons voir dans cet article la méthode classique, puis la methode « mutate » de la librairie dplyr. Nous allons travailler avec le data frame suivant […]
Dans R, les valeurs numériques apparaissent par défaut avec les décimales définies à l’origine. Si on souhaite définir un autre format avec moins de décimales, il s’agit d’utiliser la fonction format(). Dans un data frame, les données des colonnes seront […]
Par defaut, les données numériques sont affichées dans R au format décimal. Pour les afficher comme des pourcentages, il s’agit d’utiliser la fonction percent() (de la librairie « scales »). Avec le data frame ci-dessous, les données numeriques sont en decimales : […]
La fonction à utiliser est unique(). On transmet à cette fonction toutes les valeurs et elle va enlever les doublons, ce qui permet de n’avoir au final que les valeurs uniques. Ainsi, avec le data frame ci-dessous, il y a […]
Des données ordinales sont des données textuelles qui ont un lien hierarchique entre elles, c’est à dire qu’elles peuvent être classées dans un ordre du plus petit au plus grand. Il peut s’agir par exemple des tailles de tee-shirt : […]