Retour aux cours
AI014 Professional

Introduction à la programmation en R

Ce cours constitue une introduction complète à l'environnement de langage R, couvrant des sujets fondamentaux tels que les opérations de base sur les vecteurs numériques, les attributs d'objets, le traitement des tableaux et matrices, la gestion des listes et des cadres de données, ainsi que la modélisation statistique et la production de graphiques de haute qualité. Il convient particulièrement bien comme ouvrage d'introduction à l'analyse statistique et à la science des données.

4.9
30.0h
716 étudiants
2 j'aime
Intelligence Artificielle
Commencer à apprendre

Aperçu du cours

📚 Résumé du contenu

Ce cours constitue une introduction complète à l'environnement de langage R, couvrant des sujets fondamentaux allant des opérations de base sur les vecteurs numériques, des attributs d'objets et de la gestion des tableaux/matrix aux manipulations de listes et cadres de données, aux modèles statistiques et à la production de graphiques de haute qualité. Il convient parfaitement comme manuel d'introduction à l'analyse statistique et à la science des données.

Maîtrisez les bases du langage R et ouvrez la porte au calcul statistique et à la visualisation des données.

Auteur : Équipe principale de développement de R

Remerciements : Ce manuel est entretenu par l'Équipe principale de développement de R. La version française tient compte de la traduction japonaise réalisée par Shigeru MASE, ainsi que des contributions de l'équipe de traduction en chinois, notamment Dr. ZP Li, Dr. Rui Li.

🎯 Objectifs d'apprentissage

  1. Initialiser des sessions R, naviguer dans le système d'aide et appliquer les règles syntaxiques de base (sensibilité à la casse, affectations et commentaires).
  2. Différencier et créer des vecteurs logiques, des vecteurs caractères, et gérer les valeurs manquantes (NA et NaN).
  3. Utiliser quatre méthodes d'indexation distinctes pour sélectionner, exclure ou modifier des sous-ensembles spécifiques de données.
  4. Identifier et modifier les attributs intrinsèques (mode et longueur) des objets R.
  5. Utiliser les fonctions class() et attr() pour gérer les métadonnées des objets et les structures de données.
  6. Créer et manipuler des facteurs et des facteurs ordonnés afin de représenter des données catégorielles.
  7. Définir et construire des tableaux et matrices à l'aide de vecteurs de dimensions et de la fonction array().
  8. Appliquer des techniques d'indexation avancées, y compris l'utilisation de matrices d'index pour extraire ou modifier des éléments spécifiques.
  9. Exécuter des opérations d'algèbre linéaire telles que les produits externes, les transpositions généralisées et les inverses matriciels.
  10. Construire et modifier des listes : créer des listes nommées et non nommées, et les combiner à l’aide de syntaxe R spécifique.

🔹 Leçon 1 : Introduction à R et notions de base des vecteurs

Aperçu : Cette leçon présente l'environnement fondamental de R, couvrant sa syntaxe de base, l'exécution des commandes et les systèmes d'aide. Elle explore également des types spécifiques de vecteurs — logiques, caractères et valeurs manquantes — et fournit des méthodes détaillées pour sélectionner et modifier des sous-ensembles de données à l’aide de vecteurs d’index.

Résultats attendus :

  • Initialiser des sessions R, naviguer dans le système d’aide et appliquer les règles syntaxiques de base (sensibilité à la casse, affectations et commentaires).
  • Différencier et créer des vecteurs logiques, des vecteurs caractères, et gérer les valeurs manquantes (NA et NaN).
  • Utiliser quatre méthodes d’indexation distinctes pour sélectionner, exclure ou modifier des sous-ensembles spécifiques de données.

🔹 Leçon 2 : Attributs des objets et gestion des facteurs

Aperçu : Cette leçon traite des propriétés fondamentales des objets R, notamment leurs attributs intrinsèques comme le mode et la longueur, et la manière dont ils peuvent être interrogés ou modifiés. Elle explore également les « facteurs » — une structure de données spécialisée pour gérer les variables catégorielles — et démontre comment utiliser la fonction tapply() pour effectuer une analyse statistique groupée selon les niveaux des facteurs.

Résultats attendus :

  • Identifier et modifier les attributs intrinsèques (mode et longueur) des objets R.
  • Utiliser les fonctions class() et attr() pour gérer les métadonnées des objets et les structures de données.
  • Créer et manipuler des facteurs et des facteurs ordonnés pour représenter des données catégorielles.

🔹 Leçon 3 : Tableaux, matrices et algèbre linéaire

Aperçu : Cette leçon explore les puissantes capacités de R pour traiter des données multidimensionnelles via les tableaux et les matrices. Les étudiants apprendront à définir des structures de données à l’aide de vecteurs de dimensions, à effectuer un indexage complexe et à réaliser des opérations d’algèbre linéaire essentielles — telles que la multiplication matricielle, l’inversion et les décompositions — cruciales pour le calcul statistique et l’analyse des données.

Résultats attendus :

  • Définir et construire des tableaux et des matrices à l’aide de vecteurs de dimensions et de la fonction array().
  • Appliquer des techniques d’indexation avancées, y compris l’utilisation de matrices d’index pour extraire ou modifier des éléments spécifiques.
  • Exécuter des opérations d’algèbre linéaire incluant les produits externes, les transpositions généralisées et les inverses matriciels.

🔹 Leçon 4 : Gestion des données : listes, cadres de données et I/O

Aperçu : Cette leçon couvre les bases du traitement des structures de données complexes et des données externes dans R. Elle se concentre sur les listes — des conteneurs flexibles qui regroupent des composants de types différents — et les aspects pratiques de l’entrée/sortie (I/O), notamment le chargement de fichiers externes dans des structures de liste ou de matrices, l’accès aux jeux de données intégrés provenant de packages, et l’utilisation d’outils d’édition interactifs pour modifier les données.

Résultats attendus :

  • Construire et modifier des listes : créer des listes nommées et non nommées, et les combiner à l’aide de syntaxe R spécifique.
  • Accès aux composants : distinguer et appliquer différentes méthodes d’indexation ([[ ]], [ ] et $) pour récupérer des données de liste.
  • Entrée de données externes : utiliser la fonction scan() pour lire des données depuis des fichiers externes vers des listes structurées ou des matrices.

🔹 Leçon 5 : Lois de probabilité et tests statistiques

Aperçu : Cette leçon offre un guide complet pour gérer les lois de probabilité et effectuer des inférences statistiques dans R. Les étudiants apprendront à utiliser le système standardisé de préfixes de R (d, p, q, r) pour les fonctions de distribution, à générer des statistiques descriptives, et à évaluer visuellement les données à l’aide des fonctions cumulatives empiriques (ecdf) et des graphiques Q-Q.

Résultats attendus :

  • Maîtriser la nomenclature des distributions R (préfixes d, p, q, r) et les appliquer aux distributions standards telles que la normale, la loi T et la loi F.
  • Construire et interpréter des outils diagnostiques graphiques, notamment les fonctions cumulatives empiriques (ecdf) et les graphiques Quantile-Quantile (Q-Q), pour évaluer l’ajustement des distributions.
  • Exécuter et différencier les tests paramétriques et non paramétriques, notamment les tests t de Welch, les tests de normalité de Shapiro-Wilk et les tests de Kolmogorov-Smirnov.

🔹 Leçon 6 : Contrôle des programmes et logique itérative

Aperçu : Cette leçon traite des mécanismes fondamentaux de contrôle du flux d’exécution en R. Elle se concentre sur le regroupement d’expressions multiples en unités simples et sur l’utilisation d’instructions de contrôle — y compris la branche conditionnelle (si-sinon) et diverses structures de boucle (pour, répéter et tant que) — pour automatiser les tâches d’analyse des données et gérer la logique complexe.

Résultats attendus :

  • Regrouper plusieurs expressions R en une seule instruction à l’aide d’accolades.
  • Mettre en œuvre une logique conditionnelle pour exécuter des blocs de code spécifiques selon des critères logiques.
  • Créer des boucles itératives pour automatiser des opérations répétitives sur des structures de données comme les vecteurs et les listes.

🔹 Leçon 7 : Développement de fonctions personnalisées et portée

Aperçu : Cette leçon explore la transition de l’utilisation de R comme calculatrice interactive à son utilisation comme langage de programmation grâce au développement de fonctions personnalisées. Elle couvre la syntaxe de définition de fonctions, la gestion des arguments, les règles de portée lexicale, ainsi que les concepts fondamentaux du système orienté objet S3 de R à travers les fonctions génériques et les méthodes.

Résultats attendus :

  • Créer et invoquer des fonctions personnalisées : définir des fonctions avec des paramètres formels et des opérateurs binaires personnalisés.
  • Gérer les arguments et la portée : distinguer entre correspondance par position et par mot-clé, et expliquer comment la portée lexicale gère les variables locales et libres.
  • Implémenter un état mutable et des environnements personnalisés : utiliser les fermetures et l’opérateur d’affectation supérieure pour maintenir un état et personnaliser l’environnement R via des fonctions de démarrage/session.

🔹 Leçon 8 : Modélisation statistique : linéaire et non linéaire

Aperçu : Cette leçon explore l’ensemble complet d’outils disponibles dans R pour la modélisation statistique au-delà de la régression linéaire simple. Elle couvre l’extraction d’informations de modèle à l’aide de fonctions génériques, la comparaison de modèles via l’ANOVA, et l’ajustement de modèles linéaires généralisés (GLM) pour des données binaires et comptables, ainsi que des techniques de modélisation non linéaire.

Résultats attendus :

  • Utiliser des fonctions R génériques pour extraire, résumer et visualiser les informations issues de modèles ajustés.
  • Comparer des modèles à l’aide de tableaux ANOVA et mettre à jour des modèles existants à l’aide d’une syntaxe efficace.
  • Ajuster des modèles linéaires généralisés (GLM) en utilisant des familles et des fonctions lien appropriées (par exemple, Logit, Probit, Poisson).

🔹 Leçon 9 : Visualisation des données avec des graphiques haut niveau et bas niveau

Aperçu : Cette leçon couvre les capacités graphiques complètes de R, en distinguant les fonctions de tracé haut niveau qui créent des graphiques complets des commandes bas niveau qui ajoutent des éléments spécifiques à des affichages existants. Les étudiants apprendront à manipuler les paramètres graphiques pour un contrôle esthétique précis et à gérer plusieurs environnements de figures.

Résultats attendus :

  • Distinction et mise en œuvre des fonctions graphiques haut niveau (ex. plot(), hist()) et bas niveau (ex. points(), lines()).
  • Appliquer et gérer les paramètres graphiques à l’aide de conditions permanentes (par()) et temporaires (au niveau des fonctions).
  • Coordonner des mises en page complexes, y compris les affichages multivariés et les environnements de figures multiples.

🔹 Leçon 10 : Écologie des packages et configuration de l’environnement

Aperçu : Cette leçon explore les fondations structurelles de R, en mettant l’accent sur l’écosystème des packages, le rôle de CRAN et le mécanisme des espaces de noms pour la gestion des fonctions. Elle fournit également une feuille de route pratique pour exécuter R via divers interfaces et maîtriser la configuration de l’environnement à l’aide d’arguments en ligne de commande et de raccourcis clavier.

Résultats attendus :

  • Comprendre la relation entre les packages, les espaces de noms et le système de dépôt CRAN.
  • Exécuter une session "exemple" complète impliquant la manipulation de données, la modélisation statistique et le tracé mathématique complexe.
  • Configurer l’environnement de démarrage de R à l’aide de drapeaux en ligne de commande et de variables d’environnement.