Probabilité et statistique : La science de l'incertitude
Un cours universitaire complet et introductif sur les fondements mathématiques du probabilité et de la statistique. Exigeant une année de calcul, le cours couvre les modèles probabilistes, les variables aléatoires, l'espérance, les distributions d'échantillonnage, la vraisemblance et l'inférence bayésienne, ainsi que les relations entre les variables.
Aperçu du cours
📚 Résumé du contenu
Un cours universitaire complet et introductif sur les fondements mathématiques de la probabilité et de la statistique. Exigeant une année de calcul différentiel, le cours couvre les modèles probabilistes, les variables aléatoires, l'espérance, les distributions d'échantillonnage, la vraisemblance et l'inférence bayésienne, ainsi que les relations entre variables.
Maîtrisez la science rigoureuse de l’incertitude à travers la probabilité fondée sur le calcul et l’inférence statistique.
Auteurs : Michael J. Evans et Jeffrey S. Rosenthal
Remerciements : Les auteurs remercient les contributions de divers relecteurs et collègues provenant d'institutions telles que l'Université de Toronto, l'Université McMaster et l'Université Purdue. Le soutien financier et les infrastructures fournis par l'Université de Toronto sont également mentionnés.
🎯 Objectifs d'apprentissage
- Définir un modèle probabiliste formel à l’aide d’un espace échantillon, d’événements et de mesures de probabilité.
- Appliquer les principes combinatoires (permutations, sous-ensembles, coefficients binomiaux) pour résoudre des problèmes probabilistes uniformes.
- Utiliser la loi totale de la probabilité et le théorème de Bayes pour analyser des systèmes à plusieurs étapes et mettre à jour ses croyances à la lumière de nouvelles informations.
- Définir et distinguer entre variables aléatoires discrètes et absolument continues, ainsi que leurs fonctions respectives de probabilité ou de densité.
- Identifier et appliquer des distributions de probabilité clés (Bernoulli, Binomiale, Poisson, Normale, etc.) pour modéliser des phénomènes du monde réel.
- Calculer les densités marginales, les distributions conditionnelles et évaluer l’indépendance pour des distributions multivariées.
- Calculer l’espérance, la variance et la covariance pour des variables aléatoires discrètes, continues et mixtes.
- Appliquer la loi de l’statisticien inconscient (LOTUS) et les propriétés de linéarité pour calculer les espérances de variables transformées.
- Dériver les moments à l’aide des fonctions génératrices de probabilité (PGF) et des fonctions génératrices de moments (MGF).
- Définir et dériver les distributions d’échantillonnage pour des fonctions de suites i.i.d.
🔹 Leçon 1 : Fondements des modèles probabilistes
Aperçu : Cette leçon établit le cadre mathématique rigoureux de la probabilité, passant de l’intuition de « mesure d’incertitude » à des modèles axiomatiques formels. Elle couvre les propriétés essentielles des mesures de probabilité, les techniques combinatoires de dénombrement dans les espaces finis, et les mécanismes fondamentaux de la probabilité conditionnelle, y compris le théorème de Bayes et la continuité des mesures de probabilité.
Objectifs d’apprentissage :
- Définir un modèle probabiliste formel à l’aide d’un espace échantillon, d’événements et de mesures de probabilité.
- Appliquer les principes combinatoires (permutations, sous-ensembles, coefficients binomiaux) pour résoudre des problèmes probabilistes uniformes.
- Utiliser la loi totale de la probabilité et le théorème de Bayes pour analyser des systèmes à plusieurs étapes et mettre à jour ses croyances à la lumière de nouvelles informations.
🔹 Leçon 2 : Variables aléatoires et distributions de probabilité
Aperçu : Cette leçon explore le cadre mathématique permettant de quantifier l’incertitude à travers les variables aléatoires (VA). Les étudiants passeront de la définition des VA et de leurs distributions (discrètes et continues) à la compréhension des distributions conjointes, des transformations, et des méthodes utilisées pour simuler numériquement ces variables. Le contenu relie la probabilité théorique fondée sur le calcul à des applications pratiques en modélisation et en simulation statistique.
Objectifs d’apprentissage :
- Définir et distinguer entre variables aléatoires discrètes et absolument continues, ainsi que leurs fonctions respectives de probabilité ou de densité.
- Identifier et appliquer des distributions de probabilité clés (Bernoulli, Binomiale, Poisson, Normale, etc.) pour modéliser des phénomènes du monde réel.
- Calculer les densités marginales, les distributions conditionnelles et évaluer l’indépendance pour des distributions multivariées.
🔹 Leçon 3 : Espérance mathématique et moments
Aperçu : Cette leçon explore le concept fondamental de l’espérance mathématique comme « moyenne à long terme » d’une variable aléatoire, s’étendant des cas simples discrets et continus aux variables arbitraires générales. Nous analyserons la variabilité des données à travers la variance et la covariance, utiliserons les fonctions génératrices (PGF, MGF et fonctions caractéristiques) pour simplifier les calculs de moments, et appliquerons des inégalités probabilistes puissantes pour borner des distributions inconnues. Enfin, le cours couvrira les espérances conditionnelles et la loi totale de l’espérance, essentielles pour analyser des processus aléatoires complexes à plusieurs étapes.
Objectifs d’apprentissage :
- Calculer l’espérance, la variance et la covariance pour des variables aléatoires discrètes, continues et mixtes.
- Appliquer la loi de l’statisticien inconscient (LOTUS) et les propriétés de linéarité pour calculer les espérances de variables transformées.
- Dériver les moments à l’aide des fonctions génératrices de probabilité (PGF) et des fonctions génératrices de moments (MGF).
🔹 Leçon 4 : Distributions d’échantillonnage et théorèmes asymptotiques
Aperçu : Cette leçon explore le comportement des variables aléatoires lorsqu’elles sont des fonctions d’un échantillon (distributions d’échantillonnage) et comment ces distributions se comportent lorsque la taille de l’échantillon augmente (théorèmes asymptotiques). Les étudiants maîtriseront la transition des distributions d’échantillonnage finies vers des approximations asymptotiques telles que le théorème central limite, et exploreront des méthodes computationnelles comme les approximations Monte Carlo et l’échantillonnage par importance.
Objectifs d’apprentissage :
- Définir et dériver les distributions d’échantillonnage pour des fonctions de suites i.i.d.
- Différencier et appliquer la convergence en probabilité et la convergence en distribution.
- Utiliser le théorème central limite et l’approximation normale de la binomiale pour estimer des probabilités.
🔹 Leçon 5 : Fondements de l’inférence statistique
Aperçu : Cette leçon explore la transition de la probabilité pure à l’inférence statistique, en abordant la manière dont nous utilisons des données observées pour faire des affirmations sur les mesures de probabilité réelles d’un système. Les étudiants apprendront à construire des modèles statistiques formels (Bernoulli et Normal), à comprendre des méthodes rigoureuses de collecte de données telles que l’échantillonnage aléatoire simple et stratifié à partir de populations finies, et à résumer leurs résultats à l’aide de statistiques descriptives, d’histogrammes et de fonctions de distribution empiriques.
Objectifs d’apprentissage :
- Définir le rôle de l’inférence statistique dans la gestion de l’incertitude causée par la variation et les données limitées.
- Construire et interpréter des modèles statistiques, en identifiant les paramètres et les espaces paramétriques.
- Différencier entre caractéristiques de population et estimations d’échantillons en utilisant des techniques d’échantillonnage aléatoire simple et stratifié.
🔹 Leçon 6 : Inférence fondée sur la vraisemblance
Aperçu : Cette leçon explore les fondements théoriques et les applications pratiques de l’inférence statistique fondée sur la vraisemblance. Elle passe des concepts fondamentaux tels que le principe de vraisemblance et la suffisance à l’estimation des paramètres par la méthode du maximum de vraisemblance (MLE) et à l’évaluation de ces estimateurs via leur biais, leur convergence et leurs écarts-types. En outre, la leçon couvre les approches paramétriques (intervalles z, intervalles t et tests d’hypothèses) et les méthodes non paramétriques (méthode des moments, bootstrap, statistiques du signe), culminant par l’étude avancée de la normalité asymptotique et de l’information de Fisher.
Objectifs d’apprentissage :
- Définir et appliquer la fonction de vraisemblance et le théorème de factorisation pour identifier les statistiques suffisantes et minimales suffisantes.
- Calculer les estimateurs du maximum de vraisemblance (MLE) et évaluer leur qualité à l’aide de l’erreur quadratique moyenne (EQM), du biais et de la convergence.
- Construire et interpréter des intervalles de confiance et des valeurs p pour divers modèles statistiques en utilisant des techniques paramétriques et non paramétriques.
🔹 Leçon 7 : Inférence statistique bayésienne
Aperçu : Cette leçon explore le cadre bayésien de l’inférence statistique, où les paramètres sont traités comme des variables aléatoires ayant des distributions de probabilité. Les étudiants apprendront à combiner leurs croyances a priori (distributions a priori) avec les données observées (vraisemblance) afin de produire des croyances actualisées (distributions a posteriori). Le programme couvre les fondements théoriques, les techniques pratiques d’estimation (facteurs de Bayes, prévision), les méthodes computationnelles (échantillonnage de Gibbs, normalité asymptotique) et la sélection stratégique des a priori.
Objectifs d’apprentissage :
- Calculer les distributions a posteriori à l’aide du théorème de Bayes pour divers modèles, y compris les familles conjuguées.
- Effectuer une estimation bayésienne (moyenne, mode) et un test d’hypothèses à l’aide des facteurs de Bayes.
- Construire des distributions prédictives a posteriori pour des observations futures.
🔹 Leçon 8 : Inférences optimales et théorie de la décision
Aperçu : Cette leçon explore les fondements mathématiques pour trouver les « meilleures » procédures statistiques. Nous passons de l’estimation basique à l’estimation sans biais optimale (UMVU), développons la théorie des tests uniformément les plus puissants (UMP) via le théorème de Neyman-Pearson, et intégrons les perspectives bayésiennes et la théorie de la décision pour évaluer les estimateurs et les tests à l’aide de fonctions de perte et de risque.
Objectifs d’apprentissage :
- Appliquer le théorème de Rao-Blackwell et le théorème de Lehmann-Scheffé pour dériver des estimateurs UMVU (sans biais à variance minimale uniforme).
- Utiliser l’inégalité d’information de Cramér-Rao pour déterminer la borne inférieure fondamentale sur la variance des estimateurs sans biais.
- Concevoir des tests UMP à l’aide du lemme de Neyman-Pearson et les évaluer à l’aide des fonctions de puissance et des types d’erreurs.
🔹 Leçon 9 : Vérification de modèle et diagnostics
Aperçu : Cette leçon explore le processus critique de validation des hypothèses faites lors de la modélisation statistique. Les étudiants apprendront à utiliser des statistiques de discordance et des statistiques ancillaires pour vérifier les modèles d’échantillonnage, à utiliser des outils visuels comme les graphiques de résidus et les diagrammes de probabilité, et à effectuer des tests formels tels que les tests du chi-carré et exact de Fisher. De plus, la leçon couvre la vérification bayésienne des modèles par analyse de conflit entre a priori et données, et met en garde contre les pièges statistiques liés à l’exécution de plusieurs vérifications simultanées.
Objectifs d’apprentissage :
- Définir et identifier les statistiques ancillaires et les statistiques de discordance utilisées pour mesurer les écarts de modèle.
- Construire et interpréter les résidus standardisés et les diagrammes de probabilité normale pour évaluer la normalité et l’ajustement du modèle.
- Appliquer le test du chi-carré d’adéquation et le test exact de Fisher aux données catégorielles et groupées.
🔹 Leçon 10 : Relations entre variables et régression
Aperçu : Cette leçon explore la manière dont les modèles statistiques décrivent les dépendances entre différentes variables. Elle va de la définition fondamentale de la relation — basée sur les changements dans les distributions conditionnelles — à des techniques de modélisation sophistiquées incluant la régression linéaire simple et multiple, l’analyse de variance (ANOVA) pour prédicteurs catégoriels, et la régression logistique pour réponses binaires. Les étudiants apprendront à estimer les paramètres à l’aide de la méthode des moindres carrés, à évaluer l’ajustement du modèle à l’aide du coefficient de détermination R² et de la décomposition ANOVA, et à valider les hypothèses par l’analyse des résidus.
Objectifs d’apprentissage :
- Définir et identifier les relations entre variables basées sur les distributions conditionnelles.
- Appliquer la méthode des moindres carrés pour estimer les paramètres dans les modèles de régression linéaire simple et multiple.
- Utiliser la décomposition ANOVA et les statistiques F pour tester la significativité des prédicteurs et détecter les interactions.
🔹 Leçon 11 : Introduction aux processus stochastiques
Aperçu : Cette leçon fournit une base complète en processus stochastiques — systèmes qui évoluent de façon aléatoire au fil du temps. Les étudiants passeront des modèles à temps discret, tels que les marches aléatoires simples et les chaînes de Markov, aux techniques computationnelles avancées comme le Monte Carlo par chaîne de Markov (MCMC), puis aux processus à temps continu incluant les martingales, le mouvement brownien et les processus de Poisson.
Objectifs d’apprentissage :
- Calculer les probabilités pour les marches aléatoires et déterminer la probabilité de « ruine » dans les modèles de jeu.
- Analyser les chaînes de Markov en termes d’irréductibilité, de périodicité et de distributions stationnaires.
- Concevoir et expliquer les algorithmes Metropolis-Hastings et Gibbs sampling pour des distributions complexes.