EvoClass | Education That Evolves With You

📚 Résumé du contenu

Ce cours est une introduction accessible et pratique aux grands modèles linguistiques (LLM) comme ChatGPT et Gemini. Conçu pour les apprenants de tout horizon, il explique de manière générale le fonctionnement des LLM, leurs capacités et limites, ainsi que la manière dont ils peuvent être utilisés efficacement dans les études, le travail et la vie quotidienne. À travers des démonstrations pratiques et des exercices guidés, vous apprendrez des techniques de formulation de prompts, à évaluer critiques les sorties, à gérer les hallucinations et les biais, et à utiliser des outils courants (documents, résumés, traduction, tâches sur données) de manière sécurisée et responsable. À la fin du cours, vous serez en mesure de concevoir un flux personnel basé sur les LLM pour des tâches concrètes — écriture, recherche, planification, productivité — sans nécessiter de compétences avancées en programmation.

Du raisonnement mathématique fondamental à l'orchestration distribuée d'agents : façonner des architectes de systèmes de haut niveau pour l'ère des grands modèles.

🎯 Objectifs d'apprentissage

Cognitif : Comprendre les piliers mathématiques du ML (algèbre linéaire, calcul, probabilités) et la lignée historique des architectures neuronales allant des Perceptrons aux LSTM.
Basé sur des compétences : Naviguer sur des serveurs distants via des commandes shell Unix et implémenter des graphes computationnels élémentaires à l’aide de moteurs de différentiation automatique.
Affectif : Valoriser l’importance du "fondement théorique" par rapport à l'"abstraction prématurée" lors du débogage de systèmes complexes comme les explosions de gradients.
Généré
Cognitif : Expliquer les mécanismes du pipeline post-formation, y compris la distinction entre le Fine-Tuning supervisé (SFT) et les cadres d’apprentissage par renforcement (RL) comme GRPO.
Basé sur des compétences : Concevoir un pipeline d’entraînement multi-étapes — de la mise en route initiale jusqu’à l’alignement final — en utilisant des techniques de fine-tuning efficaces en paramètres comme LoRA.
Affectif : Valoriser le passage de la vision de l’IA comme une "boîte noire magique" vers un système ingénierisé composé de couches mécaniques et de raisonnement interne délibéré.
Cognitif : Comparer les cadres d’intégration linéaire avec les orchestrations cycliques basées sur des graphes, et différencier les protocoles d’intégration verticale (MCP) et horizontale (A2A).
Basé sur des compétences : Définir des nœuds spécialisés et des arêtes conditionnelles à l’aide de principes de théorie des graphes, et implémenter un serveur MCP à l’aide de FastMCP pour connecter des agents à des données externes.
Affectif : Valoriser l’importance de l’exécution cyclique et de la gestion d’état pour imiter les workflows cognitifs humains complexes.

🔹 Leçon 1 : Introduction aux LLM : De la notion à la réalité

Aperçu : ## 1. La configuration La grande question : L’ingénierie des grands modèles linguistiques n’est-elle qu’un art de « l’ingénierie de prompts », ou exige-t-elle une compréhension rigoureuse et complète des évolutions mathématiques et architecturales qui ont mené à sa création ?

Objectifs d’apprentissage (SWBAT) :

Cognitif : Comprendre les piliers mathématiques du ML (algèbre linéaire, calcul, probabilités) et la lignée historique des architectures neuronales depuis les Perceptrons jusqu’aux LSTM.
Basé sur des compétences : Naviguer sur des serveurs distants à l’aide de commandes shell Unix et implémenter des graphes computationnels élémentaires à l’aide de moteurs de différentiation automatique.
Affectif : Valoriser l’importance du "fondement théorique" par rapport à l'"abstraction prématurée" lors du débogage de systèmes complexes comme les explosions de gradients.

2. Composantes de connaissance essentielles (Les ingrédients)

A. Concepts clés (Noms) :

Flux agents
Mécaniques tensorielles sous-architecturales
Alignement post-formation
Protocoles d’orchestration agente distribués
Espaces vectoriels de haute dimension
Décomposition en valeurs propres
Rétropropagation
Tenseurs multidimensionnels (PyTorch)
Graphes computationnels
Théorème d’approximation universelle
Problème du gradient qui disparaît
Mécanisme d’attention

B. Principes fondamentaux (Règles) :

Fondation incontournable : L’ingénierie des LLM ne peut être maîtrisée par les API seules ; elle requiert un calcul et une algèbre linéaire sous-jacents pour l’optimisation matérielle et le débogage.
Théorème d’approximation universelle : Un réseau feed-forward avec une seule couche cachée peut approximer toute fonction continue (sous réserve de la taille de la couche cachée et des risques de généralisation).
Limites des RNN : Les réseaux de neurones récurrents sont limités par le problème du gradient qui disparaît et par leur incapacité intrinsèque à paralléliser le traitement des données séquentielles.

C. Compétences essentielles (Verbes) :

Déboguer les explosions de gradients.
Optimiser l’utilisation du matériel.
Implémenter des fonctions de perte personnalisées.
Effectuer des opérations vectorielles (NumPy).
Gérer les environnements de machine learning (shell Unix).
Mapper les paradigmes entrée-sortie (un-à-un, plusieurs-à-un, etc.).

3. Morceaux pédagogiques (Le flux)

Morceau 1 : Activation (La fausse idée de l’API) Activité : Discussion autour d’une étude de cas sur le "point de rupture" de l’éducation en IA moderne. Analyser les risques des "enveloppes de haut niveau" et discuter des scénarios où les connaissances API sont insuffisantes (ex. : transition des architectures monolithiques vers des microservices localisés).

Morceau 2 : Acquisition (Le socle mathématique et historique) Contenu : Conférence sur les quatre piliers (algèbre linéaire, probabilités, statistiques, calcul multivariable). Suivre la lignée architecturale depuis le Perceptron de 1958, jusqu’aux réseaux feed-forward, puis les limites des RNN/LSTM.

Morceau 3 : Pratique (Fluidité programmative) Activité : Laboratoire de codage pratique. Aller au-delà de la syntaxe Python pour se concentrer sur les opérations vectorielles dans NumPy. Utiliser "micrograd" d’Andrej Karpathy pour construire un MLP de base et visualiser le flux des gradients à travers un réseau pendant l’optimisation.

Morceau 4 : Application (Cartographie des paradigmes) Activité : Analyse structurelle de la cartographie des données. Les élèves doivent catégoriser diverses tâches du monde réel (ex. : classification binaire vs. traduction automatique) selon les paradigmes entrée-sortie : un-à-un, plusieurs-à-un, un-à-plusieurs, plusieurs-à-plusieurs.

4. Révision et extension

Malentendus :

Le mythe du "coup de génie" : L'idée que les LLM sont des découvertes isolées plutôt que la culmination de décennies de recherche.
Le raccourci API : La fausse idée qu’on peut devenir ingénieur système sans comprendre intimement la multiplication matricielle et les dérivées partielles.

Différenciation :

Support : Utiliser des aides visuelles (ex. : série sur les réseaux de neurones de 3Blue1Brown) et des outils d’intuition géométrique pour les espaces à haute dimension.
Défi : Passer des tableaux standards aux tenseurs multidimensionnels dans PyTorch pour implémenter des modèles de début de manière autonome.

Résultats d’apprentissage :

Cognitif : Comprendre les piliers mathématiques du ML (algèbre linéaire, calcul, probabilités) et la lignée historique des architectures neuronales depuis les Perceptrons jusqu’aux LSTM.
Basé sur des compétences : Naviguer sur des serveurs distants à l’aide de commandes shell Unix et implémenter des graphes computationnels élémentaires à l’aide de moteurs de différentiation automatique.
Affectif : Valoriser l’importance du "fondement théorique" par rapport à l'"abstraction prématurée" lors du débogage de systèmes complexes comme les explosions de gradients.

🔹 Leçon 2 : Sous le capot : Comment les LLM traitent et prédisent le texte

Aperçu : # Sous le capot : Comment les LLM traitent et prédisent le texte

1. La configuration

La grande question : Comment combler l’écart entre "lire passivement" des articles académiques et atteindre une véritable compréhension ingénierie du cœur mathématique d’un Transformer ?

Objectifs d’apprentissage (SWBAT) :

Cognitif : Comprendre la justification mathématique de l’attention à produit scalaire mis à l’échelle, notamment l’utilisation de facteurs d’échelle pour stabiliser les gradients et éviter le problème des gradients "infinitésimaux" dans les fonctions softmax.
Basé sur des compétences : Implémenter un Transformer générativement pré-entraîné (GPT) de zéro en Python et PyTorch, passant des mécanismes basés sur des boucles vers des multiplications matricielles hautement parallélisées.
Affectif : Valoriser l’importance de l’implémentation ligne par ligne plutôt que la lecture théorique pour démystifier l’"opacité inhérente" des espaces latents à haute dimension.

2. Composantes de connaissance essentielles (Les ingrédients)

A. Concepts clés (Noms) :

Architectures : Transformer (Vaswani et al.), BERT (représentations bidirectionnelles encodées par Transformers), architectures uniquement encodeuses, Transformer générativement pré-entraîné (GPT), Mixture-of-Experts (MoE).
Mécanismes : Attention auto, attention à produit scalaire mise à l’échelle, attention multi-têtes, génération autoregressive.
Structures de données : Matrices Query (Q), Key (K), Value (V) ; vecteurs denses ; vecteurs d’embedding ; espaces latents.
Composants : Tokeniseurs Byte Pair Encoding (BPE), encodages positionnels (fonctions sinus/cosinus), réseaux feed-forward, connexions résiduelles, Normalisation par couche (LayerNorm).
Fonctionnalités avancées : Mémoire clé-valeur (KV), attention groupée.

B. Principes fondamentaux (Règles) :

Règle d’échelle : Le score brut d’attention doit être divisé par la racine carrée de la taille de la dimension clé pour empêcher les produits scalaires de croître excessivement.
Injection de séquence : Une codification manuelle des fonctions sinus et cosinus est nécessaire pour injecter l’ordre de séquence dans le modèle.
Règle de stabilité : Les connexions résiduelles et la LayerNorm doivent être appliquées pour lutter contre le changement interne des covariates et assurer la stabilité de l’entraînement.
Optimisation : Passer des boucles naïves aux multiplications matricielles est essentiel pour la parallélisation.

C. Compétences essentielles (Verbes) :

Désassembler : Découper l’architecture Transformer en ses mécanismes fondamentaux.
Implémenter : Écrire des tokeniseurs, des matrices QKV et des réseaux feed-forward de zéro.
Formuler : Définir mathématiquement et programmatiquement les scores d’attention.
Suivre : Visualiser le parcours depuis les mots bruts jusqu’aux tokens puis aux vecteurs d’embedding à l’aide d’outils interactifs.
Accélérer : Utiliser le cache KV pour accélérer l’inférence.

3. Morceaux pédagogiques (Le flux)

Morceau 1 : Activation (Visualiser l’opacité) Activité : Exploration interactive. Les élèves utilisent des outils comme "Transformer Explainer" ou "AnimatedLLM" pour saisir des phrases et observer les interactions internes en temps réel. Cela répond au "défi pédagogique" de l’opacité des espaces latents.

Morceau 2 : Acquisition (Fondement mathématique) Contenu : Engagement algorithmique approfondi avec "Attention Is All You Need". Concentration sur la formulation des matrices Q, K et V et les mathématiques spécifiques derrière le facteur d’échelle (\sqrt{d_k}) utilisé pour stabiliser les gradients.

Morceau 3 : Pratique (Désassemblage programmé) Activité : Construction "de zéro". Guidés par des ressources comme "Let’s build GPT" d’Andrej Karpathy, les élèves procèdent à l’ingestion de données (ex. : jeu de données "The Wizard of Oz") et implémentent manuellement les tokeniseurs BPE et les encodages positionnels.

Morceau 4 : Application (Échelle et optimisation) Activité : Alignement architectural avancé. Les élèves transforment leur code de l’attention basée sur des boucles vers des multiplications matricielles parallélisées. Ensuite, ils intègrent des modifications d’avant-garde comme l’attention groupée et le routage MoE pour s’aligner sur les conceptions de modèles de 2026.

4. Révision et extension

Malentendus :

Théorie vs. pratique : Croire que lire la littérature académique suffit pour maîtrise ingénierie (le texte exige explicitement une implémentation ligne par ligne).
Efficacité : Utiliser des boucles naïves pour l’attention plutôt que des multiplications matricielles parallélisées.
Problèmes de gradients : Omettre le facteur d’échelle, ce qui entraîne des gradients infinitésimaux dans la fonction softmax.

Différenciation :

Support : Utiliser "The Illustrated Transformer" de Jay Alammar ou "The Annotated Transformer" de Harvard NLP pour des parcours mathématiques visuels/annotés.
Défi : Demander aux apprenants avancés d’implémenter le cache KV pour accélérer l’inférence ou de coder des mécanismes complexes de routage MoE.

Résultats d’apprentissage :

Généré

🔹 Leçon 3 : Alignement et raisonnement : Comment l’IA devient un assistant utile

Aperçu : # Alignement et raisonnement : Comment l’IA devient un assistant utile

1. La configuration

La grande question : Alors que le pré-entraînement massif devient une utilité "commoditisée", comment les ingénieurs transforment-ils un modèle de base imprévisible en un moteur de raisonnement fiable capable de suivre des intentions humaines complexes ?

Objectifs d’apprentissage (SWBAT) :

Cognitif : Expliquer les mécanismes du pipeline post-formation, y compris la distinction entre le Fine-Tuning supervisé (SFT) et les cadres d’apprentissage par renforcement (RL) comme GRPO.
Basé sur des compétences : Concevoir un pipeline d’entraînement multi-étapes — de la mise en route initiale jusqu’à l’alignement final — en utilisant des techniques de fine-tuning efficaces en paramètres comme LoRA.
Affectif : Valoriser le passage de la vision de l’IA comme une "boîte noire magique" vers un système ingénierisé composé de couches mécaniques et de raisonnement interne délibéré.

2. Composantes de connaissance essentielles (Les ingrédients)

A. Concepts clés (Noms) :

Pipeline post-formation : Phase où le comportement du modèle est façonné et aligné.
Fine-Tuning supervisé (SFT) : Entraînement sur des paires instruction-réponse soigneusement sélectionnées.
Fine-tuning efficace en paramètres (PEFT) : Méthodes comme LoRA et QLoRA qui injectent des matrices de décomposition entraînables tout en gelant les poids originaux.
Chaîne de raisonnement (CoT) : Une phase de réflexion interne avant de produire la sortie finale.
Optimisation politique relative par groupe (GRPO) : Cadre qui élimine le "modèle critique" en notant les réponses par rapport à une moyenne de groupe.
Stratégies d’évolution (ES) : Alternative à la rétropropagation qui mute et recombine les paramètres.

B. Principes fondamentaux (Règles) :

Règle de contrainte matériel : Les mises à jour de tous les paramètres sont informatiquement prohibitives ; le PEFT est requis pour les matériels grand public.
Règle d’efficacité GRPO : L’apprentissage par renforcement moderne peut éliminer les modèles d’évaluateurs mémoire-intensifs en utilisant des systèmes de récompense automatisés et basés sur des règles.
Règle du pipeline de raisonnement : Construire des modèles de raisonnement exige une séquence spécifique de quatre étapes : mise en route initiale, RL pur, génération de données synthétiques, et SFT secondaire.

C. Compétences essentielles (Verbes) :

Fine-tuner : Adapter les modèles à des domaines spécifiques (ex. : médical ou juridique).
Injecter : Insérer des matrices de décomposition dans les couches du transformer.
Noter : Évaluer la cohérence logique et la correction mathématique via des systèmes automatisés.
Mutate : Modifier itérativement les paramètres du modèle pour optimiser les tâches à long terme.

3. Morceaux pédagogiques (Le flux)

Morceau 1 : Activation (Briser la boîte noire)

Activité : Exploration en laboratoire numérique. Utiliser des outils de visualisation (ex. : Transformer Explainer, 3D LLM Walkthrough) pour observer en temps réel le calcul des scores d’attention et la distribution des logits.
Objectif : Combler l’écart entre "algèbre matricielle" et l’"interface magique" des assistants IA.

Morceau 2 : Acquisition (L’architecture post-formation)

Contenu : Approfondissement du SFT et du PEFT. Contrairement au coût prohibitif des mises à jour de tous les paramètres, souligner l’efficacité de LoRA/QLoRA.
Modèles clés : Examen des architectures de Llama 3.2, Qwen3 et Gemma comme cibles pour créer des assistants sur mesure.

Morceau 3 : Pratique (La révolution du raisonnement)

Activité : Cartographie du pipeline DeepSeek-R1. En petits groupes, les élèves doivent diagrammer le processus d’entraînement en quatre étapes :
1. Mise en route initiale : Prévenir la dégradation de la lisibilité.
2. RL pur : Développer des compétences CoT via GRPO.
3. Échantillonnage de rejet : Créer des jeux de données étiquetés synthétiques à partir de sorties de haute qualité.
4. Alignement final : Fusionner les données synthétiques avec des jeux de données factuels/créatifs.

Morceau 4 : Application (Échelle et robustesse)

Activité : Débat d’optimisation. Comparer l’apprentissage par renforcement (PPO/GRPO) aux stratégies d’évolution (ES).
Tâche : Déterminer quelle méthode est supérieure pour les "tâches de récompense rares et à long terme" et résistantes au "hacking de récompense" selon les recherches 2026 du Cognizant AI Lab.

4. Révision et extension

Malentendus :

La faute du "mise à jour complète" : Croire qu’un bon fine-tuning exige la mise à jour de tous les milliards de paramètres (Correction : LoRA/QLoRA y parviennent via une décomposition de rang).
La nécessité du "modèle critique" : Supposer que le RL nécessite toujours un LLM séparé comme évaluateur (Correction : GRPO utilise un scoring basé sur un groupe et des systèmes basés sur des règles).

Différenciation :

Support : Utiliser AnimatedLLM pour une conceptualisation non technique du entraînement de prédiction du mot suivant.
Défi : Implémenter un pipeline de classification de texte utilisant QLoRA sur un jeu de données spécifique (ex. : revue de contrat juridique) pour démontrer la création d’un "assistant sur mesure".

Résultats d’apprentissage :

Cognitif : Expliquer les mécanismes du pipeline post-formation, y compris la distinction entre le Fine-Tuning supervisé (SFT) et les cadres d’apprentissage par renforcement (RL) comme GRPO.
Basé sur des compétences : Concevoir un pipeline d’entraînement multi-étapes — de la mise en route initiale jusqu’à l’alignement final — en utilisant des techniques de fine-tuning efficaces en paramètres comme LoRA.
Affectif : Valoriser le passage de la vision de l’IA comme une "boîte noire magique" vers un système ingénierisé composé de couches mécaniques et de raisonnement interne délibéré.

🔹 Leçon 4 : Ingénierie de prompts et ancrage avec RAG

Aperçu : # Ingénierie de prompts et ancrage avec RAG

1. La configuration

La grande question : Comment passer des "astuces" orientées recherche à la construction d’orchestrations IA fiables, de production, qui ancrent les modèles dans des données du monde réel et des infrastructures résilientes ?

Objectifs d’apprentissage (SWBAT) :

Cognitif : Comprendre le cycle de vie du pipeline Retrieval-Augmented Generation (RAG) et la nécessité d'une orchestration multi-fournisseur de LLM pour la fiabilité en production.
Basé sur des compétences : Implémenter un parsing avancé (chunking sémantique et agence), évaluer la précision de récupération à l’aide de métriques programmées (MRR, NDCG), et concevoir des routeurs de trafic résilients pour des systèmes multi-modèles.
Affectif : Valoriser le passage des "astuces" de prompts mal définies à une discipline d’ingénierie rigoureuse incluant le contrôle de version et la sensibilisation à la cybersécurité.

2. Composantes de connaissance essentielles (Les ingrédients)

A. Concepts clés (Noms) :

Infrastructure RAG : Modèles d’embeddings denses, représentations vectorielles de haute dimension, bases de données vectorielles spécialisées (Pinecone, Deep Lake, Milvus), FAISS, graphes HNSW.
Méthodes de découpage : Chunking sémantique, chunking chevauchant, chunking agence.
Métriques d’évaluation : Recall@K, Precision@K, Mean Reciprocal Rank (MRR), Normalized Discounted Cumulative Gain (NDCG).
Architectures avancées : Génération augmentée par cache (CAG), routage multi-requête, RAG hiérarchique, RAG multimodal.
Orchestration et prompts : LLMOps, contrôleurs de trafic (routeurs), couches de passerelle unifiées, échafaudages de raisonnement, vulnérabilités adversariales, contrôle de version des prompts.

B. Principes fondamentaux (Règles) :

Nécessité d’ancrage : Les LLM souffrent intrinsèquement d’hallucinations et de coupures de connaissances temporelles ; le RAG est nécessaire pour les connecter à des bases de connaissances externes.
Résilience architecturale : Reposer sur un seul fournisseur d’API tiers est une vulnérabilité critique ; les systèmes doivent implémenter une orchestration multi-fournisseur et une logique de basculement automatique.
Rigueur d’ingénierie : L’ingénierie de prompts doit passer des "astuces" à une discipline formelle incluant des spécifications de sortie rigoureuses (ex. : JSON valide) et des étapes séquentielles explicites.

C. Compétences essentielles (Verbes) :

Ingestion : Convertir du texte non structuré en représentations vectorielles via des modèles d’embeddings denses.
Analyser : Diviser le texte selon le sens (sémantique) ou des points de rupture déterminés par l’IA (agence), plutôt que selon le nombre de caractères.
Quantifier : Mesurer rigoureusement la précision de récupération à l’aide de suites de tests programmées.
Router : Diriger dynamiquement les prompts vers des modèles (ex. : Claude 3.5 Sonnet vs. open-source) selon le coût, la latence et la profondeur de raisonnement.
Sécuriser : Identifier et atténuer les vulnérabilités adversariales où la logique de formatage est utilisée pour contourner les barrières.

3. Morceaux pédagogiques (Le flux)

Morceau 1 : Activation (La réalité de production) Activité : "L’audit 2026." Les participants examinent un scénario où un script LLM basé sur une API simple échoue à cause d’une coupure de connaissances ou d’une indisponibilité du fournisseur. Discussion : Pourquoi les "modèles bruts" sont-ils insuffisants pour le logiciel de production ?

Morceau 2 : Acquisition (RAG avancé & LLMOps) Contenu : Conférence sur le cycle de vie du RAG : de l’ingestion des données aux bases de données vectorielles (FAISS/HNSW). Contraster le découpage fixe naïf avec le chunking sémantique et agence. Introduction d’architectures hautement optimisées comme Cache-Augmented Generation (CAG).

Morceau 3 : Pratique (Métriques et routage) Activité : "Le laboratoire de l’évaluateur." Donné un jeu de données, les participants choisissent et justifient l’utilisation de métriques spécifiques (MRR vs. NDCG) pour quantifier le succès de la récupération. Ensuite, concevoir une carte de "logique de routage" qui détermine si envoyer une requête vers un modèle de raisonnement avancé (comme OpenAI o3-mini) ou vers un modèle open-source rentable.

Morceau 4 : Application (Conception du système résilient) Activité : "Ingénierie du pipeline." Les participants rédigent une architecture système pour un environnement à haut risque. La conception doit inclure : 1. Un pipeline RAG avec un chunking agence. 2. Une couche de passerelle unifiée avec une logique de basculement automatique. 3. Un guide d’ingénierie de prompts utilisant des échafaudages de raisonnement et des spécifications de sortie JSON rigoureuses.

4. Révision et extension

Malentendus :

Le découpage de taille fixe est "suffisant" : La réalité exige un découpage sémantique ou agence pour préserver le contexte aux frontières.
L’ingénierie de prompts est juste de la réécriture créative : La réalité exige qu’elle soit une discipline formelle avec contrôle de version et flux explicites.
Le RAG concerne uniquement la recherche de texte : Le RAG moderne implique une intégration multimodale (image et texte) et un caching optimisé (CAG).

Différenciation :

Support : Se concentrer sur la transition des "astuces" vers des modèles de formatage simples et des métriques de récupération de base.
Défi : Demander aux apprenants avancés de combiner ingénierie de prompts et cybersécurité IA en concevant un système pour détecter/prévenir les exploits de formatage adversarial.

Résultats d’apprentissage :

Généré

🔹 Leçon 5 : Confidentialité, éthique et navigation des modèles open source

Aperçu : # Confidentialité, éthique et navigation des modèles open source

1. La configuration

La grande question : À une époque de LLM cloud à haute performance, pourquoi le passage au déploiement local et aux "poids ouverts" devient-il une exigence incontournable pour l’IA de niveau entreprise ?

Objectifs d’apprentissage (SWBAT) :

Cognitif : Différencier les modèles "open source" (définition OSI) et ceux à "poids ouverts", et identifier les trois principaux moteurs du déploiement local (confidentialité, coût, capacité hors ligne).
Basé sur des compétences : Mapper les besoins de production (comme l’augmentation de connaissances ou la fiabilité des prompts) à des solutions d’orchestration spécifiques telles que les bases de données vectorielles, les routeurs de secours et le red teaming.
Affectif : Valoriser l’importance des contraintes de confidentialité des données et des tests de sécurité éthique dans le développement professionnel de l’IA.

2. Composantes de connaissance essentielles (Les ingrédients)

A. Concepts clés (Noms) :

Bases de données vectorielles : Pinecone, Deep Lake.
Composants d’infrastructure : Modèles d’embedding, routeurs de secours, passerelles.
Métriques d’évaluation : MRR (Mean Reciprocal Rank), Precision@K, Juge LLM.
Catégories de licence : Open Source (définition OSI), Poids ouverts.
Outils de sécurité : Red Teaming, contrôle de version, spécifications de format de sortie.

B. Principes fondamentaux (Règles) :

Principe d’ancrage : Les systèmes doivent ancrer les réponses dans des données privées spécifiques pour réduire drastiquement les taux d’hallucination.
Nécessité de déploiement : La confidentialité stricte d’entreprise, les coûts cumulés de tokens et les besoins hors ligne rendent le déploiement local essentiel.
Nuance de licence : Un modèle n’est "open source" que s’il inclut le code d’entraînement et des droits non restreints ; sinon, il est "à poids ouverts".
Règle de résilience : Les systèmes d’entreprise doivent acheminer les prompts dynamiquement pour optimiser le coût et la disponibilité.

C. Compétences essentielles (Verbes) :

Orchestrer : Gérer des systèmes multi-fournisseurs et des passerelles.
Évaluer : Mettre en œuvre des pipelines automatisés pour surveiller la précision de récupération et la qualité de génération.
Différencier : Clarifier les nuances de licence entre différents types de modèles.
Sécuriser : Effectuer des tests de vulnérabilités adversariales (red teaming).

3. Morceaux pédagogiques (Le flux)

Morceau 1 : Activation (Pourquoi l’IA locale ?) Activité : "Audit coût-confidentialité." Les élèves analysent un scénario hypothétique où une entreprise subit des factures de tokens exorbitantes et une fuite de données. Discuter comment le déploiement local résout ces "problèmes de phase 5".

Morceau 2 : Acquisition (Architecture de la solution) Contenu : Décortication du tableau des besoins de production. * Augmentation des connaissances : Utilisation de bases de données vectorielles pour réduire les hallucinations. * Disponibilité : Utilisation de routeurs de secours pour maintenir la disponibilité. * Sécurité : Utilisation du red teaming et du contrôle de version. * Évaluation : Comprendre les métriques MRR et Precision@K.

Morceau 3 : Pratique (Licence et logique) Activité : "Tri Open Source vs. Poids ouverts." Étant donné une liste de caractéristiques de modèle (ex. : "Paramètres publics", "Code d’entraînement inclus", "Restrictions commerciales"), les élèves doivent les catégoriser correctement selon les définitions fournies.

Morceau 4 : Application (Conception du système) Activité : "Plan de pipeline résilient." Les élèves conçoivent une architecture système de haut niveau qui inclut un modèle d’embedding pour ancrer les données privées et un pipeline LLM-as-a-Judge pour un suivi continu.

4. Révision et extension

Malentendus :

Le mythe du "Open" : Supposer qu’un modèle avec des paramètres publics est "open source". (Correction : Il peut être seulement "à poids ouverts" si le code d’entraînement ou les droits sont restreints).
Supériorité du cloud : Supposer que les modèles cloud sont toujours meilleurs. (Correction : Les modèles locaux sont essentiels pour l’échelle, le contrôle des coûts et la confidentialité).

Différenciation :

Support : Fournir un glossaire pour les métriques d’évaluation (MRR, Precision@K) pour les élèves nouveaux en science des données.
Défi : Demander aux développeurs expérimentés de concevoir une logique d’orchestration "Multi-Fournisseur" qui passe entre modèles locaux et cloud en fonction de la "Precision@K" par rapport au "Coût de tokens".

Résultats d’apprentissage :

Généré

🔹 Leçon 6 : Flux agents : Automatisation de tâches complexes

Aperçu : # Flux agenets : Automatisation de tâches complexes

1. La configuration

La grande question : Comment passer des systèmes IA qui ne font que générer du texte en une seule passe à des agents autonomes capables de raisonner, d’utiliser des outils et de collaborer à travers des microservices distribués ?

Objectifs d’apprentissage (SWBAT) :

Cognitif : Comparer les cadres d’intégration linéaire avec les orchestrations cycliques basées sur des graphes, et différencier les protocoles d’intégration verticale (MCP) et horizontale (A2A).
Basé sur des compétences : Définir des nœuds spécialisés et des arêtes conditionnelles à l’aide de principes de théorie des graphes, et implémenter un serveur MCP à l’aide de FastMCP pour connecter des agents à des données externes.
Affectif : Valoriser l’importance de l’exécution cyclique et de la gestion d’état pour imiter les workflows cognitifs humains complexes.

2. Composantes de connaissance essentielles (Les ingrédients)

A. Concepts clés (Noms) :

Caractéristiques des agents IA : Autonomie, utilisation d’outils, mémoire, raisonnement.
Cadres d’orchestration : LangGraph, CrewAI (vs. LangChain ancien).
Architecture de graphe : Nœuds (tâches/appels d’outils), arêtes conditionnelles (chemins décisionnels), schémas d’état (Python TypedDict).
Protocoles d’interopérabilité : Protocole de contexte de modèle (MCP), Protocole Agent2Agent (A2A).
Outils de déploiement : Ollama (CLI), LM Studio (GUI), FastMCP, LocalAI.
Modèles : Llama 3, Qwen2.5, DeepSeek-R1 (quantifié).

B. Principes fondamentaux (Règles) :

Changement de paradigme : Passer des génération statiques et à une seule passe à des flux hautement autonomes et orientés vers des objectifs.
Exécution cyclique : Les agents doivent effectuer une action, évaluer le résultat, et revenir en boucle pour corriger les erreurs ou recueillir des informations.
Intégration verticale vs. horizontale : MCP agit comme un "USB-C" pour connecter les modèles aux données (verticale) ; A2A agit comme un langage commun pour la communication inter-agent à travers des écosystèmes (horizontale).
Architecture des microservices : MCP et A2A sont complémentaires, pas concurrents.

C. Compétences essentielles (Verbes) :

Orchestrer : Gérer des chaînes de logique complexes et des boucles décisionnelles étatiques.
Déployer : Exécuter des modèles locaux sur du matériel grand public avec une latence nulle.
Exposer : Fournir des outils (API), des ressources (données en lecture seule) et des prompts via des serveurs MCP.
Négocier : Permettre à des agents indépendants de découvrir des capacités et de partager des résultats structurés de manière programme.

3. Morceaux pédagogiques (Le flux)

Morceau 1 : Activation (De statique à agence) Activité : Comparer une interaction standard prompt-réponse avec une tâche multi-étapes (ex. : "Rechercher un sujet et rédiger un rapport"). Les élèves identifient les quatre caractéristiques agenets fondamentales (Autonomie, utilisation d’outils, mémoire, raisonnement) nécessaires pour automatiser la dernière.

Morceau 2 : Acquisition (Évolution des cadres et théorie des graphes) Contenu : Conférence sur les limites des séquences linéaires (LangChain ancien) dans la gestion des boucles de prise de décision. Introduire les principes de LangGraph : définir des nœuds pour les tâches et des arêtes conditionnelles pour le contrôle de flux. Expliquer comment TypedDict de Python maintient l’état à travers ces étapes pour garantir que l’"histoire des décisions" soit conservée.

Morceau 3 : Pratique (Intégration verticale avec MCP) Activité : Module pratique utilisant FastMCP en Python. Les élèves construisent un serveur MCP local qui expose trois capacités (Outils, Ressources, Prompts). Ils connecteront un agent à une base de données PostgreSQL locale ou à une API en direct (comme Hacker News) pour démontrer l’extension des capacités au-delà des données d’entraînement statiques.

Morceau 4 : Application (Orchestration horizontale avec A2A) Activité : Concevoir une architecture de microservices où un "agent recherche" (basé sur LangGraph) utilise MCP pour accéder aux données, puis utilise le protocole A2A pour communiquer ses résultats à un "agent décisionnel" (sur un serveur séparé). Pratiquer l’utilisation des Server-Sent Events (SSE) pour les mises à jour en streaming entre ces agents.

4. Révision et extension

Malentendus :

Linéarité : Les élèves pensent souvent qu’une simple séquence de prompts est un "agent". L’instruction doit insister sur le fait que les agents nécessitent une exécution cyclique et une logique conditionnelle.
Compétition de protocole : Préciser que MCP et A2A ne sont pas des rivaux ; l’un gère l’accès interne aux outils (MCP), tandis que l’autre gère la collaboration externe entre agents (A2A).

Différenciation :

Support : Utiliser LM Studio son interface graphique pour aider les élèves en difficulté avec les environnements en ligne de commande à découvrir et ajuster des modèles.
Défi : Les développeurs expérimentés doivent implémenter LocalAI comme remplacement immédiat de l’API OpenAI ou utiliser text-generation-webui pour intégrer des extensions de plugin étendues à leurs flux agenets.

Résultats d’apprentissage :

Cognitif : Comparer les cadres d’intégration linéaire avec les orchestrations cycliques basées sur des graphes, et différencier les protocoles d’intégration verticale (MCP) et horizontale (A2A).
Basé sur des compétences : Définir des nœuds spécialisés et des arêtes conditionnelles à l’aide de principes de théorie des graphes, et implémenter un serveur MCP à l’aide de FastMCP pour connecter des agents à des données externes.
Affectif : Valoriser l’importance de l’exécution cyclique et de la gestion d’état pour imiter les workflows cognitifs humains complexes.

🔹 Leçon 7 : Projet final : Construction de votre système personnel de productivité LLM

Aperçu : # Projet final : Construction de votre système personnel de productivité LLM

1. La configuration

La grande question : Comment passer du statut de consommateur passif d’intelligence artificielle à celui d’architecte principal capable de construire des systèmes IA robustes, résilients et autonomes ?

Objectifs d’apprentissage (SWBAT) :

Cognitif : Comprendre les complexités architecturales des protocoles de communication agenets (LangGraph, MCP, A2A) et les fondements mathématiques de l’alignement post-formation (Optimisation Politique Relative par Groupe).
Basé sur des compétences : Construire un portefeuille complet allant de pipelines NLP locaux et applications RAG sécurisées à des systèmes d’entreprise distribués multi-agents.
Affectif : Développer une "intuition d’ingénierie" en allant au-delà des APIs cloud superficielles pour affronter les mécanismes de bas niveau de manipulation de tenseurs et d’orchestration distribuée.

2. Composantes de connaissance essentielles (Les ingrédients)

A. Concepts clés (Noms) :

Protocoles : Protocole de contexte de modèle (MCP), bus de communication Agent-à-Agent (A2A).
Architectures : Pipeline NLP fondamental, Architecture RAG avancée, Flux agenets autonomes, Capstone systèmes distribués.
Outils : Hugging Face (transformers/datasets), Ollama, LM Studio, Pinecone (base de données vectorielle), LangGraph.
Métriques : MRR (Mean Reciprocal Rank), Precision@K.
Modèles : Modèles open source quantifiés, DeepSeek V3/R1, Modèles vision-langage-action.

B. Principes fondamentaux (Règles) :

Application empirique : Les connaissances théoriques s’effacent sans application rigoureuse et empirique dans des bases de code vérifiables publiquement.
Réduction des hallucinations : Les systèmes RAG locaux doivent utiliser des suites d’évaluation automatisées pour prouver empiriquement la réduction des hallucinations comparativement aux modèles de base.
Trajectoire de complexité : Les compétences doivent être développées progressivement, reliant l’algèbre linéaire et la manipulation de tenseurs à l’orchestration de haut niveau de systèmes.
Éducation continue : La maîtrise en ingénierie exige de rester à jour avec les articles fondateurs (ICLR/ICML) et les rapports techniques.

C. Compétences essentielles (Verbes) :

Tokeniser : Convertir des jeux de données textuelles personnalisés pour la consommation par le modèle.
Chunker : Implémenter des stratégies avancées de découpage chevauchant pour de grandes corpora.
Déléguer : Utiliser les protocoles A2A pour transférer des tâches entre agents spécialisés (ex. : Agent triage → Agent données).
Interroger : Accéder en toute sécurité à des bases de données SQL simulées via des serveurs MCP dédiés.
Raisonner : Construire des boucles autonomes qui effectuent des vérifications internes jusqu’à ce qu’un rapport soit prêt à publication.

3. Morceaux pédagogiques (Le flux)

Morceau 1 : Activation (Le passage à l’ingénierie experte) Activité : Discussion "Au-delà du prompt". Contraster les limites de l’ingénierie de prompts basique et des APIs cloud propriétaires avec les exigences de l’ingénierie "expert" (théorie mathématique, manipulation de tenseurs, systèmes distribués).

Morceau 2 : Acquisition (Littérature et fondations techniques) Contenu : Approfondissement des articles fondateurs et rapports techniques. Les élèves étudient les percées ICLR/ICML et les rapports techniques DeepSeek V3/R1 pour comprendre les "frontières" de l’architecture de modèle et des techniques d’alignement comme l’Optimisation Politique Relative par Groupe.

Morceau 3 : Pratique (Construction progressive du projet) Activité 1 : Le pipeline NLP : Charger localement un modèle pré-entraîné pour exécuter la génération et la classification de texte (ex. : prédiction de churn client). Activité 2 : L’architecte RAG : Construire un RAG local à l’aide d’Ollama/LM Studio et Pinecone. Les élèves doivent implémenter un découpage chevauchant et utiliser MRR/Precision@K pour mesurer les performances.

Morceau 4 : Application (Capstone systèmes distribués) Activité : Déploiement du système "Triage-Data Agent". Construire un environnement multi-agents où un "agent triage" principal reçoit des requêtes et utilise le protocole A2A pour déléguer des requêtes sécurisées à une "agent données" exécutant sur un processus séparé via un serveur MCP.

4. Révision et extension

Malentendus :

Le piège de l’API : La croyance que l’appel d’API cloud propriétaires est équivalent à l’ingénierie IA.
Q&A statique : Penser que les systèmes IA sont limités à des questions-réponses statiques plutôt qu’à des workflows agenets autonomes et multi-étapes.
Théorie vs. pratique : Supposer que lire des articles est suffisant sans développer des "bases de code vérifiables publiquement".

Différenciation :

Support : Utiliser des ressources visuelles telles que "LLM Transformer Model Visually Explained" et des visualisations interactives (AnimatedLLM) pour comprendre les opérations mécaniques comme le flux de tenseurs et la tokenisation.
Défi : Passer des agents basiques à la construction de "flux agenets autonomes" spécialisés qui décident dynamiquement d’utiliser des outils de recherche web ou d’exécution Python pour satisfaire des objectifs larges (ex. : analyse de rapports financiers SEC).

Modèles de Langage à Grande Échelle pour Tous : Des Bases à l'Utilisation Pratique (Édition 2026)

Leçons

Lesson

Aperçu du cours

📚 Résumé du contenu

🎯 Objectifs d'apprentissage

🔹 Leçon 1 : Introduction aux LLM : De la notion à la réalité

2. Composantes de connaissance essentielles (Les ingrédients)

3. Morceaux pédagogiques (Le flux)

4. Révision et extension

🔹 Leçon 2 : Sous le capot : Comment les LLM traitent et prédisent le texte

1. La configuration

2. Composantes de connaissance essentielles (Les ingrédients)

3. Morceaux pédagogiques (Le flux)

4. Révision et extension

🔹 Leçon 3 : Alignement et raisonnement : Comment l’IA devient un assistant utile

1. La configuration

2. Composantes de connaissance essentielles (Les ingrédients)

3. Morceaux pédagogiques (Le flux)

4. Révision et extension

🔹 Leçon 4 : Ingénierie de prompts et ancrage avec RAG

1. La configuration

2. Composantes de connaissance essentielles (Les ingrédients)

3. Morceaux pédagogiques (Le flux)

4. Révision et extension

🔹 Leçon 5 : Confidentialité, éthique et navigation des modèles open source

1. La configuration

2. Composantes de connaissance essentielles (Les ingrédients)

3. Morceaux pédagogiques (Le flux)

4. Révision et extension

🔹 Leçon 6 : Flux agents : Automatisation de tâches complexes

1. La configuration

2. Composantes de connaissance essentielles (Les ingrédients)

3. Morceaux pédagogiques (Le flux)

4. Révision et extension

🔹 Leçon 7 : Projet final : Construction de votre système personnel de productivité LLM

1. La configuration

2. Composantes de connaissance essentielles (Les ingrédients)

3. Morceaux pédagogiques (Le flux)

4. Révision et extension