Retour aux cours
AI012 Professional

Approfondissement sur les grands modèles linguistiques

Ce cours propose une introduction complète et approfondie à l'histoire du développement des grands modèles linguistiques (LLM), à leurs architectures techniques fondamentales, aux paradigmes d'entraînement (pré-entraînement, finetuning et alignement), aux extensions multimodales, à l'ingénierie des prompts, au raisonnement en chaîne de pensée, aux agents, ainsi qu'à des sujets de pointe tels que la sécurité des modèles et la protection de la vie privée.

4.9
24h
1067 étudiants
1 j'aime
Intelligence Artificielle

Aperçu du cours

📚 Résumé du contenu

Ce cours propose une introduction complète et approfondie à l'évolution des grands modèles linguistiques (LLM), à leurs architectures techniques fondamentales, aux paradigmes d'entraînement (pré-entraînement, fine-tuning et alignement), aux extensions multimodales, à l'ingénierie de prompts, au Chain of Thought (CoT), aux agents, ainsi qu'à des sujets de pointe tels que la sécurité des modèles et la protection de la vie privée.

Analyse approfondie de l'évolution technologique et de l'alignement en matière de sécurité des grands modèles intégraux, de la pré-entraînement aux agents généralistes.

🎯 Objectifs d'apprentissage

  1. Différencier les architectures de modèles : identifier les différences structurelles et les cas d'utilisation des modèles Encoder-seul, Decoder-seul et Encoder-Decoder.
  2. Expliquer le pipeline d'entraînement des LLM : décrire la transition du pré-entraînement auto-supervisé vers le Fine-Tuning supervisé (SFT) et l'Apprentissage par Renforcement à partir des retours humains (RLHF).
  3. Analyser l'échelle des modèles et leur comportement : expliquer les concepts des Lois d'Échelle, des Capacités Émergentes (apprentissage in-context, Chain of Thought) et du phénomène des Hallucinations.
  4. Analyser les différences structurelles entre les architectures Encoder-seul (BERT), Decoder-seul (GPT) et Encoder-Decoder (T5).
  5. Expliquer le processus d'entraînement en trois étapes : Pré-entraînement (modèle de base), Tuning d'instructions (SFT) et Alignement (RLHF/PPO).
  6. Comparer les performances, les lois d'échelle et les innovations architecturales des principaux LLM comme GPT, Llama, Qwen et DeepSeek.
  7. Mettre en œuvre des stratégies de prompting zéro-shot et few-shot pour l'extraction et la classification de données structurées.
  8. Calibrer les hyperparamètres du modèle (Température, Top P, Pénalités) afin d'équilibrer les sorties créatives et déterministes.
  9. Construire des prompts efficaces de Chain-of-Thought (CoT) en utilisant des méthodes manuelles, automatiques et zéro-shot ("Pensons étape par étape").
  10. Analyser et comparer les variantes de CoT : distinguer entre Self-Consistency, Program of Thought (PoT), Tree-of-Thought (ToT) et Graph-of-Thought (GoT).

🔹 Leçon 1 : Introduction aux grands modèles linguistiques et aux technologies de pré-entraînement

Aperçu : Cette leçon explore l'évolution de l'intelligence artificielle, passant des petits modèles spécialisés aux grands modèles linguistiques (LLM) polyvalents. Elle détaille le changement architectural allant des modèles basés sur Encoder « BERTology » vers les paradigmes génératifs à base de Decoder, en couvrant le pipeline technique essentiel du pré-entraînement, du tuning d'instructions et de l'alignement (RLHF). En outre, le contenu examine les familles de modèles leaders du secteur, notamment GPT, Llama, ainsi que des innovations nationales comme Qwen et DeepSeek.

Résultats d'apprentissage :

  • Différencier les architectures de modèles : identifier les différences structurelles et les cas d'utilisation des modèles Encoder-seul, Decoder-seul et Encoder-Decoder.
  • Expliquer le pipeline d'entraînement des LLM : décrire la transition du pré-entraînement auto-supervisé vers le Fine-Tuning supervisé (SFT) et l'Apprentissage par Renforcement à partir des retours humains (RLHF).
  • Analyser l'échelle des modèles et leur comportement : expliquer les concepts des Lois d'Échelle, des Capacités Émergentes (apprentissage in-context, Chain of Thought) et du phénomène des Hallucinations.

🔹 Leçon 2 : Études de cas sur les LLM courants et stratégies de déploiement

Aperçu : Cette leçon fournit un aperçu technique complet des grands modèles linguistiques (LLM), en traçant leur évolution depuis les architectures encodage-décodage de base jusqu'aux systèmes modernes multimodaux et basés sur des agents. Elle détaille le pipeline technique central – composé du pré-entraînement, du tuning d'instructions et de l'alignement – tout en évaluant des études de cas majeurs comme GPT-4, Llama 3 et DeepSeek. Le module se termine par des stratégies pratiques de déploiement (API vs local) et des cadres avancés d'ingénierie de prompts tels que RAG et ReAct.

Résultats d'apprentissage :

  • Analyser les différences structurelles entre les architectures Encoder-seul (BERT), Decoder-seul (GPT) et Encoder-Decoder (T5).
  • Expliquer le processus d'entraînement en trois étapes : Pré-entraînement (modèle de base), Tuning d'instructions (SFT) et Alignement (RLHF/PPO).
  • Comparer les performances, les lois d'échelle et les innovations architecturales des principaux LLM comme GPT, Llama, Qwen et DeepSeek.

🔹 Leçon 3 : Fondements de l'ingénierie de prompts et du Chain-of-Thought

Aperçu : Cette leçon aborde la transition avancée du prompting zéro-shot élémentaire vers un apprentissage structuré few-shot et les capacités raisonnantes émergentes du Chain-of-Thought (CoT). Les étudiants analyseront comment contrôler le comportement du modèle via des hyperparamètres techniques et des démonstrations structurées afin de résoudre des tâches complexes logiques, mathématiques et linguistiques. Le matériel se conclut par une exploration de l'apprentissage supervisé par processus et des méthodes automatisées de construction de CoT.

Résultats d'apprentissage :

  • Mettre en œuvre des stratégies de prompting zéro-shot et few-shot pour l'extraction et la classification de données structurées.
  • Calibrer les hyperparamètres du modèle (Température, Top P, Pénalités) afin d'équilibrer les sorties créatives et déterministes.
  • Construire des prompts efficaces de Chain-of-Thought (CoT) en utilisant des méthodes manuelles, automatiques et zéro-shot ("Pensons étape par étape").

🔹 Leçon 4 : Raisonnement avancé, édition de connaissances et logique mathématique

Aperçu : Cette leçon explore les variantes structurelles avancées du prompting Chain-of-Thought (CoT), les cadres techniques d'édition des connaissances dans les grands modèles linguistiques (LLM), et le domaine spécialisé du raisonnement mathématique. Elle détaille comment les modèles passent d'un raisonnement linéaire simple à des structures complexes basées sur des graphes, comment les connaissances "indésirables" sont corrigées par édition interne et externe, et les pipelines d'entraînement/évaluation des modèles mathématiques de pointe.

Résultats d'apprentissage :

  • Analyser et comparer les variantes de CoT : distinguer entre Self-Consistency, Program of Thought (PoT), Tree-of-Thought (ToT) et Graph-of-Thought (GoT).
  • Évaluer les techniques d'édition des connaissances : comprendre les métriques de Fiabilité, Localité et Portabilité, et distinguer les solutions internes (ROME) et externes (SERAC).
  • Évaluer les pipelines de logique mathématique : identifier les jeux de données d'entraînement (GSM8K, MATH, AIME) et les processus de distillation utilisés pour améliorer le raisonnement mathématique à long terme dans des modèles comme DeepSeek-Math et o1.

🔹 Leçon 5 : Sécurité du contenu, marquage et analyse des attaques "jailbreak"

Aperçu : Cette leçon explore les mécanismes techniques permettant d'identifier le contenu généré par les LLM et les défis de sécurité posés par les attaques adversariales. Elle couvre les techniques de marquage statistique (KGW, SIR, X-SIR) conçues pour résister à la traduction et à la réécriture, ainsi qu'une analyse des prompts "jailbreak" (DAN, STAN) utilisés pour contourner les gardes-fous de sécurité. Le matériel se termine par des stratégies défensives et le conflit inhérent entre l'utilité du modèle et son innocuité.

Résultats d'apprentissage :

  • Analyser les fondements mathématiques du marquage KGW et SIR, y compris la partition du vocabulaire et les ajustements invariants sémantiques.
  • Identifier et catégoriser les stratégies d'attaque "jailbreak", telles que "Faire semblant", "Montée de privilèges" et attaques basées sur des chiffres.
  • Évaluer les mesures défensives incluant la Défense In-Context (ICD), la Défense par avertissement prudent (CWD) et le Red Teaming.

🔹 Leçon 6 : Recherche sur la stéganographie des LLM et la protection de la vie privée

Aperçu : Cette leçon explore l'équilibre critique entre l'utilité et la sécurité des grands modèles linguistiques (LLM), en se concentrant sur les mécanismes des attaques "jailbreak" et la mise en œuvre technique de la stéganographie. Elle couvre comment les attaquants contournent les filtres de sécurité grâce à une ingénierie de prompts sophistiquée (ex. DAN, STAN) et comment les LLM peuvent être utilisés pour une communication discrète en intégrant des données dans le processus de génération de tokens. En outre, elle présente l'architecture et les capacités des grands modèles linguistiques multimodaux (MLLM) pour traiter et générer divers types de données comme les images, audio et vidéos.

Résultats d'apprentissage :

  • Identifier et analyser les schémas courants d'attaques "jailbreak", incluant le rôle-joué (DAN), la coercition cognitive (PUA) et les méthodes de canal latéral (chiffre/code).
  • Expliquer le mécanisme technique de la stéganographie des LLM, spécifiquement comment les flux binaires sont cartographiés sur la distribution de probabilité (logits) des prédictions du prochain token.
  • Catégoriser les architectures MLLM selon leur capacité à percevoir et à générer à travers plusieurs modalités (Texte, Image, Audio, 3D).

🔹 Leçon 7 : Architecture et conception avancées des LLM multimodaux

Aperçu : Cette leçon explore l'infrastructure technique des grands modèles linguistiques multimodaux (MLLM), en mettant l'accent sur les mécanismes d'encodage, de projection et de décodage qui permettent une intelligence transmodale. Elle détaille la transition des encodeurs spécifiques à chaque modalité vers des espaces de représentation unifiés et analyse les différentes méthodes utilisées pour combler l'écart entre les signaux non textuels et les espaces sémantiques des LLM.

Résultats d'apprentissage :

  • Identifier les encodeurs spécialisés et les méthodes de tokenisation pour les modalités non visuelles, notamment l'audio (HuBERT, Whisper) et les nuages de points 3D (Point-BERT).
  • Évaluer différentes techniques de projection côté entrée (Linéaire, MLP multi-couches, Resamplers) utilisées pour aligner les représentations multimodales avec les espaces sémantiques des LLM.
  • Comparer les trois principales stratégies de connexion côté décodage : tokens discrets, embeddings continus et codebooks pour la génération multimodale.

🔹 Leçon 8 : Agents autonomes, RLHF et alignement en matière de sécurité

Aperçu : Cette leçon explore l'évolution des agents GUI (interface graphique) passant d'une exécution de tâches statiques à une prise de décision autonome dans des environnements dynamiques. Elle détaille les architectures techniques des agents open-source et closed-source, l'intégration de l'Apprentissage par Renforcement à partir des retours humains (RLHF) et de l'Optimisation de Politique Proximale (PPO) pour l'alignement des politiques, ainsi que les défis critiques de sécurité — allant des injections de prompts environnementales aux backdoors de modèles — qui nécessitent des cadres de défense robustes comme GuardAgent et R-Judge.

Résultats d'apprentissage :

  • Analyser les composants architecturaux des agents GUI, y compris les modules de planification, de prise de décision et de réflexion dans les systèmes multi-agents.
  • Expliquer les mécanismes de l'Apprentissage par Renforcement (RL) et du RLHF, en particulier le rôle des modèles de récompense et du PPO dans l'alignement du comportement de l'agent avec les valeurs humaines.
  • Évaluer les risques de sécurité et les problèmes de fiabilité des agents autonomes, incluant les erreurs Out-of-Distribution (OOD), les attaques "jailbreak" et les distractions environnementales.