Retour aux cours
AI012 Professional

Approfondissement sur les grands modèles de langage

Ce cours propose une introduction complète et approfondie à l'histoire du développement des modèles de langage à grande échelle (LLM), à leurs architectures techniques fondamentales, aux paradigmes d'entraînement (pré-entraînement, fine-tuning et alignement), aux extensions multimodales, à l'ingénierie des prompts, au raisonnement en chaîne de pensée, aux agents, ainsi qu'à des sujets de pointe tels que la sécurité des modèles et la protection de la vie privée.

4.9
24.0h
1067 étudiants
0 j'aime
Intelligence Artificielle
Commencer à apprendre

Aperçu du cours

📚 Résumé du contenu

Ce cours propose une introduction complète et approfondie à l'évolution des grands modèles linguistiques (LLM), à leurs architectures techniques fondamentales, aux paradigmes d'entraînement (pré-entraînement, fine-tuning et alignement), aux extensions multimodales, à l'ingénierie de prompts, au Chain of Thought (CoT), aux agents, ainsi qu'à des sujets de pointe tels que la sécurité des modèles et la protection de la vie privée.

Analyse approfondie de l'évolution technologique et de l'alignement en matière de sécurité des grands modèles intégraux, de la pré-entraînement aux agents généralistes.

🎯 Objectifs d'apprentissage

  1. Différencier les architectures de modèles : identifier les différences structurelles et les cas d'utilisation des modèles Encoder-seul, Decoder-seul et Encoder-Decoder.
  2. Expliquer le pipeline d'entraînement des LLM : décrire la transition du pré-entraînement auto-supervisé vers le Fine-Tuning supervisé (SFT) et l'Apprentissage par Renforcement à partir des retours humains (RLHF).
  3. Analyser l'échelle des modèles et leur comportement : expliquer les concepts des Lois d'Échelle, des Capacités Émergentes (apprentissage in-context, Chain of Thought) et du phénomène des Hallucinations.
  4. Analyser les différences structurelles entre les architectures Encoder-seul (BERT), Decoder-seul (GPT) et Encoder-Decoder (T5).
  5. Expliquer le processus d'entraînement en trois étapes : Pré-entraînement (modèle de base), Tuning d'instructions (SFT) et Alignement (RLHF/PPO).
  6. Comparer les performances, les lois d'échelle et les innovations architecturales des principaux LLM comme GPT, Llama, Qwen et DeepSeek.
  7. Mettre en œuvre des stratégies de prompting zéro-shot et few-shot pour l'extraction et la classification de données structurées.
  8. Calibrer les hyperparamètres du modèle (Température, Top P, Pénalités) afin d'équilibrer les sorties créatives et déterministes.
  9. Construire des prompts efficaces de Chain-of-Thought (CoT) en utilisant des méthodes manuelles, automatiques et zéro-shot ("Pensons étape par étape").
  10. Analyser et comparer les variantes de CoT : distinguer entre Self-Consistency, Program of Thought (PoT), Tree-of-Thought (ToT) et Graph-of-Thought (GoT).

Leçons