AI012 Professional

Глубокое погружение в большие языковые модели

Этот курс предоставляет всестороннее и глубокое введение в историю разработки больших языковых моделей (LLM), их основные технические архитектуры, парадигмы обучения (предобучение, дообучение и выравнивание), многофункциональные расширения, инженерию подсказок, рассуждения по цепочке мыслей, агенты, а также передовые темы, такие как безопасность модели и защита конфиденциальности.

4.9

24.0h

1067 учеников

0 лайки

Искусственный интеллект

Начать обучение

Уроки

Lesson

1 Lesson 1

2 Lesson 2

3 Lesson 3

4 Lesson 4

5 Lesson 5

6 Lesson 6

7 Lesson 7

8 Lesson 8

Обзор курса

📚 Краткое содержание

Этот курс предлагает всестороннее и глубокое введение в эволюцию больших языковых моделей (LLM), основные технические архитектуры, парадигмы обучения (предобучение, дообучение и выравнивание), многомодальные расширения, инженерию промтов, цепочку рассуждений (CoT), агенты, а также передовые темы, такие как безопасность моделей и защита конфиденциальности.

Глубокий анализ технологической эволюции и выравнивания по безопасности полносистемных крупных моделей — от предобучения до общих агентов.

🎯 Цели обучения

Различать архитектуры моделей: определить структурные различия и области применения моделей только с кодировщиком, только с декодером и с кодировщиком-декодером.
Объяснить процесс обучения LLM: описать переход от самообучения к обучению с учителем (SFT) и обучению с подкреплением от обратной связи человека (RLHF).
Проанализировать масштабирование моделей и поведение: объяснить понятия законов масштабирования, возникающих способностей (обучение в контексте, цепочка рассуждений) и явление «галлюцинаций».
Проанализировать структурные различия между архитектурами с кодировщиком только (BERT), с декодером только (GPT) и с кодировщиком-декодером (T5).
Объяснить трёхэтапный процесс обучения: предобучение (базовая модель), настройка по инструкциям (SFT) и выравнивание (RLHF/PPO).
Сравнить производительность, законы масштабирования и архитектурные нововведения ведущих LLM, включая GPT, Llama, Qwen и DeepSeek.
Реализовать стратегии нулевого и малого числа примеров для извлечения и классификации структурированных данных.
Настроить гиперпараметры модели (температура, верхняя граница вероятности, штрафы), чтобы сбалансировать творческие и детерминированные результаты.
Создавать эффективные промты цепочки рассуждений (CoT) с использованием ручного, автоматического и нулевого подхода ("Давайте разберёмся шаг за шагом").
Проанализировать и сравнить варианты CoT: различать самосогласованность, программу мышления (PoT), дерево мышления (ToT) и граф мышления (GoT).

Уроки

Обзор: Этот урок исследует эволюцию искусственного интеллекта от специализированных небольших моделей к универсальным большим языковым моделям (LLM). Он описывает смену архитектуры от кодировщика "BERTology" к генеративным моделям только с декодером, освещает ключевую техническую цепочку предобучения, настройки по инструкциям и выравнивания (RLHF). Кроме того, материал рассматривает ведущие модели отрасли, включая GPT, Llama, а также отечественные инновации, такие как Qwen и DeepSeek.

Результаты обучения:

Различать архитектуры моделей: определить структурные различия и области применения моделей только с кодировщиком, только с декодером и с кодировщиком-декодером.
Объяснить процесс обучения LLM: описать переход от самообучения к обучению с учителем (SFT) и обучению с подкреплением от обратной связи человека (RLHF).
Проанализировать масштабирование моделей и поведение: объяснить понятия законов масштабирования, возникающих способностей (обучение в контексте, цепочка рассуждений) и явление «галлюцинаций».

Обзор: Этот урок исследует продвинутые варианты промтов цепочки рассуждений (CoT), технические платформы для редактирования знаний в больших языковых моделях (LLM) и специализированную область математического рассуждения. Он подробно описывает, как модели переходят от простой линейной логики к сложным графовым структурам, как корректируется «нежелательная» информация с помощью внутреннего и внешнего редактирования, а также процессы обучения и оценки передовых математических моделей.

Результаты обучения:

Проанализировать и сравнить варианты CoT: различать самосогласованность, программу мышления (PoT), дерево мышления (ToT) и граф мышления (GoT).
Оценить методы редактирования знаний: понять метрики надежности, локальности и переносимости, а также отличать внутренние (ROME) и внешние (SERAC) решения.
Оценить пайплайны математической логики: определить используемые данные для обучения (GSM8K, MATH, AIME) и процессы дистилляции, применяемые для усиления длительного математического рассуждения в моделях, таких как DeepSeek-Math и o1.

Обзор: Этот урок исследует критический баланс между полезностью большой языковой модели (LLM) и безопасностью, фокусируясь на механизмах «взломов» и технической реализации стеганографии. Он охватывает, как злоумышленники обходят фильтры безопасности с помощью сложной инженерии промтов (например, DAN, STAN), и как модели могут использоваться для скрытой коммуникации путем внедрения данных в процесс генерации токенов. Также представлены архитектура и возможности многомодальных больших языковых моделей (MLLM) в обработке и генерации различных типов данных, таких как изображения, аудио и видео.

Результаты обучения:

Идентифицировать и проанализировать распространённые паттерны атак «взлома», включая ролевую игру (DAN), когнитивное принуждение (PUA) и побочные каналы (шифр/код).
Объяснить технический механизм стеганографии в LLM, в частности, как потоки битов отображаются на распределении вероятностей (логитах) следующего токена.
Классифицировать архитектуры MLLM по их способности воспринимать и генерировать информацию в разных модальностях (текст, изображение, аудио, 3D).

Обзор: Этот урок исследует эволюцию графических интерфейсов (GUI) агентов от статического выполнения задач до автономного принятия решений в динамической среде. Он подробно описывает технические архитектуры открытых и закрытых источников агентов, интеграцию обучения с подкреплением от обратной связи человека (RLHF) и оптимизации близости политики (PPO) для выравнивания политик, а также критические проблемы безопасности — от вредоносных подсказок до бэкдоров моделей — требующие надёжных систем защиты, таких как GuardAgent и R-Judge.

Результаты обучения:

Проанализировать архитектурные компоненты GUI-агентов, включая модули планирования, принятия решений и рефлексии в системах с несколькими агентами.
Объяснить механику обучения с подкреплением (RL) и RLHF, особенно роль моделей вознаграждения и PPO в выравнивании поведения агентов с человеческими ценностями.
Оценить риски безопасности и проблемы надёжности автономных агентов, включая ошибки вне распределения (OOD), атаки «взлома» и отвлекающие факторы окружающей среды.