К курсам
AI012 Professional

Глубокое погружение в крупные языковые модели

Этот курс предоставляет всестороннее и глубокое введение в историю разработки крупных языковых моделей (LLM), их основные технические архитектуры, парадигмы обучения (предобучение, дообучение и согласование), расширения мультимодальности, инженерию запросов, рассуждения по цепочке мыслей, агенты, а также передовые темы, такие как безопасность моделей и защита конфиденциальности.

4.9
24h
1067 учеников
1 лайки
Искусственный интеллект
Начать обучение

Обзор курса

📚 Краткое содержание

Этот курс предлагает всестороннее и глубокое введение в эволюцию больших языковых моделей (LLM), основные технические архитектуры, парадигмы обучения (предобучение, дообучение и выравнивание), многомодальные расширения, инженерию промтов, цепочку рассуждений (CoT), агенты, а также передовые темы, такие как безопасность моделей и защита конфиденциальности.

Глубокий анализ технологической эволюции и выравнивания по безопасности полносистемных крупных моделей — от предобучения до общих агентов.

🎯 Цели обучения

  1. Различать архитектуры моделей: определить структурные различия и области применения моделей только с кодировщиком, только с декодером и с кодировщиком-декодером.
  2. Объяснить процесс обучения LLM: описать переход от самообучения к обучению с учителем (SFT) и обучению с подкреплением от обратной связи человека (RLHF).
  3. Проанализировать масштабирование моделей и поведение: объяснить понятия законов масштабирования, возникающих способностей (обучение в контексте, цепочка рассуждений) и явление «галлюцинаций».
  4. Проанализировать структурные различия между архитектурами с кодировщиком только (BERT), с декодером только (GPT) и с кодировщиком-декодером (T5).
  5. Объяснить трёхэтапный процесс обучения: предобучение (базовая модель), настройка по инструкциям (SFT) и выравнивание (RLHF/PPO).
  6. Сравнить производительность, законы масштабирования и архитектурные нововведения ведущих LLM, включая GPT, Llama, Qwen и DeepSeek.
  7. Реализовать стратегии нулевого и малого числа примеров для извлечения и классификации структурированных данных.
  8. Настроить гиперпараметры модели (температура, верхняя граница вероятности, штрафы), чтобы сбалансировать творческие и детерминированные результаты.
  9. Создавать эффективные промты цепочки рассуждений (CoT) с использованием ручного, автоматического и нулевого подхода ("Давайте разберёмся шаг за шагом").
  10. Проанализировать и сравнить варианты CoT: различать самосогласованность, программу мышления (PoT), дерево мышления (ToT) и граф мышления (GoT).

🔹 Урок 1: Введение в большие языковые модели и технологии предобучения

Обзор: Этот урок исследует эволюцию искусственного интеллекта от специализированных небольших моделей к универсальным большим языковым моделям (LLM). Он описывает смену архитектуры от кодировщика "BERTology" к генеративным моделям только с декодером, освещает ключевую техническую цепочку предобучения, настройки по инструкциям и выравнивания (RLHF). Кроме того, материал рассматривает ведущие модели отрасли, включая GPT, Llama, а также отечественные инновации, такие как Qwen и DeepSeek.

Результаты обучения:

  • Различать архитектуры моделей: определить структурные различия и области применения моделей только с кодировщиком, только с декодером и с кодировщиком-декодером.
  • Объяснить процесс обучения LLM: описать переход от самообучения к обучению с учителем (SFT) и обучению с подкреплением от обратной связи человека (RLHF).
  • Проанализировать масштабирование моделей и поведение: объяснить понятия законов масштабирования, возникающих способностей (обучение в контексте, цепочка рассуждений) и явление «галлюцинаций».

🔹 Урок 2: Кейсы ведущих LLM и стратегии развертывания

Обзор: Этот урок предоставляет всесторонний технический обзор больших языковых моделей (LLM), прослеживая их эволюцию от простых архитектур кодировщик-декодер к современным многомодальным и агентным системам. Он подробно описывает основную техническую цепочку — предобучение, настройка по инструкциям и выравнивание — при этом оценивая ведущие кейсы, такие как GPT-4, Llama 3 и DeepSeek. Модуль завершается практическими стратегиями развертывания (API против локального развертывания) и продвинутыми фреймворками инженерии промтов, такими как RAG и ReAct.

Результаты обучения:

  • Проанализировать структурные различия между архитектурами с кодировщиком только (BERT), с декодером только (GPT) и с кодировщиком-декодером (T5).
  • Объяснить трёхэтапный процесс обучения: предобучение (базовая модель), настройка по инструкциям (SFT) и выравнивание (RLHF/PPO).
  • Сравнить производительность, законы масштабирования и архитектурные нововведения ведущих LLM, включая GPT, Llama, Qwen и DeepSeek.

🔹 Урок 3: Основы инженерии промтов и цепочки рассуждений

Обзор: Этот урок охватывает сложный переход от базовой нулевой обработки промтов к структурированному обучению с малым числом примеров и возникающим способностям рассуждать через цепочку рассуждений (CoT). Студенты проанализируют, как контролировать поведение модели с помощью технических гиперпараметров и структурированных демонстраций для решения сложных логических, математических и лингвистических задач. Материал завершается исследованием обучения с процессным контролем и методами автоматического построения цепочки рассуждений.

Результаты обучения:

  • Реализовать стратегии нулевого и малого числа примеров для извлечения и классификации структурированных данных.
  • Настроить гиперпараметры модели (температура, верхняя граница вероятности, штрафы), чтобы сбалансировать творческие и детерминированные результаты.
  • Создавать эффективные промты цепочки рассуждений (CoT) с использованием ручного, автоматического и нулевого подхода ("Давайте разберёмся шаг за шагом").

🔹 Урок 4: Продвинутые методы рассуждения, редактирование знаний и математическая логика

Обзор: Этот урок исследует продвинутые варианты промтов цепочки рассуждений (CoT), технические платформы для редактирования знаний в больших языковых моделях (LLM) и специализированную область математического рассуждения. Он подробно описывает, как модели переходят от простой линейной логики к сложным графовым структурам, как корректируется «нежелательная» информация с помощью внутреннего и внешнего редактирования, а также процессы обучения и оценки передовых математических моделей.

Результаты обучения:

  • Проанализировать и сравнить варианты CoT: различать самосогласованность, программу мышления (PoT), дерево мышления (ToT) и граф мышления (GoT).
  • Оценить методы редактирования знаний: понять метрики надежности, локальности и переносимости, а также отличать внутренние (ROME) и внешние (SERAC) решения.
  • Оценить пайплайны математической логики: определить используемые данные для обучения (GSM8K, MATH, AIME) и процессы дистилляции, применяемые для усиления длительного математического рассуждения в моделях, таких как DeepSeek-Math и o1.

🔹 Урок 5: Безопасность контента, водяные знаки и анализ взломов

Обзор: Этот урок исследует технические механизмы идентификации контента, сгенерированного моделью, и безопасностные вызовы, связанные с адверсарными атаками. Рассматриваются статистические методы водяных знаков (KGW, SIR, X-SIR), предназначенные для сохранения при переводе и переписывании, а также анализ «взломов» (DAN, STAN), используемых для обхода защитных механизмов. Материал завершается стратегиями защиты и внутренним противоречием между полезностью модели и безвредностью.

Результаты обучения:

  • Проанализировать математическую основу водяных знаков KGW и SIR, включая разделение словаря и коррекцию семантической инвариантности.
  • Идентифицировать и классифицировать стратегии взлома, такие как «Имитация», «Повышение привилегий» и «Шифрование».
  • Оценить меры защиты, включая защиту в контексте (ICD), предостерегающую защиту (CWD) и красное тестирование (Red Teaming).

🔹 Урок 6: Стеганография в LLM и исследования защиты приватности

Обзор: Этот урок исследует критический баланс между полезностью большой языковой модели (LLM) и безопасностью, фокусируясь на механизмах «взломов» и технической реализации стеганографии. Он охватывает, как злоумышленники обходят фильтры безопасности с помощью сложной инженерии промтов (например, DAN, STAN), и как модели могут использоваться для скрытой коммуникации путем внедрения данных в процесс генерации токенов. Также представлены архитектура и возможности многомодальных больших языковых моделей (MLLM) в обработке и генерации различных типов данных, таких как изображения, аудио и видео.

Результаты обучения:

  • Идентифицировать и проанализировать распространённые паттерны атак «взлома», включая ролевую игру (DAN), когнитивное принуждение (PUA) и побочные каналы (шифр/код).
  • Объяснить технический механизм стеганографии в LLM, в частности, как потоки битов отображаются на распределении вероятностей (логитах) следующего токена.
  • Классифицировать архитектуры MLLM по их способности воспринимать и генерировать информацию в разных модальностях (текст, изображение, аудио, 3D).

🔹 Урок 7: Продвинутая архитектура и проектирование многомодальных LLM

Обзор: Этот урок исследует техническую инфраструктуру многомодальных больших языковых моделей (MLLM), с фокусом на механизмы кодирования, проекции и декодирования, обеспечивающие межмодальную интеллектуальность. Он описывает переход от модальностей, специализированных кодировщиков, к унифицированным пространствам представлений, а также анализирует различные методы преодоления разрыва между не-текстовыми сигналами и семантическими пространствами LLM.

Результаты обучения:

  • Идентифицировать специализированные кодировщики и методы токенизации для не-визуальных модальностей, включая аудио (HuBERT, Whisper) и 3D точечные облака (Point-BERT).
  • Оценить различные методы проекции на входе (линейные, многослойные МЛП, ресемплеры), используемые для согласования многомодальных представлений с семантическими пространствами LLM.
  • Сравнить три основные стратегии соединения на стороне декодера: дискретные токены, непрерывные векторы и кодовые книги для многомодальной генерации.

🔹 Урок 8: Автономные агенты, RLHF и выравнивание по безопасности

Обзор: Этот урок исследует эволюцию графических интерфейсов (GUI) агентов от статического выполнения задач до автономного принятия решений в динамической среде. Он подробно описывает технические архитектуры открытых и закрытых источников агентов, интеграцию обучения с подкреплением от обратной связи человека (RLHF) и оптимизации близости политики (PPO) для выравнивания политик, а также критические проблемы безопасности — от вредоносных подсказок до бэкдоров моделей — требующие надёжных систем защиты, таких как GuardAgent и R-Judge.

Результаты обучения:

  • Проанализировать архитектурные компоненты GUI-агентов, включая модули планирования, принятия решений и рефлексии в системах с несколькими агентами.
  • Объяснить механику обучения с подкреплением (RL) и RLHF, особенно роль моделей вознаграждения и PPO в выравнивании поведения агентов с человеческими ценностями.
  • Оценить риски безопасности и проблемы надёжности автономных агентов, включая ошибки вне распределения (OOD), атаки «взлома» и отвлекающие факторы окружающей среды.