EvoClass | Education That Evolves With You

📚 Краткое содержание

Этот курс предлагает всестороннее и глубокое введение в эволюцию больших языковых моделей (LLM), основные технические архитектуры, парадигмы обучения (предобучение, дообучение и выравнивание), многомодальные расширения, инженерию промтов, цепочку рассуждений (CoT), агенты, а также передовые темы, такие как безопасность моделей и защита конфиденциальности.

Глубокий анализ технологической эволюции и выравнивания по безопасности полносистемных крупных моделей — от предобучения до общих агентов.

🎯 Цели обучения

Различать архитектуры моделей: определить структурные различия и области применения моделей только с кодировщиком, только с декодером и с кодировщиком-декодером.
Объяснить процесс обучения LLM: описать переход от самообучения к обучению с учителем (SFT) и обучению с подкреплением от обратной связи человека (RLHF).
Проанализировать масштабирование моделей и поведение: объяснить понятия законов масштабирования, возникающих способностей (обучение в контексте, цепочка рассуждений) и явление «галлюцинаций».
Проанализировать структурные различия между архитектурами с кодировщиком только (BERT), с декодером только (GPT) и с кодировщиком-декодером (T5).
Объяснить трёхэтапный процесс обучения: предобучение (базовая модель), настройка по инструкциям (SFT) и выравнивание (RLHF/PPO).
Сравнить производительность, законы масштабирования и архитектурные нововведения ведущих LLM, включая GPT, Llama, Qwen и DeepSeek.
Реализовать стратегии нулевого и малого числа примеров для извлечения и классификации структурированных данных.
Настроить гиперпараметры модели (температура, верхняя граница вероятности, штрафы), чтобы сбалансировать творческие и детерминированные результаты.
Создавать эффективные промты цепочки рассуждений (CoT) с использованием ручного, автоматического и нулевого подхода ("Давайте разберёмся шаг за шагом").
Проанализировать и сравнить варианты CoT: различать самосогласованность, программу мышления (PoT), дерево мышления (ToT) и граф мышления (GoT).

🔹 Урок 1: Введение в большие языковые модели и технологии предобучения

Обзор: Этот урок исследует эволюцию искусственного интеллекта от специализированных небольших моделей к универсальным большим языковым моделям (LLM). Он описывает смену архитектуры от кодировщика "BERTology" к генеративным моделям только с декодером, освещает ключевую техническую цепочку предобучения, настройки по инструкциям и выравнивания (RLHF). Кроме того, материал рассматривает ведущие модели отрасли, включая GPT, Llama, а также отечественные инновации, такие как Qwen и DeepSeek.

Результаты обучения:

Различать архитектуры моделей: определить структурные различия и области применения моделей только с кодировщиком, только с декодером и с кодировщиком-декодером.
Объяснить процесс обучения LLM: описать переход от самообучения к обучению с учителем (SFT) и обучению с подкреплением от обратной связи человека (RLHF).
Проанализировать масштабирование моделей и поведение: объяснить понятия законов масштабирования, возникающих способностей (обучение в контексте, цепочка рассуждений) и явление «галлюцинаций».

🔹 Урок 2: Кейсы ведущих LLM и стратегии развертывания

Обзор: Этот урок предоставляет всесторонний технический обзор больших языковых моделей (LLM), прослеживая их эволюцию от простых архитектур кодировщик-декодер к современным многомодальным и агентным системам. Он подробно описывает основную техническую цепочку — предобучение, настройка по инструкциям и выравнивание — при этом оценивая ведущие кейсы, такие как GPT-4, Llama 3 и DeepSeek. Модуль завершается практическими стратегиями развертывания (API против локального развертывания) и продвинутыми фреймворками инженерии промтов, такими как RAG и ReAct.

Результаты обучения:

Проанализировать структурные различия между архитектурами с кодировщиком только (BERT), с декодером только (GPT) и с кодировщиком-декодером (T5).
Объяснить трёхэтапный процесс обучения: предобучение (базовая модель), настройка по инструкциям (SFT) и выравнивание (RLHF/PPO).
Сравнить производительность, законы масштабирования и архитектурные нововведения ведущих LLM, включая GPT, Llama, Qwen и DeepSeek.

🔹 Урок 3: Основы инженерии промтов и цепочки рассуждений

Обзор: Этот урок охватывает сложный переход от базовой нулевой обработки промтов к структурированному обучению с малым числом примеров и возникающим способностям рассуждать через цепочку рассуждений (CoT). Студенты проанализируют, как контролировать поведение модели с помощью технических гиперпараметров и структурированных демонстраций для решения сложных логических, математических и лингвистических задач. Материал завершается исследованием обучения с процессным контролем и методами автоматического построения цепочки рассуждений.

Результаты обучения:

Реализовать стратегии нулевого и малого числа примеров для извлечения и классификации структурированных данных.
Настроить гиперпараметры модели (температура, верхняя граница вероятности, штрафы), чтобы сбалансировать творческие и детерминированные результаты.
Создавать эффективные промты цепочки рассуждений (CoT) с использованием ручного, автоматического и нулевого подхода ("Давайте разберёмся шаг за шагом").

🔹 Урок 4: Продвинутые методы рассуждения, редактирование знаний и математическая логика

Обзор: Этот урок исследует продвинутые варианты промтов цепочки рассуждений (CoT), технические платформы для редактирования знаний в больших языковых моделях (LLM) и специализированную область математического рассуждения. Он подробно описывает, как модели переходят от простой линейной логики к сложным графовым структурам, как корректируется «нежелательная» информация с помощью внутреннего и внешнего редактирования, а также процессы обучения и оценки передовых математических моделей.

Результаты обучения:

Проанализировать и сравнить варианты CoT: различать самосогласованность, программу мышления (PoT), дерево мышления (ToT) и граф мышления (GoT).
Оценить методы редактирования знаний: понять метрики надежности, локальности и переносимости, а также отличать внутренние (ROME) и внешние (SERAC) решения.
Оценить пайплайны математической логики: определить используемые данные для обучения (GSM8K, MATH, AIME) и процессы дистилляции, применяемые для усиления длительного математического рассуждения в моделях, таких как DeepSeek-Math и o1.

🔹 Урок 5: Безопасность контента, водяные знаки и анализ взломов

Обзор: Этот урок исследует технические механизмы идентификации контента, сгенерированного моделью, и безопасностные вызовы, связанные с адверсарными атаками. Рассматриваются статистические методы водяных знаков (KGW, SIR, X-SIR), предназначенные для сохранения при переводе и переписывании, а также анализ «взломов» (DAN, STAN), используемых для обхода защитных механизмов. Материал завершается стратегиями защиты и внутренним противоречием между полезностью модели и безвредностью.

Результаты обучения:

Проанализировать математическую основу водяных знаков KGW и SIR, включая разделение словаря и коррекцию семантической инвариантности.
Идентифицировать и классифицировать стратегии взлома, такие как «Имитация», «Повышение привилегий» и «Шифрование».
Оценить меры защиты, включая защиту в контексте (ICD), предостерегающую защиту (CWD) и красное тестирование (Red Teaming).

🔹 Урок 6: Стеганография в LLM и исследования защиты приватности

Обзор: Этот урок исследует критический баланс между полезностью большой языковой модели (LLM) и безопасностью, фокусируясь на механизмах «взломов» и технической реализации стеганографии. Он охватывает, как злоумышленники обходят фильтры безопасности с помощью сложной инженерии промтов (например, DAN, STAN), и как модели могут использоваться для скрытой коммуникации путем внедрения данных в процесс генерации токенов. Также представлены архитектура и возможности многомодальных больших языковых моделей (MLLM) в обработке и генерации различных типов данных, таких как изображения, аудио и видео.

Результаты обучения:

Идентифицировать и проанализировать распространённые паттерны атак «взлома», включая ролевую игру (DAN), когнитивное принуждение (PUA) и побочные каналы (шифр/код).
Объяснить технический механизм стеганографии в LLM, в частности, как потоки битов отображаются на распределении вероятностей (логитах) следующего токена.
Классифицировать архитектуры MLLM по их способности воспринимать и генерировать информацию в разных модальностях (текст, изображение, аудио, 3D).

🔹 Урок 7: Продвинутая архитектура и проектирование многомодальных LLM

Обзор: Этот урок исследует техническую инфраструктуру многомодальных больших языковых моделей (MLLM), с фокусом на механизмы кодирования, проекции и декодирования, обеспечивающие межмодальную интеллектуальность. Он описывает переход от модальностей, специализированных кодировщиков, к унифицированным пространствам представлений, а также анализирует различные методы преодоления разрыва между не-текстовыми сигналами и семантическими пространствами LLM.

Результаты обучения:

Идентифицировать специализированные кодировщики и методы токенизации для не-визуальных модальностей, включая аудио (HuBERT, Whisper) и 3D точечные облака (Point-BERT).
Оценить различные методы проекции на входе (линейные, многослойные МЛП, ресемплеры), используемые для согласования многомодальных представлений с семантическими пространствами LLM.
Сравнить три основные стратегии соединения на стороне декодера: дискретные токены, непрерывные векторы и кодовые книги для многомодальной генерации.

🔹 Урок 8: Автономные агенты, RLHF и выравнивание по безопасности

Обзор: Этот урок исследует эволюцию графических интерфейсов (GUI) агентов от статического выполнения задач до автономного принятия решений в динамической среде. Он подробно описывает технические архитектуры открытых и закрытых источников агентов, интеграцию обучения с подкреплением от обратной связи человека (RLHF) и оптимизации близости политики (PPO) для выравнивания политик, а также критические проблемы безопасности — от вредоносных подсказок до бэкдоров моделей — требующие надёжных систем защиты, таких как GuardAgent и R-Judge.

Результаты обучения:

Проанализировать архитектурные компоненты GUI-агентов, включая модули планирования, принятия решений и рефлексии в системах с несколькими агентами.
Объяснить механику обучения с подкреплением (RL) и RLHF, особенно роль моделей вознаграждения и PPO в выравнивании поведения агентов с человеческими ценностями.
Оценить риски безопасности и проблемы надёжности автономных агентов, включая ошибки вне распределения (OOD), атаки «взлома» и отвлекающие факторы окружающей среды.

Глубокое погружение в крупные языковые модели

Уроки

Lesson

Обзор курса

📚 Краткое содержание

🎯 Цели обучения

🔹 Урок 1: Введение в большие языковые модели и технологии предобучения

🔹 Урок 2: Кейсы ведущих LLM и стратегии развертывания

🔹 Урок 3: Основы инженерии промтов и цепочки рассуждений

🔹 Урок 4: Продвинутые методы рассуждения, редактирование знаний и математическая логика

🔹 Урок 5: Безопасность контента, водяные знаки и анализ взломов

🔹 Урок 6: Стеганография в LLM и исследования защиты приватности

🔹 Урок 7: Продвинутая архитектура и проектирование многомодальных LLM

🔹 Урок 8: Автономные агенты, RLHF и выравнивание по безопасности