Aprofundamento nos Modelos de Linguagem Grandes
Este curso oferece uma introdução abrangente e aprofundada sobre a história do desenvolvimento dos modelos de linguagem grandes (LLMs), suas arquiteturas técnicas centrais, paradigmas de treinamento (pré-treinamento, ajuste fino e alinhamento), extensões multimodais, engenharia de prompts, raciocínio em cadeia de pensamento, agentes, bem como tópicos de vanguarda como segurança de modelos e proteção de privacidade.
Aulas
Visão Geral do Curso
📚 Resumo do Conteúdo
Este curso oferece uma introdução abrangente e aprofundada à evolução dos Modelos de Linguagem de Grande Porte (LLMs), arquiteturas técnicas centrais, paradigmas de treinamento (pré-treinamento, fine-tuning e alinhamento), extensões multimodais, engenharia de prompts, Chain of Thought (CoT), agentes, bem como temas de vanguarda como segurança de modelos e proteção da privacidade.
Análise aprofundada da evolução tecnológica e do alinhamento de segurança em modelos de grande porte, desde o pré-treinamento até agentes gerais.
🎯 Objetivos de Aprendizagem
- Distinguir entre arquiteturas de modelos: Identificar as diferenças estruturais e casos de uso para modelos Encoder-apenas, Decoder-apenas e Encoder-Decoder.
- Explicar o Pipeline de Treinamento de LLMs: Descrever a transição do pré-treinamento auto-supervisionado para Fine-Tuning Supervisionado (SFT) e Aprendizado por Reforço a partir de Feedback Humano (RLHF).
- Analisar Escala e Comportamento de Modelos: Explicar os conceitos de Leis de Escala, Habilidades Emergentes (aprendizado in-context, Chain of Thought) e o fenômeno das Alucinações.
- Analisar as diferenças estruturais entre arquiteturas Encoder-apenas (BERT), Decoder-apenas (GPT) e Encoder-Decoder (T5).
- Explicar o processo de treinamento em três etapas: Pré-treinamento (modelo-base), Tuning de Instruções (SFT) e Alinhamento (RLHF/PPO).
- Comparar o desempenho, leis de escala e inovações arquiteturais dos principais LLMs, incluindo GPT, Llama, Qwen e DeepSeek.
- Implementar estratégias de prompt zero-shot e few-shot para extração e classificação de dados estruturados.
- Calibrar hiperparâmetros do modelo (Temperatura, Top P, Penalidades) para equilibrar saídas criativas e determinísticas.
- Construir prompts eficazes de Chain-of-Thought (CoT) usando métodos manuais, automáticos e zero-shot ("Vamos pensar passo a passo").
- Analisar e comparar variantes de CoT: Diferenciar entre Self-Consistency, Program of Thought (PoT), Tree-of-Thought (ToT) e Graph-of-Thought (GoT).
🔹 Aula 1: Introdução aos Modelos de Linguagem de Grande Porte e Tecnologias de Pré-Treinamento
Visão Geral: Esta aula explora a evolução da Inteligência Artificial desde modelos especializados de pequena escala até Modelos de Linguagem de Grande Porte (LLMs) de propósito geral. Detalha a mudança arquitetural de "BERTology" baseada em Encoder para paradiigmas gerativos apenas com Decoder, abrangendo a pipeline técnica crítica de pré-treinamento, tuning de instruções e alinhamento (RLHF). Além disso, o conteúdo analisa famílias de modelos líderes na indústria, incluindo GPT, Llama e inovações nacionais como Qwen e DeepSeek.
Resultados de Aprendizagem:
- Distinguir entre arquiteturas de modelos: Identificar as diferenças estruturais e casos de uso para modelos Encoder-apenas, Decoder-apenas e Encoder-Decoder.
- Explicar o Pipeline de Treinamento de LLMs: Descrever a transição do pré-treinamento auto-supervisionado para Fine-Tuning Supervisionado (SFT) e Aprendizado por Reforço a partir de Feedback Humano (RLHF).
- Analisar Escala e Comportamento de Modelos: Explicar os conceitos de Leis de Escala, Habilidades Emergentes (aprendizado in-context, Chain of Thought) e o fenômeno das Alucinações.
🔹 Aula 2: Estudos de Caso de LLMs Principais e Estratégias de Implantação
Visão Geral: Esta aula fornece uma visão técnica abrangente dos Modelos de Linguagem de Grande Porte (LLMs), rastreando sua evolução desde arquiteturas básicas encoder-decoder até sistemas modernos multimodais e baseados em agentes. Detalha a pipeline técnica central — composta por pré-treinamento, tuning de instruções e alinhamento — enquanto avalia estudos de caso principais como GPT-4, Llama 3 e DeepSeek. O módulo conclui com estratégias práticas de implantação (API vs. Local) e frameworks avançados de engenharia de prompts como RAG e ReAct.
Resultados de Aprendizagem:
- Analisar as diferenças estruturais entre arquiteturas Encoder-apenas (BERT), Decoder-apenas (GPT) e Encoder-Decoder (T5).
- Explicar o processo de treinamento em três etapas: Pré-treinamento (modelo-base), Tuning de Instruções (SFT) e Alinhamento (RLHF/PPO).
- Comparar o desempenho, leis de escala e inovações arquiteturais dos principais LLMs, incluindo GPT, Llama, Qwen e DeepSeek.
🔹 Aula 3: Fundamentos da Engenharia de Prompts e Chain-of-Thought
Visão Geral: Esta aula aborda a transição avançada desde o prompt zero-shot básico até aprendizado estruturado few-shot e as capacidades emergentes de raciocínio de Chain-of-Thought (CoT). Os alunos analisarão como controlar o comportamento do modelo por meio de hiperparâmetros técnicos e demonstrações estruturadas para resolver tarefas complexas de lógica, matemática e linguagem. O material conclui com uma exploração do aprendizado supervisionado por processo e métodos automatizados de construção de CoT.
Resultados de Aprendizagem:
- Implementar estratégias de prompt zero-shot e few-shot para extração e classificação de dados estruturados.
- Calibrar hiperparâmetros do modelo (Temperatura, Top P, Penalidades) para equilibrar saídas criativas e determinísticas.
- Construir prompts eficazes de Chain-of-Thought (CoT) usando métodos manuais, automáticos e zero-shot ("Vamos pensar passo a passo").
🔹 Aula 4: Raciocínio Avançado, Edição de Conhecimento e Lógica Matemática
Visão Geral: Esta aula explora variantes estruturais avançadas de prompting Chain-of-Thought (CoT), os frameworks técnicos para edição de conhecimento dentro de Modelos de Linguagem de Grande Porte (LLMs) e o domínio especializado do raciocínio matemático. Detalha como os modelos transitam do raciocínio linear simples para estruturas complexas baseadas em grafos, como o conhecimento "indesejado" é corrigido por meio de edição interna e externa, e os pipelines de treinamento e avaliação para modelos matemáticos de ponta.
Resultados de Aprendizagem:
- Analisar e comparar variantes de CoT: Diferenciar entre Self-Consistency, Program of Thought (PoT), Tree-of-Thought (ToT) e Graph-of-Thought (GoT).
- Avaliar técnicas de edição de conhecimento: Compreender as métricas de Confiabilidade, Localidade e Portabilidade, e distinguir entre soluções de edição interna (ROME) e externa (SERAC).
- Avaliar pipelines de lógica matemática: Identificar os conjuntos de dados de treinamento (GSM8K, MATH, AIME) e processos de distilação usados para aprimorar o raciocínio matemático de longo formulário em modelos como DeepSeek-Math e o1.
🔹 Aula 5: Segurança de Conteúdo, Watermarking e Análise de Jailbreak
Visão Geral: Esta aula explora os mecanismos técnicos para identificar conteúdo gerado por LLMs e os desafios de segurança impostos por ataques adversários. Cobrem técnicas de watermarking estatístico (KGW, SIR, X-SIR) projetadas para sobreviver à tradução e reescrita, além de uma análise de prompts de "Jailbreak" (DAN, STAN) usados para contornar barreiras de segurança. O material conclui com estratégias defensivas e o conflito intrínseco entre utilidade do modelo e inocuidade.
Resultados de Aprendizagem:
- Analisar a fundação matemática do watermarking KGW e SIR, incluindo particionamento de vocabulário e ajustes invariantes semânticos.
- Identificar e categorizar estratégias de jailbreak, como "Fingir", "Escalonamento de Privilégio" e ataques baseados em cifras.
- Avaliar medidas defensivas, incluindo Defesa In-Context (ICD), Defesa de Aviso Cauteloso (CWD) e Red Teaming.
🔹 Aula 6: Pesquisa em Esteganografia de LLMs e Proteção de Privacidade
Visão Geral: Esta aula explora o equilíbrio crítico entre utilidade e segurança de Modelos de Linguagem de Grande Porte (LLMs), focando nos mecanismos de ataques "jailbreak" e na implementação técnica da esteganografia. Aborda como atacantes contornam filtros de segurança usando engenharia de prompts sofisticada (ex: DAN, STAN) e como LLMs podem ser usados para comunicação oculta ao embutir dados no processo de geração de tokens. Além disso, apresenta a arquitetura e funcionalidades dos Modelos de Linguagem de Grande Porte Multimodais (MLLMs) no processamento e geração de diversos tipos de dados como imagens, áudio e vídeo.
Resultados de Aprendizagem:
- Identificar e analisar padrões comuns de ataques de jailbreak, incluindo role-playing (DAN), coerção cognitiva (PUA) e métodos de canal lateral (cifra/código).
- Explicar o mecanismo técnico da esteganografia em LLMs, especificamente como fluxos de bits são mapeados na distribuição de probabilidade (logits) das previsões de próximos tokens.
- Classificar arquiteturas de MLLM com base em sua capacidade de perceber e gerar múltiplas modalidades (Texto, Imagem, Áudio, 3D).
🔹 Aula 7: Arquitetura e Design Avançados de LLMs Multimodais
Visão Geral: Esta aula explora a infraestrutura técnica dos Modelos de Linguagem de Grande Porte Multimodais (MLLMs), focando nos mecanismos de codificação, projeção e decodificação que permitem inteligência cross-modal. Detalha a transição de codificadores específicos de modalidade para espaços de representação unificados e analisa os diversos métodos usados para fechar a lacuna entre sinais não textuais e os espaços semânticos dos LLMs.
Resultados de Aprendizagem:
- Identificar codificadores especializados e métodos de tokenização para modalidades não visuais, incluindo áudio (HuBERT, Whisper) e nuvens de pontos 3D (Point-BERT).
- Avaliar diferentes técnicas de projeção no lado de entrada (Linear, MLP de múltiplos níveis, Resamplers) usadas para alinhar representações multimodais com os espaços semânticos dos LLMs.
- Comparar as três principais estratégias de conexão no lado de decodificação: tokens discretos, embeddings contínuos e codebooks para geração multimodal.
🔹 Aula 8: Agentes Autônomos, RLHF e Alinhamento de Segurança
Visão Geral: Esta aula explora a evolução de agentes de Interface Gráfica (GUI) desde execução de tarefas estáticas até decisões autônomas em ambientes dinâmicos. Detalha as arquiteturas técnicas de agentes de código aberto e fechado, a integração do Aprendizado por Reforço a partir de Feedback Humano (RLHF) e da Otimização de Política Próxima (PPO) para alinhamento de políticas, e os desafios críticos de segurança — que variam de injecções de prompts ambientais a backdoors de modelo — que exigem frameworks defensivos robustos como GuardAgent e R-Judge.
Resultados de Aprendizagem:
- Analisar os componentes arquiteturais de agentes GUI, incluindo módulos de planejamento, tomada de decisão e reflexão em sistemas multiagente.
- Explicar os mecanismos do Aprendizado por Reforço (RL) e RLHF, especificamente o papel dos modelos de recompensa e do PPO no alinhamento do comportamento do agente com valores humanos.
- Avaliar riscos de segurança e problemas de confiabilidade em agentes autônomos, incluindo erros fora da distribuição (OOD), ataques de jailbreak e distrações ambientais.