Voltar aos Cursos
AI008 Professional

Modelos de Linguagem Grandes para Todos: Dos Fundamentos ao Uso Prático (Edição 2026)

Este curso é uma introdução prática e acessível aos Modelos de Linguagem Grandes (LLMs), como o ChatGPT e o Gemini. Projetado para estudantes de qualquer background, explica de forma geral como os LLMs funcionam, quais são suas capacidades e limitações, e como usá-los de forma eficaz no estudo, no trabalho e na vida cotidiana. Através de demonstrações práticas e exercícios guiados, você aprenderá técnicas de prompt, como avaliar saídas de forma crítica, lidar com hallucinações e viés, e como usar ferramentas comuns (por exemplo, documentos, resumos, tradução, tarefas de dados) de forma segura e responsável. Ao final do curso, você será capaz de criar um fluxo pessoal de trabalho com LLMs para tarefas reais — redação, pesquisa, planejamento e produtividade — sem precisar de habilidades avançadas em programação.

4.9
21h
671 estudantes
0 curtidas
Inteligência Artificial

Visão Geral do Curso

📚 Resumo do Conteúdo

Este curso é uma introdução prática e acessível aos Modelos de Linguagem de Grande Porte (LLMs), como o ChatGPT e o Gemini. Projetado para alunos de qualquer background, ele explica como os LLMs funcionam em nível alto, quais são suas capacidades e limitações, e como usá-los efetivamente no estudo, no trabalho e na vida cotidiana. Através de demonstrações práticas e exercícios guiados, você aprenderá técnicas de prompt, como avaliar saídas de forma crítica, lidar com alucinações e viéses, e usar ferramentas comuns (por exemplo, documentos, resumos, tradução, tarefas de dados) de maneira segura e responsável. Ao final do curso, você será capaz de criar um fluxo de trabalho pessoal com LLMs para tarefas reais — escrita, pesquisa, planejamento e produtividade — sem precisar de habilidades avançadas em programação.

Do raciocínio matemático fundamental à orquestração distribuída de agentes: moldando arquitetos de sistemas de elite para a era dos grandes modelos.

🎯 Objetivos de Aprendizagem

  1. Cognitivo: Compreender os pilares matemáticos da ML (álgebra linear, cálculo, probabilidade) e a linhagem histórica das arquiteturas neurais desde os Perceptrons até os LSTMs.
  2. Habilidades: Navegar servidores remotos usando comandos Unix shell e implementar gráficos computacionais básicos usando motores de diferenciação automática.
  3. Afectivo: Valorizar a importância do "fundamento teórico" em detrimento da "abstração prematura" ao depurar sistemas complexos como explosões de gradientes.
  4. Gerado
  5. Cognitivo: Explicar os mecanismos do pipeline pós-treinamento, incluindo a distinção entre o ajuste fino supervisionado (SFT) e frameworks de aprendizado por reforço (RL), como o GRPO.
  6. Habilidades: Projetar um pipeline de treinamento em múltiplas etapas — desde o início frio até a alinhamento final — utilizando técnicas de ajuste fino eficiente em parâmetros (PEFT), como LoRA.
  7. Afectivo: Valorizar a mudança de ver a IA como uma "caixa-preta mágica" para um sistema engenhado de camadas mecânicas e raciocínio interno deliberado.
  8. Cognitivo: Contrapor frameworks de integração linear com orquestração cíclica baseada em grafos e diferenciar protocolos de integração vertical (MCP) e horizontal (A2A).
  9. Habilidades: Definir nós especializados e arestas condicionais usando princípios da teoria dos grafos e implementar um servidor MCP usando FastMCP para conectar agentes a dados externos.
  10. Afectivo: Valorizar a importância da "execução cíclica" e do gerenciamento de estado na imitação de fluxos cognitivos humanos complexos.

🔹 Aula 1: Introdução aos LLMs: Do Conceito à Realidade

Visão Geral: ## 1. O Setup
Pergunta Fundamental: Engenharia de Modelos de Linguagem de Grande Porte é apenas a arte da "engenharia de prompts", ou exige um entendimento rigoroso e completo da evolução matemática e arquitetônica que levou à sua criação?

Objetivos de Aprendizagem (SWBAT):

  • Cognitivo: Compreender os pilares matemáticos da ML (álgebra linear, cálculo, probabilidade) e a linhagem histórica das arquiteturas neurais desde os Perceptrons até os LSTMs.
  • Habilidades: Navegar servidores remotos usando comandos Unix shell e implementar gráficos computacionais básicos usando motores de diferenciação automática.
  • Afectivo: Valorizar a importância do "fundamento teórico" em detrimento da "abstração prematura" ao depurar sistemas complexos como explosões de gradientes.

2. Componentes de Conhecimento Central (Os Ingredientes)

A. Conceitos-Chave (Substantivos):

  • Fluxos agênticos
  • Mecânica tensorial sub-arquitetural
  • Alinhamento pós-treinamento
  • Protocolos de orquestração agente distribuída
  • Espaços vetoriais de alta dimensão
  • Decomposição por autovalores
  • Retropropagação
  • Tensores multidimensionais (PyTorch)
  • Grafos computacionais
  • Teorema da Aproximação Universal
  • Problema de gradiente desaparecendo
  • Mecanismo de atenção

B. Princípios Fundamentais (Regras):

  • Fundamento Inegociável: A engenharia de LLM não pode ser dominada apenas por APIs; exige cálculo e álgebra linear subjacentes para otimização de hardware e depuração.
  • Teorema da Aproximação Universal: Uma rede neural feed-forward com uma única camada oculta pode aproximar qualquer função contínua (sujeito ao tamanho da camada oculta e riscos de generalização).
  • Limitações dos RNNs: Redes Neurais Recorrentes são limitadas pelo problema de gradiente desaparecendo e pela incapacidade intrínseca de paralelizar o processamento de dados sequenciais.

C. Habilidades Essenciais (Verbos):

  • Depurar explosões de gradientes.
  • Otimizar utilização de hardware.
  • Implementar funções de perda personalizadas.
  • Executar operações vetorizadas (NumPy).
  • Gerenciar ambientes de aprendizado profundo (shell Unix).
  • Mapear paradigmas entrada-saída (um-para-um, muitos-para-muitos, etc.).

3. Blocos Instrucionais (O Fluxo)

Bloco 1: Ativação (A Falácia da API) Atividade: Discussão de estudo de caso sobre o "ponto de falha" da educação em IA moderna. Analise os riscos de "embrulhos de alto nível" e discuta cenários onde o conhecimento de API é insuficiente (por exemplo, transição de arquiteturas monolíticas para microserviços localizados).

Bloco 2: Aquisição (O Fundamento Matemático e Histórico) Conteúdo: Palestra sobre os quatro pilares (Álgebra Linear, Probabilidade, Estatística, Cálculo Multivariável). Trace a linhagem arquitetônica desde o Perceptron de 1958 até as Redes Feed-Forward e as limitações dos RNNs/LSTMs.

Bloco 3: Prática (Fluência Programática) Atividade: Laboratório prático de codificação. Vá além da sintaxe Python para focar em operações vetorizadas no NumPy. Use o "micrograd" de Andrej Karpathy para construir uma MLP básica (Multi-Layer Perceptron) e visualize como os gradientes fluem durante a otimização.

Bloco 4: Aplicação (Mapeamento de Paradigmas) Atividade: Análise estrutural de mapeamento de dados. Os alunos devem categorizar várias tarefas do mundo real (por exemplo, classificação binária vs. tradução automática) em paradigmas entrada-saída: um-para-um, muitos-para-um, um-para-muitos e muitos-para-muitos.

4. Revisão e Extensão

Equívocos:

  • Mitologia do "Salto Mágico": A ideia de que os LLMs são descobertas isoladas, em vez de culminação de décadas de pesquisas.
  • Atalho da API: A falsa premissa de que é possível se tornar um engenheiro de sistemas sem compreender intimamente multiplicação de matrizes e derivadas parciais.

Diferenciação:

  • Apoio: Utilize auxiliares visuais (ex: série de redes neurais do 3Blue1Brown) e ferramentas intuitivas geométricas para espaços de alta dimensão.
  • Desafio: Transite de arrays padrão para tensores multidimensionais no PyTorch para implementar modelos iniciais do zero.

Resultados de Aprendizagem:

  • Cognitivo: Compreender os pilares matemáticos da ML (álgebra linear, cálculo, probabilidade) e a linhagem histórica das arquiteturas neurais desde os Perceptrons até os LSTMs.
  • Habilidades: Navegar servidores remotos usando comandos Unix shell e implementar gráficos computacionais básicos usando motores de diferenciação automática.
  • Afectivo: Valorizar a importância do "fundamento teórico" em detrimento da "abstração prematura" ao depurar sistemas complexos como explosões de gradientes.

🔹 Aula 2: Por Trás dos Cúmulos: Como os LLMs Processam e Preveem Texto

Visão Geral: # Por Trás dos Cúmulos: Como os LLMs Processam e Preveem Texto

1. O Setup

Pergunta Fundamental: Como podemos fechar a lacuna entre "ler passivamente" artigos acadêmicos e alcançar uma compreensão verdadeira da essência matemática de um Transformer?

Objetivos de Aprendizagem (SWBAT):

  • Cognitivo: Compreender o fundamento matemático da atenção dot-produto escalonada, incluindo o uso de fatores de escala para estabilizar gradientes e evitar o "problema de gradientes infinitesimais" em funções softmax.
  • Habilidades: Implementar um Transformador Generativamente Pré-treinado (GPT) do zero usando Python e PyTorch, passando de mecanismos baseados em loops para multiplicações matriciais altamente paralelizadas.
  • Afectivo: Valorizar a importância da implementação "linha por linha" em vez da leitura teórica para desmistificar a "opacidade intrínseca" dos espaços latentes de alta dimensão.

2. Componentes de Conhecimento Central (Os Ingredientes)

A. Conceitos-Chave (Substantivos):

  • Arquiteturas: Transformer (Vaswani et al.), BERT (Representações Bidirecionais de Transformadores), Arquiteturas apenas com codificadores, Transformador Generativamente Pré-treinado (GPT), Mistura de Especialistas (MoE).
  • Mecanismos: Autoatenção, Atenção Dot-Produto Escalonada, Autoatenção com múltiplos cabeçalhos, Geração autoregressiva.
  • Estruturas de Dados: Matrizes de Consulta (Q), Chave (K) e Valor (V); Vetores densos; Vetores de embedding; Espaços latentes.
  • Componentes: Tokenizadores Byte Pair Encoding (BPE), Codificações posicionais (funções seno/cosseno), Redes neurais feed-forward, Conexões residuais, Normalização de Camada (LayerNorm).
  • Funcionalidades Avançadas: Cache de Chave-Valor (KV), Atenção Agrupada por Consulta.

B. Princípios Fundamentais (Regras):

  • Regra de Escala: A pontuação bruta de atenção deve ser dividida pela raiz quadrada do tamanho da dimensão da chave para evitar que produtos internos cresçam excessivamente.
  • Injeção de Sequência: É necessário codificar manualmente funções seno e cosseno para injetar a ordem da sequência no modelo.
  • Regra de Estabilidade: Conexões residuais e LayerNorm devem ser aplicadas para combater o deslocamento interno de covariância e garantir estabilidade no treinamento.
  • Otimização: A transição de loops simples para multiplicações matriciais é essencial para paralelização.

C. Habilidades Essenciais (Verbos):

  • Desmontar: Dividir a arquitetura do Transformer em seus mecanismos centrais.
  • Implementar: Codificar tokenizadores, matrizes QKV e redes feed-forward do zero.
  • Formular: Definir matematicamente e programaticamente as pontuações de atenção.
  • Traçar: Seguir visualmente o caminho desde palavras brutas até tokens e vetores de embedding usando ferramentas interativas.
  • Acelerar: Utilizar cache KV para acelerar a inferência.

3. Blocos Instrucionais (O Fluxo)

Bloco 1: Ativação (Visualizando a Opacidade)

  • Atividade: Exploração Interativa. Os alunos usam ferramentas como "Transformer Explainer" ou "AnimatedLLM" para inserir prompts de texto e observar interações em tempo real dos componentes internos. Isso aborda o "desafio pedagógico" da opacidade do espaço latente.

Bloco 2: Aquisição (Fundamento Matemático)

  • Conteúdo: Engajamento algorítmico profundo com "Attention Is All You Need". Foco na formulação das matrizes Q, K e V e na matemática específica por trás do fator de escala (\sqrt{d_k}) usado para estabilizar gradientes.

Bloco 3: Prática (Desmontagem Programática)

  • Atividade: Construção do Zero. Guiados por recursos como "Let’s build GPT" de Andrej Karpathy, os alunos realizam ingestão de dados (ex: conjunto de dados "The Wizard of Oz") e implementam tokenizadores BPE e codificações posicionais manualmente.

Bloco 4: Aplicação (Escalabilidade e Otimização)

  • Atividade: Alinhamento Arquitetônico Avançado. Os alunos transpõem seu código de atenção baseada em loops para multiplicações matriciais paralelizadas. Em seguida, integram modificações de vanguarda como Atenção Agrupada por Consulta e roteamento MoE para se alinhar com arquiteturas de modelos de 2026.

4. Revisão e Extensão

Equívocos:

  • Teoria vs. Prática: Acreditar que ler literatura acadêmica é suficiente para domínio técnico (o texto exige explicitamente implementação linha por linha).
  • Eficiência: Usar loops simples para atenção em vez de multiplicações matriciais paralelizadas.
  • Problemas de Gradientes: Ignorar o fator de escala, levando a gradientes infinitesimais na função softmax.

Diferenciação:

  • Apoio: Utilize "The Illustrated Transformer" de Jay Alammar ou "The Annotated Transformer" do Harvard NLP para análises matemáticas visuais/anotadas.
  • Desafio: Tarefa para alunos avançados implementar cache KV para acelerar inferência ou codificar mecanismos complexos de roteamento MoE.

Resultados de Aprendizagem:

  • Gerado

🔹 Aula 3: Alinhamento e Raciocínio: Como a IA se Torna uma Assistente Útil

Visão Geral: # Alinhamento e Raciocínio: Como a IA se Torna uma Assistente Útil

1. O Setup

Pergunta Fundamental: À medida que o pré-treinamento em larga escala se torna uma utilidade "commoditized", como os engenheiros transformam um modelo base bruto e imprevisível em um motor de raciocínio altamente confiável capaz de seguir intenções humanas complexas?

Objetivos de Aprendizagem (SWBAT):

  • Cognitivo: Explicar os mecanismos do pipeline pós-treinamento, incluindo a distinção entre o Ajuste Fino Supervisionado (SFT) e frameworks de Aprendizado por Reforço (RL), como o GRPO.
  • Habilidades: Projetar um pipeline de treinamento em múltiplas etapas — desde o início frio até o alinhamento final — utilizando técnicas de Ajuste Fino Eficiente em Parâmetros (PEFT), como LoRA.
  • Afectivo: Valorizar a mudança de ver a IA como uma "caixa-preta mágica" para um sistema engenhado de camadas mecânicas e raciocínio interno deliberado.

2. Componentes de Conhecimento Central (Os Ingredientes)

A. Conceitos-Chave (Substantivos):

  • Pipeline Pós-Treinamento: Etapa onde o comportamento do modelo é moldado e alinhado.
  • Ajuste Fino Supervisionado (SFT): Treinamento em pares curados de instrução-resposta.
  • Ajuste Fino Eficiente em Parâmetros (PEFT): Métodos como LoRA e QLoRA que injetam matrizes de decomposição treináveis enquanto mantêm os pesos originais congelados.
  • Cadeia de Pensamento (CoT): Uma fase de deliberação interna antes da geração da saída final.
  • Otimização Relativa de Grupo (GRPO): Um framework que elimina o "modelo crítico" ao pontuar respostas contra uma média do grupo.
  • Estratégias Evolutivas (ES): Uma alternativa ao backpropagation que muta e recombina parâmetros.

B. Princípios Fundamentais (Regras):

  • Regra de Restrição de Hardware: Atualizações completas de parâmetros são computacionalmente inviáveis; PEFT é necessário para hardware de consumo.
  • Regra de Eficiência do GRPO: O RL moderno pode eliminar modelos avaliadores intensivos em memória usando sistemas automatizados e baseados em regras.
  • Regra do Pipeline de Raciocínio: Criar modelos de raciocínio exige uma sequência específica de quatro estágios: Início Frio, RL Puro, Geração de Dados Sintéticos e SFT Secundário.

C. Habilidades Essenciais (Verbos):

  • Ajustar fino: Adaptar modelos a domínios específicos (ex: médico ou jurídico).
  • Injetar: Inserir matrizes de decomposição em camadas do transformer.
  • Pontuar: Avaliar coerência lógica e correção matemática via sistemas automatizados.
  • Mutar: Alterar iterativamente parâmetros do modelo para otimizar tarefas de longo horizonte.

3. Blocos Instrucionais (O Fluxo)

Bloco 1: Ativação (Quebrando a Caixa-Preta)

  • Atividade: Exploração em Laboratório Digital. Use ferramentas de visualização (ex: Transformer Explainer, 3D LLM Walkthrough) para observar o cálculo em tempo real de pontuações de atenção e distribuição de logits.
  • Objetivo: Fechar a lacuna entre "álgebra de matrizes" e a "interface mágica" de assistentes de IA.

Bloco 2: Aquisição (A Arquitetura Pós-Treinamento)

  • Conteúdo: Aprofundamento em SFT e PEFT. Contraste o custo proibitivo de atualizações de todos os parâmetros com a eficiência de LoRA/QLoRA.
  • Modelos-Chave: Examine as arquiteturas de Llama 3.2, Qwen3 e Gemma como alvos para criação de assistentes personalizados.

Bloco 3: Prática (A Revolução do Raciocínio)

  • Atividade: Mapeamento do Pipeline DeepSeek-R1. Em pequenos grupos, os alunos devem diagramar o processo de treinamento em 4 estágios:
    1. Início Frio: Prevenir degradação da legibilidade.
    2. RL Puro: Desenvolver habilidades de CoT via GRPO.
    3. Amostragem de Rejeição: Criar conjuntos de dados rotulados sintéticos a partir de saídas de alta qualidade.
    4. Alinhamento Final: Mesclar dados sintéticos com conjuntos de dados fácticos e criativos.

Bloco 4: Aplicação (Escalabilidade e Robustez)

  • Atividade: Debate de Otimização. Compare Aprendizado por Reforço (PPO/GRPO) com Estratégias Evolutivas (ES).
  • Tarefa: Determinar qual método é superior para "tarefas com recompensa esparsa e de longo horizonte" e resistência ao "hack de recompensa", baseado em pesquisas de 2026 do Cognizant AI Lab.

4. Revisão e Extensão

Equívocos:

  • Falácia do "Atualização Completa": Acreditar que ajuste fino de alta qualidade exige atualizar todos os bilhões de parâmetros (Correção: LoRA/QLoRA alcança isso via decomposição de posto).
  • Necessidade do "Modelo Crítico": Supor que RL sempre exige um LLM separado como avaliador (Correção: GRPO usa pontuação baseada em grupo e sistemas baseados em regras).

Diferenciação:

  • Apoio: Use AnimatedLLM para conceitualização não técnica da treinamento de próxima palavra.
  • Desafio: Implemente um pipeline de classificação de texto usando QLoRA em um conjunto de dados específico (ex: revisão de contratos jurídicos) para demonstrar a criação de "assistente personalizado".

Resultados de Aprendizagem:

  • Cognitivo: Explicar os mecanismos do pipeline pós-treinamento, incluindo a distinção entre o Ajuste Fino Supervisionado (SFT) e frameworks de Aprendizado por Reforço (RL), como o GRPO.
  • Habilidades: Projetar um pipeline de treinamento em múltiplas etapas — desde o início frio até o alinhamento final — utilizando técnicas de Ajuste Fino Eficiente em Parâmetros (PEFT), como LoRA.
  • Afectivo: Valorizar a mudança de ver a IA como uma "caixa-preta mágica" para um sistema engenhado de camadas mecânicas e raciocínio interno deliberado.

🔹 Aula 4: Engenharia de Prompts e Embasamento com RAG

Visão Geral: # Engenharia de Prompts e Embasamento com RAG

1. O Setup

Pergunta Fundamental: Como podemos passar de "truques" orientados à pesquisa para construir orquestrações de IA confiáveis e de produção que embasem modelos em dados do mundo real e infraestrutura resiliente?

Objetivos de Aprendizagem (SWBAT):

  • Cognitivo: Compreender o ciclo de vida do pipeline de Geração com Recuperação (RAG) e a necessidade de orquestração multi-fornecedor de LLMs para confiabilidade em produção.
  • Habilidades: Implementar análise avançada (chunking semântico e agente), avaliar precisão de recuperação usando métricas programáticas (MRR, NDCG) e projetar roteadores resilientes de tráfego para sistemas multi-modelos.
  • Afectivo: Valorizar a mudança de "truques" de prompt mal definidos para uma disciplina de engenharia rigorosa que inclui controle de versão e conscientização em segurança cibernética.

2. Componentes de Conhecimento Central (Os Ingredientes)

A. Conceitos-Chave (Substantivos):

  • Infraestrutura RAG: Modelos de embeddings densos, Representações vetoriais de alta dimensão, Bancos de dados vetoriais especializados (Pinecone, Deep Lake, Milvus), FAISS, Grafos HNSW.
  • Métodos de Chunking: Chunking semântico, Chunking sobreposto, Chunking agente.
  • Métricas de Avaliação: Recall@K, Precision@K, Média Recíproca de Rank (MRR), Ganho Cumulativo Descontado Normalizado (NDCG).
  • Arquiteturas Avançadas: Geração Aumentada por Cache (CAG), Roteamento de Multi-Consulta, RAG Hierárquico, RAG Multimodal.
  • Orquestração e Prompts: LLMOps, Controladores de tráfego (Routers), Camadas de gateway unificadas, Suportes de raciocínio, Vulnerabilidades adversarias, Controle de versão de prompts.

B. Princípios Fundamentais (Regras):

  • Necessidade de Embasamento: LLMs sofrem inherentemente com alucinações e cortes de conhecimento temporais; o RAG é necessário para conectá-los a bases de conhecimento externas.
  • Resiliência Arquitetônica: Depender de um único provedor de API terceirizada é uma vulnerabilidade crítica; os sistemas devem implementar orquestração multi-fornecedor e lógica de fallback automático.
  • Rigor de Engenharia: A engenharia de prompts deve passar de "truques" para uma disciplina formal envolvendo especificações de saída rígidas (ex: JSON válido) e etapas sequenciais explícitas.

C. Habilidades Essenciais (Verbos):

  • Ingestão: Converter texto não estruturado em representações vetoriais via modelos de embeddings densos.
  • Parse: Dividir texto com base no significado (semântico) ou em pontos de ruptura determinados por IA (agente), em vez de contagem de caracteres.
  • Quantificar: Medir rigorosamente a precisão de recuperação usando suites de testes programáticas.
  • Roteamento: Direcionar dinamicamente prompts para modelos (ex: Claude 3.5 Sonnet vs. modelos open-source) com base em custo, latência e profundidade de raciocínio.
  • Segurança: Identificar e mitigar vulnerabilidades adversarias onde a lógica de formatação é usada para burlar guardas.

3. Blocos Instrucionais (O Fluxo)

Bloco 1: Ativação (A Realidade da Produção)

  • Atividade: "A Auditoria de 2026". Os participantes analisam um cenário onde um script simples baseado em API de LLM falha devido a um corte de conhecimento ou falha do provedor. Discussão: Por que modelos "crus" são insuficientes para software de produção?

Bloco 2: Aquisição (RAG Avançado e LLMOps)

  • Conteúdo: Palestra sobre o ciclo de vida do RAG: da ingestão de dados até bancos vetoriais (FAISS/HNSW). Contraste chunking fixo com chunking semântico e agente. Introdução de arquiteturas altamente otimizadas como Geração Aumentada por Cache (CAG).

Bloco 3: Prática (Métricas e Roteamento)

  • Atividade: "O Laboratório do Avaliador". Dado um conjunto de dados, os participantes selecionam e justificam o uso de métricas específicas (MRR vs. NDCG) para quantificar o sucesso da recuperação. Depois, projetam um mapa de "Lógica de Roteamento" que determina se uma consulta deve ir para um modelo de raciocínio avançado (como OpenAI o3-mini) ou para um modelo econômico open-source.

Bloco 4: Aplicação (Projeto de Sistema Resiliente)

  • Atividade: "Engenharia do Pipeline". Os participantes elaboram uma arquitetura de sistema para um ambiente de alto risco. O projeto deve incluir:
    1. Um pipeline RAG com chunking agente.
    2. Uma camada de gateway unificada com lógica de fallback automático.
    3. Um guia de engenharia de prompts utilizando suportes de raciocínio e especificações rígidas de saída JSON.

4. Revisão e Extensão

Equívocos:

  • Chunking de tamanho fixo é "suficiente": A realidade exige chunking semântico ou agente para preservar contexto entre fronteiras.
  • Engenharia de prompts é apenas escrita criativa: A realidade exige que seja uma disciplina formal com controle de versão e fluxos explícitos.
  • RAG é apenas sobre encontrar texto: O RAG moderno envolve integração multimodal (imagem e texto) e cache otimizado (CAG).

Diferenciação:

  • Apoio: Foque na transição de "truques" para padrões de formatação básicos e métricas simples de recuperação.
  • Desafio: Desafie alunos avançados a conectar engenharia de prompts e segurança em IA projetando um sistema para detectar/prevenir explorações de formatação adversaria.

Resultados de Aprendizagem:

  • Gerado

🔹 Aula 5: Privacidade, Ética e Navegando Modelos Open-Source

Visão Geral: # Privacidade, Ética e Navegando Modelos Open-Source

1. O Setup

Pergunta Fundamental: Em uma era de LLMs de alto desempenho em nuvem, por que a transição para implantação local e "Pesos Abertos" está se tornando uma exigência não negociável para IA de nível empresarial?

Objetivos de Aprendizagem (SWBAT):

  • Cognitivo: Distinguir entre "Open Source" (definições OSI) e modelos de "Pesos Abertos", e identificar os três principais motivadores para implantação local (privacidade, custo, capacidade offline).
  • Habilidades: Mapear requisitos de produção (como Augmentação de Conhecimento ou Confiança em Prompts) para soluções específicas de orquestração como Bancos de Dados Vetoriais, Roteadores de Backup e Red Teaming.
  • Afectivo: Valorizar a importância de restrições de privacidade de dados e testes éticos de segurança no desenvolvimento profissional de IA.

2. Componentes de Conhecimento Central (Os Ingredientes)

A. Conceitos-Chave (Substantivos):

  • Bancos de Dados Vetoriais: Pinecone, Deep Lake.
  • Componentes de Infraestrutura: Modelos de Embedding, Roteadores de Backup, Gateways.
  • Métricas de Avaliação: MRR (Média Recíproca de Rank), Precision@K, LLM como Juiz.
  • Categorias de Licença: Open Source (definição OSI), Pesos Abertos.
  • Ferramentas de Segurança: Red Teaming, Controle de Versão, Especificações de Formato de Saída.

B. Princípios Fundamentais (Regras):

  • Princípio de Embasamento: Os sistemas devem embasar respostas em dados privados específicos para reduzir drasticamente as taxas de alucinação.
  • Necessidade de Implantação: Privacidade corporativa rigorosa, custos cumulativos de tokens e necessidades offline tornam a implantação local essencial.
  • Nuance de Licença: Um modelo só é "Open Source" se incluir código de treinamento e direitos irrestritos; caso contrário, é "Pesos Abertos".
  • Regra de Resiliência: Sistemas empresariais devem rotear prompts dinamicamente para otimizar custo e disponibilidade.

C. Habilidades Essenciais (Verbos):

  • Orquestrar: Gerenciar sistemas multi-fornecedor e gateways.
  • Avaliar: Implementar pipelines automatizados para monitorar precisão de recuperação e qualidade de geração.
  • Diferenciar: Clarificar nuances de licenciamento entre tipos diferentes de modelos.
  • Proteger: Realizar testes de vulnerabilidades adversarias (Red Teaming).

3. Blocos Instrucionais (O Fluxo)

Bloco 1: Ativação (O Porquê da IA Local)

  • Atividade: "Auditoria de Custos-Privacidade". Os alunos analisam um cenário hipotético onde uma empresa enfrenta contas de tokens exorbitantes e vazamento de dados. Discutam como a implantação local resolve esses "desafios da Fase 5".

Bloco 2: Aquisição (Arquitetando a Solução)

  • Conteúdo: Desdobramento da tabela de Requisitos de Produção.
    • Augmentação de Conhecimento: Usar bancos vetoriais para reduzir alucinações.
    • Disponibilidade: Usar roteadores de backup para uptime.
    • Segurança: Usar Red Teaming e Controle de Versão.
    • Avaliação: Entender métricas MRR e Precision@K.

Bloco 3: Prática (Licenciamento e Lógica)

  • Atividade: "Classificação Open Source vs. Pesos Abertos". Dada uma lista de características de modelo (ex: "Parâmetros Públicos", "Inclui Código de Treinamento", "Restrições Comerciais"), os alunos devem categorizá-las corretamente com base nas definições fornecidas no texto.

Bloco 4: Aplicação (Design de Sistema)

  • Atividade: "Plano de Pipeline Resiliente". Os alunos projetam uma arquitetura de sistema de alto nível que inclua um Modelo de Embedding para embasamento de dados privados e um pipeline LLM como Juiz para monitoramento contínuo.

4. Revisão e Extensão

Equívocos:

  • Mitologia do "Aberto": Assumir que qualquer modelo com parâmetros públicos é "Open Source". (Correção: Pode ser apenas "Pesos Abertos" se o código de treinamento/direitos forem restritos).
  • Superioridade da Nuvem: Assumir que modelos em nuvem são sempre melhores. (Correção: Modelos locais são essenciais para escala, controle de custo e privacidade).

Diferenciação:

  • Apoio: Forneça um glossário para métricas de avaliação (MRR, Precision@K) para alunos novos em ciência de dados.
  • Desafio: Peça a desenvolvedores sêniores para projetar uma lógica de "Orquestração Multi-Provedor" que troque entre modelos locais e em nuvem com base no desempenho de "Precision@K" versus "Custo de Tokens".

Resultados de Aprendizagem:

  • Gerado

🔹 Aula 6: Fluxos Agênticos: Automatizando Tarefas Complexas

Visão Geral: # Fluxos Agênticos: Automatizando Tarefas Complexas

1. O Setup

Pergunta Fundamental: Como passamos de sistemas de IA que apenas geram texto em uma única passagem para agentes autônomos capazes de raciocinar, usar ferramentas e colaborar em microserviços distribuídos?

Objetivos de Aprendizagem (SWBAT):

  • Cognitivo: Contrapor frameworks de integração linear com orquestração cíclica baseada em grafos e diferenciar entre protocolos de integração vertical (MCP) e horizontal (A2A).
  • Habilidades: Definir nós especializados e arestas condicionais usando princípios da teoria dos grafos e implementar um servidor MCP usando FastMCP para conectar agentes a dados externos.
  • Afectivo: Valorizar a importância da "execução cíclica" e do gerenciamento de estado na imitação de fluxos cognitivos humanos complexos.

2. Componentes de Conhecimento Central (Os Ingredientes)

A. Conceitos-Chave (Substantivos):

  • Características de Agentes de IA: Autonomia, Uso de Ferramentas, Memória, Raciocínio.
  • Frameworks de Orquestração: LangGraph, CrewAI (vs. LangChain inicial).
  • Arquitetura de Grafos: Nós (tarefas/chamadas de ferramentas), Arestas Condicionais (caminhos de decisão), Esquemas de Estado (Python TypedDict).
  • Protocolos de Interoperabilidade: Protocolo de Contexto de Modelo (MCP), Protocolo Agent2Agent (A2A).
  • Ferramentas de Implantação: Ollama (CLI), LM Studio (GUI), FastMCP, LocalAI.
  • Modelos: Llama 3, Qwen2.5, DeepSeek-R1 (quantizados).

B. Princípios Fundamentais (Regras):

  • Mudança de Paradigma: Transição de geração estática e de uma única passagem para fluxos altamente autônomos e orientados a objetivos.
  • Execução Cíclica: Agentes devem realizar uma ação, avaliar o resultado e voltar para corrigir erros ou coletar informações.
  • Integração Vertical vs. Horizontal: MCP atua como um "USB-C" para conectar modelos a dados (Vertical); A2A atua como uma linguagem comum para comunicação entre agentes em ecossistemas diferentes (Horizontal).
  • Arquitetura de Microserviços: MCP e A2A são complementares, não concorrentes.

C. Habilidades Essenciais (Verbos):

  • Orquestrar: Gerenciar cadeias de lógica complexas e loop de tomada de decisão com estado.
  • Implantar: Executar modelos locais em hardware de consumo com latência zero.
  • Expor: Fornecer ferramentas (APIs), recursos (dados somente leitura) e prompts através de servidores MCP.
  • Negociar: Permitir que agentes independentes descubram capacidades e compartilhem resultados estruturados de forma programática.

3. Blocos Instrucionais (O Fluxo)

Bloco 1: Ativação (Do Estático para o Agêntico) Atividade: Compare uma interação padrão prompt-resposta com uma tarefa de múltiplos passos (ex: "Pesquisar um tema e escrever um relatório"). Os alunos identificam as quatro características agênticas centrais (Autonomia, Uso de Ferramentas, Memória, Raciocínio) necessárias para automatizar o último.

Bloco 2: Aquisição (Evolução de Frameworks e Teoria dos Grafos) Conteúdo: Palestra sobre as limitações de sequências lineares (LangChain inicial) em lidar com loops de tomada de decisão. Introduza os princípios de LangGraph: definir nós para tarefas e arestas condicionais para controle de fluxo. Explique como o TypedDict do Python mantém o estado ao longo desses passos para garantir que o "histórico de decisões" seja preservado.

Bloco 3: Prática (Integração Vertical com MCP) Atividade: Módulo prático usando FastMCP em Python. Os alunos constroem um servidor MCP local que expõe três funcionalidades (Ferramentas, Recursos, Prompts). Eles conectarão um agente a um banco de dados PostgreSQL local ou a uma API ativa (como Hacker News) para demonstrar a extensão de capacidades além dos dados de treinamento estáticos.

Bloco 4: Aplicação (Orquestração Horizontal com A2A) Atividade: Projete uma arquitetura de microserviços onde um "agente de pesquisa" (construído em LangGraph) usa MCP para acessar dados, depois utiliza o Protocolo A2A para comunicar seus achados a um "agente de decisão" (em um servidor separado). Pratique o uso de Server-Sent Events (SSE) para atualizações em streaming entre esses agentes.

4. Revisão e Extensão

Equívocos:

  • Linearidade: Os alunos frequentemente pensam que uma simples sequência de prompts é um "agente". A instrução deve enfatizar que agentes requerem execução cíclica e lógica condicional.
  • Concorrência de Protocolos: Clarifique que MCP e A2A não são rivais; um trata de acesso interno a ferramentas (MCP), enquanto o outro trata de colaboração externa entre agentes (A2A).

Diferenciação:

  • Apoio: Use o GUI do LM Studio para alunos que têm dificuldades com ambientes de linha de comando para descobrir e ajustar modelos.
  • Desafio: Desenvolvedores avançados devem implementar LocalAI como substituto drop-in da API OpenAI ou usar o text-generation-webui para integrar extensões de plugin extensas para seus fluxos agênticos.

Resultados de Aprendizagem:

  • Cognitivo: Contrapor frameworks de integração linear com orquestração cíclica baseada em grafos e diferenciar entre protocolos de integração vertical (MCP) e horizontal (A2A).
  • Habilidades: Definir nós especializados e arestas condicionais usando princípios da teoria dos grafos e implementar um servidor MCP usando FastMCP para conectar agentes a dados externos.
  • Afectivo: Valorizar a importância da "execução cíclica" e do gerenciamento de estado na imitação de fluxos cognitivos humanos complexos.

🔹 Aula 7: Capstone: Construindo Seu Sistema Pessoal de Produtividade com LLM

Visão Geral: # Capstone: Construindo Seu Sistema Pessoal de Produtividade com LLM

1. O Setup

Pergunta Fundamental: Como você passa de ser um consumidor passivo de inteligência artificial para se tornar um arquiteto principal capaz de construir sistemas de IA robustos, resilientes e autônomos?

Objetivos de Aprendizagem (SWBAT):

  • Cognitivo: Compreender as complexidades arquitetônicas dos protocolos de comunicação agente (LangGraph, MCP, A2A) e os fundamentos matemáticos do alinhamento pós-treinamento (Otimização Relativa de Grupo).
  • Habilidades: Construir um portfólio abrangente que vá de pipelines NLP locais e aplicações RAG seguras até sistemas empresariais distribuídos multi-agente.
  • Afectivo: Desenvolver "intuição de engenharia" ao ir além de APIs de nuvem superficiais e lidar com as mecânicas de baixo nível da manipulação de tensores e orquestração distribuída.

2. Componentes de Conhecimento Central (Os Ingredientes)

A. Conceitos-Chave (Substantivos):

  • Protocolos: Protocolo de Contexto de Modelo (MCP), Barramento de Comunicação Agent-to-Agent (A2A).
  • Arquiteturas: Pipeline NLP Fundacional, Arquitetura RAG Avançada, Fluxo Agêntico Autônomo, Capstone de Sistemas Distribuídos.
  • Ferramentas: Hugging Face (transformers/datasets), Ollama, LM Studio, Pinecone (Banco de Dados Vetorial), LangGraph.
  • Métricas: MRR (Média Recíproca de Rank), Precision@K.
  • Modelos: Modelos open-source quantizados, DeepSeek V3/R1, Modelos de Visão-Linguagem-Ação.

B. Princípios Fundamentais (Regras):

  • Aplicação Empírica: O conhecimento teórico se deteriora sem aplicação rigorosa e empírica em repositórios de código publicamente verificáveis.
  • Redução de Alucinações: Sistemas RAG locais devem utilizar suites de avaliação automatizadas para provar empiricamente a redução de alucinações em comparação com modelos base.
  • Trajetória de Complexidade: As habilidades devem ser construídas incrementalmente, conectando álgebra linear e manipulação de tensores com orquestração de alto nível de sistemas.
  • Educação Contínua: A proficiência em engenharia exige permanecer atualizado com artigos fundamentais (ICLR/ICML) e relatórios técnicos.

C. Habilidades Essenciais (Verbos):

  • Tokenizar: Converter conjuntos de dados textuais personalizados para consumo por modelos.
  • Chunk: Implementar estratégias avançadas de chunking sobreposto para grandes corpora.
  • Delegar: Usar protocolos A2A para mover tarefas entre agentes especializados (ex: Agente de Triagem para Agente de Dados).
  • Consultar: Acessar bancos de dados SQL simulados com segurança por meio de servidores MCP dedicados.
  • Raciocinar: Construir loops autônomos que realizam verificações internas até que um relatório esteja pronto para publicação.

3. Blocos Instrucionais (O Fluxo)

Bloco 1: Ativação (A Mudança para Engenharia de Especialista)

  • Atividade: Discussão "Além do Prompt". Contraste as limitações da engenharia básica de prompts e APIs proprietárias de nuvem com os requisitos da engenharia de "nível especialista" (teoria matemática, manipulação de tensores e sistemas distribuídos).

Bloco 2: Aquisição (Literatura e Fundamentos Técnicos)

  • Conteúdo: Aprofundamento em artigos fundamentais e relatórios técnicos. Os alunos revisam avanços do ICLR/ICML e os relatórios técnicos do DeepSeek V3/R1 para entender o "vanguarda" da arquitetura de modelos e técnicas de alinhamento como a Otimização Relativa de Grupo.

Bloco 3: Prática (Construção Progressiva de Projetos)

  • Atividade 1: O Pipeline NLP: Carregue localmente um modelo pré-treinado para executar geração e classificação de texto (ex: Previsão de churn de clientes).
  • Atividade 2: O Arquiteto RAG: Monte um RAG local usando Ollama/LM Studio e Pinecone. Os alunos devem implementar chunking sobreposto e usar MRR/Precision@K para medir o desempenho.

Bloco 4: Aplicação (O Capstone de Sistemas Distribuídos)

  • Atividade: Implantação do Sistema "Triage-Data Agent". Construa um ambiente multi-agente onde um "Agente de Triagem" principal receba solicitações e use o protocolo A2A para delegar consultas seguras a um "Agente de Dados" em execução em um processo separado via servidor MCP.

4. Revisão e Extensão

Equívocos:

  • Armadilha da API: Acreditar que chamar APIs proprietárias de nuvem é equivalente a engenharia de IA.
  • Q&A Estática: Pensar que sistemas de IA são limitados a perguntas e respostas estáticas em vez de fluxos agênticos autônomos e multi-etapa.
  • Teoria vs. Prática: Supor que ler artigos é suficiente sem desenvolver "repositórios de código publicamente verificáveis".

Diferenciação:

  • Apoio: Utilize recursos visuais como "LLM Transformer Model Visually Explained" e visualizações interativas (AnimatedLLM) para compreender operações mecânicas como fluxo de tensores e tokenização.
  • Desafio: Transite de agentes básicos para construir "Fluxos Agênticos Autônomos" especializados que decidam dinamicamente usar ferramentas de busca web ou execução de Python para satisfazer objetivos amplos (ex: análise de relatórios financeiros da SEC).