EvoClass | Education That Evolves With You

📚 Resumo do Conteúdo

Este curso é uma introdução prática e acessível aos Modelos de Linguagem de Grande Porte (LLMs), como o ChatGPT e o Gemini. Projetado para alunos de qualquer background, ele explica como os LLMs funcionam em nível alto, quais são suas capacidades e limitações, e como usá-los efetivamente no estudo, no trabalho e na vida cotidiana. Através de demonstrações práticas e exercícios guiados, você aprenderá técnicas de prompt, como avaliar saídas de forma crítica, lidar com alucinações e viéses, e usar ferramentas comuns (por exemplo, documentos, resumos, tradução, tarefas de dados) de maneira segura e responsável. Ao final do curso, você será capaz de criar um fluxo de trabalho pessoal com LLMs para tarefas reais — escrita, pesquisa, planejamento e produtividade — sem precisar de habilidades avançadas em programação.

Do raciocínio matemático fundamental à orquestração distribuída de agentes: moldando arquitetos de sistemas de elite para a era dos grandes modelos.

🎯 Objetivos de Aprendizagem

Cognitivo: Compreender os pilares matemáticos da ML (álgebra linear, cálculo, probabilidade) e a linhagem histórica das arquiteturas neurais desde os Perceptrons até os LSTMs.
Habilidades: Navegar servidores remotos usando comandos Unix shell e implementar gráficos computacionais básicos usando motores de diferenciação automática.
Afectivo: Valorizar a importância do "fundamento teórico" em detrimento da "abstração prematura" ao depurar sistemas complexos como explosões de gradientes.
Gerado
Cognitivo: Explicar os mecanismos do pipeline pós-treinamento, incluindo a distinção entre o ajuste fino supervisionado (SFT) e frameworks de aprendizado por reforço (RL), como o GRPO.
Habilidades: Projetar um pipeline de treinamento em múltiplas etapas — desde o início frio até a alinhamento final — utilizando técnicas de ajuste fino eficiente em parâmetros (PEFT), como LoRA.
Afectivo: Valorizar a mudança de ver a IA como uma "caixa-preta mágica" para um sistema engenhado de camadas mecânicas e raciocínio interno deliberado.
Cognitivo: Contrapor frameworks de integração linear com orquestração cíclica baseada em grafos e diferenciar protocolos de integração vertical (MCP) e horizontal (A2A).
Habilidades: Definir nós especializados e arestas condicionais usando princípios da teoria dos grafos e implementar um servidor MCP usando FastMCP para conectar agentes a dados externos.
Afectivo: Valorizar a importância da "execução cíclica" e do gerenciamento de estado na imitação de fluxos cognitivos humanos complexos.

🔹 Aula 1: Introdução aos LLMs: Do Conceito à Realidade

Visão Geral: ## 1. O Setup
Pergunta Fundamental: Engenharia de Modelos de Linguagem de Grande Porte é apenas a arte da "engenharia de prompts", ou exige um entendimento rigoroso e completo da evolução matemática e arquitetônica que levou à sua criação?

Objetivos de Aprendizagem (SWBAT):

Cognitivo: Compreender os pilares matemáticos da ML (álgebra linear, cálculo, probabilidade) e a linhagem histórica das arquiteturas neurais desde os Perceptrons até os LSTMs.
Habilidades: Navegar servidores remotos usando comandos Unix shell e implementar gráficos computacionais básicos usando motores de diferenciação automática.
Afectivo: Valorizar a importância do "fundamento teórico" em detrimento da "abstração prematura" ao depurar sistemas complexos como explosões de gradientes.

2. Componentes de Conhecimento Central (Os Ingredientes)

A. Conceitos-Chave (Substantivos):

Fluxos agênticos
Mecânica tensorial sub-arquitetural
Alinhamento pós-treinamento
Protocolos de orquestração agente distribuída
Espaços vetoriais de alta dimensão
Decomposição por autovalores
Retropropagação
Tensores multidimensionais (PyTorch)
Grafos computacionais
Teorema da Aproximação Universal
Problema de gradiente desaparecendo
Mecanismo de atenção

B. Princípios Fundamentais (Regras):

Fundamento Inegociável: A engenharia de LLM não pode ser dominada apenas por APIs; exige cálculo e álgebra linear subjacentes para otimização de hardware e depuração.
Teorema da Aproximação Universal: Uma rede neural feed-forward com uma única camada oculta pode aproximar qualquer função contínua (sujeito ao tamanho da camada oculta e riscos de generalização).
Limitações dos RNNs: Redes Neurais Recorrentes são limitadas pelo problema de gradiente desaparecendo e pela incapacidade intrínseca de paralelizar o processamento de dados sequenciais.

C. Habilidades Essenciais (Verbos):

Depurar explosões de gradientes.
Otimizar utilização de hardware.
Implementar funções de perda personalizadas.
Executar operações vetorizadas (NumPy).
Gerenciar ambientes de aprendizado profundo (shell Unix).
Mapear paradigmas entrada-saída (um-para-um, muitos-para-muitos, etc.).

3. Blocos Instrucionais (O Fluxo)

Bloco 1: Ativação (A Falácia da API) Atividade: Discussão de estudo de caso sobre o "ponto de falha" da educação em IA moderna. Analise os riscos de "embrulhos de alto nível" e discuta cenários onde o conhecimento de API é insuficiente (por exemplo, transição de arquiteturas monolíticas para microserviços localizados).

Bloco 2: Aquisição (O Fundamento Matemático e Histórico) Conteúdo: Palestra sobre os quatro pilares (Álgebra Linear, Probabilidade, Estatística, Cálculo Multivariável). Trace a linhagem arquitetônica desde o Perceptron de 1958 até as Redes Feed-Forward e as limitações dos RNNs/LSTMs.

Bloco 3: Prática (Fluência Programática) Atividade: Laboratório prático de codificação. Vá além da sintaxe Python para focar em operações vetorizadas no NumPy. Use o "micrograd" de Andrej Karpathy para construir uma MLP básica (Multi-Layer Perceptron) e visualize como os gradientes fluem durante a otimização.

Bloco 4: Aplicação (Mapeamento de Paradigmas) Atividade: Análise estrutural de mapeamento de dados. Os alunos devem categorizar várias tarefas do mundo real (por exemplo, classificação binária vs. tradução automática) em paradigmas entrada-saída: um-para-um, muitos-para-um, um-para-muitos e muitos-para-muitos.

4. Revisão e Extensão

Equívocos:

Mitologia do "Salto Mágico": A ideia de que os LLMs são descobertas isoladas, em vez de culminação de décadas de pesquisas.
Atalho da API: A falsa premissa de que é possível se tornar um engenheiro de sistemas sem compreender intimamente multiplicação de matrizes e derivadas parciais.

Diferenciação:

Apoio: Utilize auxiliares visuais (ex: série de redes neurais do 3Blue1Brown) e ferramentas intuitivas geométricas para espaços de alta dimensão.
Desafio: Transite de arrays padrão para tensores multidimensionais no PyTorch para implementar modelos iniciais do zero.

Resultados de Aprendizagem:

Cognitivo: Compreender os pilares matemáticos da ML (álgebra linear, cálculo, probabilidade) e a linhagem histórica das arquiteturas neurais desde os Perceptrons até os LSTMs.
Habilidades: Navegar servidores remotos usando comandos Unix shell e implementar gráficos computacionais básicos usando motores de diferenciação automática.
Afectivo: Valorizar a importância do "fundamento teórico" em detrimento da "abstração prematura" ao depurar sistemas complexos como explosões de gradientes.

🔹 Aula 2: Por Trás dos Cúmulos: Como os LLMs Processam e Preveem Texto

Visão Geral: # Por Trás dos Cúmulos: Como os LLMs Processam e Preveem Texto

1. O Setup

Pergunta Fundamental: Como podemos fechar a lacuna entre "ler passivamente" artigos acadêmicos e alcançar uma compreensão verdadeira da essência matemática de um Transformer?

Objetivos de Aprendizagem (SWBAT):

Cognitivo: Compreender o fundamento matemático da atenção dot-produto escalonada, incluindo o uso de fatores de escala para estabilizar gradientes e evitar o "problema de gradientes infinitesimais" em funções softmax.
Habilidades: Implementar um Transformador Generativamente Pré-treinado (GPT) do zero usando Python e PyTorch, passando de mecanismos baseados em loops para multiplicações matriciais altamente paralelizadas.
Afectivo: Valorizar a importância da implementação "linha por linha" em vez da leitura teórica para desmistificar a "opacidade intrínseca" dos espaços latentes de alta dimensão.

2. Componentes de Conhecimento Central (Os Ingredientes)

A. Conceitos-Chave (Substantivos):

Arquiteturas: Transformer (Vaswani et al.), BERT (Representações Bidirecionais de Transformadores), Arquiteturas apenas com codificadores, Transformador Generativamente Pré-treinado (GPT), Mistura de Especialistas (MoE).
Mecanismos: Autoatenção, Atenção Dot-Produto Escalonada, Autoatenção com múltiplos cabeçalhos, Geração autoregressiva.
Estruturas de Dados: Matrizes de Consulta (Q), Chave (K) e Valor (V); Vetores densos; Vetores de embedding; Espaços latentes.
Componentes: Tokenizadores Byte Pair Encoding (BPE), Codificações posicionais (funções seno/cosseno), Redes neurais feed-forward, Conexões residuais, Normalização de Camada (LayerNorm).
Funcionalidades Avançadas: Cache de Chave-Valor (KV), Atenção Agrupada por Consulta.

B. Princípios Fundamentais (Regras):

Regra de Escala: A pontuação bruta de atenção deve ser dividida pela raiz quadrada do tamanho da dimensão da chave para evitar que produtos internos cresçam excessivamente.
Injeção de Sequência: É necessário codificar manualmente funções seno e cosseno para injetar a ordem da sequência no modelo.
Regra de Estabilidade: Conexões residuais e LayerNorm devem ser aplicadas para combater o deslocamento interno de covariância e garantir estabilidade no treinamento.
Otimização: A transição de loops simples para multiplicações matriciais é essencial para paralelização.

C. Habilidades Essenciais (Verbos):

Desmontar: Dividir a arquitetura do Transformer em seus mecanismos centrais.
Implementar: Codificar tokenizadores, matrizes QKV e redes feed-forward do zero.
Formular: Definir matematicamente e programaticamente as pontuações de atenção.
Traçar: Seguir visualmente o caminho desde palavras brutas até tokens e vetores de embedding usando ferramentas interativas.
Acelerar: Utilizar cache KV para acelerar a inferência.

3. Blocos Instrucionais (O Fluxo)

Bloco 1: Ativação (Visualizando a Opacidade)

Atividade: Exploração Interativa. Os alunos usam ferramentas como "Transformer Explainer" ou "AnimatedLLM" para inserir prompts de texto e observar interações em tempo real dos componentes internos. Isso aborda o "desafio pedagógico" da opacidade do espaço latente.

Bloco 2: Aquisição (Fundamento Matemático)

Conteúdo: Engajamento algorítmico profundo com "Attention Is All You Need". Foco na formulação das matrizes Q, K e V e na matemática específica por trás do fator de escala (\sqrt{d_k}) usado para estabilizar gradientes.

Bloco 3: Prática (Desmontagem Programática)

Atividade: Construção do Zero. Guiados por recursos como "Let’s build GPT" de Andrej Karpathy, os alunos realizam ingestão de dados (ex: conjunto de dados "The Wizard of Oz") e implementam tokenizadores BPE e codificações posicionais manualmente.

Bloco 4: Aplicação (Escalabilidade e Otimização)

Atividade: Alinhamento Arquitetônico Avançado. Os alunos transpõem seu código de atenção baseada em loops para multiplicações matriciais paralelizadas. Em seguida, integram modificações de vanguarda como Atenção Agrupada por Consulta e roteamento MoE para se alinhar com arquiteturas de modelos de 2026.

4. Revisão e Extensão

Equívocos:

Teoria vs. Prática: Acreditar que ler literatura acadêmica é suficiente para domínio técnico (o texto exige explicitamente implementação linha por linha).
Eficiência: Usar loops simples para atenção em vez de multiplicações matriciais paralelizadas.
Problemas de Gradientes: Ignorar o fator de escala, levando a gradientes infinitesimais na função softmax.

Diferenciação:

Apoio: Utilize "The Illustrated Transformer" de Jay Alammar ou "The Annotated Transformer" do Harvard NLP para análises matemáticas visuais/anotadas.
Desafio: Tarefa para alunos avançados implementar cache KV para acelerar inferência ou codificar mecanismos complexos de roteamento MoE.

Resultados de Aprendizagem:

Gerado

🔹 Aula 3: Alinhamento e Raciocínio: Como a IA se Torna uma Assistente Útil

Visão Geral: # Alinhamento e Raciocínio: Como a IA se Torna uma Assistente Útil

1. O Setup

Pergunta Fundamental: À medida que o pré-treinamento em larga escala se torna uma utilidade "commoditized", como os engenheiros transformam um modelo base bruto e imprevisível em um motor de raciocínio altamente confiável capaz de seguir intenções humanas complexas?

Objetivos de Aprendizagem (SWBAT):

Cognitivo: Explicar os mecanismos do pipeline pós-treinamento, incluindo a distinção entre o Ajuste Fino Supervisionado (SFT) e frameworks de Aprendizado por Reforço (RL), como o GRPO.
Habilidades: Projetar um pipeline de treinamento em múltiplas etapas — desde o início frio até o alinhamento final — utilizando técnicas de Ajuste Fino Eficiente em Parâmetros (PEFT), como LoRA.
Afectivo: Valorizar a mudança de ver a IA como uma "caixa-preta mágica" para um sistema engenhado de camadas mecânicas e raciocínio interno deliberado.

2. Componentes de Conhecimento Central (Os Ingredientes)

A. Conceitos-Chave (Substantivos):

Pipeline Pós-Treinamento: Etapa onde o comportamento do modelo é moldado e alinhado.
Ajuste Fino Supervisionado (SFT): Treinamento em pares curados de instrução-resposta.
Ajuste Fino Eficiente em Parâmetros (PEFT): Métodos como LoRA e QLoRA que injetam matrizes de decomposição treináveis enquanto mantêm os pesos originais congelados.
Cadeia de Pensamento (CoT): Uma fase de deliberação interna antes da geração da saída final.
Otimização Relativa de Grupo (GRPO): Um framework que elimina o "modelo crítico" ao pontuar respostas contra uma média do grupo.
Estratégias Evolutivas (ES): Uma alternativa ao backpropagation que muta e recombina parâmetros.

B. Princípios Fundamentais (Regras):

Regra de Restrição de Hardware: Atualizações completas de parâmetros são computacionalmente inviáveis; PEFT é necessário para hardware de consumo.
Regra de Eficiência do GRPO: O RL moderno pode eliminar modelos avaliadores intensivos em memória usando sistemas automatizados e baseados em regras.
Regra do Pipeline de Raciocínio: Criar modelos de raciocínio exige uma sequência específica de quatro estágios: Início Frio, RL Puro, Geração de Dados Sintéticos e SFT Secundário.

C. Habilidades Essenciais (Verbos):

Ajustar fino: Adaptar modelos a domínios específicos (ex: médico ou jurídico).
Injetar: Inserir matrizes de decomposição em camadas do transformer.
Pontuar: Avaliar coerência lógica e correção matemática via sistemas automatizados.
Mutar: Alterar iterativamente parâmetros do modelo para otimizar tarefas de longo horizonte.

3. Blocos Instrucionais (O Fluxo)

Bloco 1: Ativação (Quebrando a Caixa-Preta)

Atividade: Exploração em Laboratório Digital. Use ferramentas de visualização (ex: Transformer Explainer, 3D LLM Walkthrough) para observar o cálculo em tempo real de pontuações de atenção e distribuição de logits.
Objetivo: Fechar a lacuna entre "álgebra de matrizes" e a "interface mágica" de assistentes de IA.

Bloco 2: Aquisição (A Arquitetura Pós-Treinamento)

Conteúdo: Aprofundamento em SFT e PEFT. Contraste o custo proibitivo de atualizações de todos os parâmetros com a eficiência de LoRA/QLoRA.
Modelos-Chave: Examine as arquiteturas de Llama 3.2, Qwen3 e Gemma como alvos para criação de assistentes personalizados.

Bloco 3: Prática (A Revolução do Raciocínio)

Atividade: Mapeamento do Pipeline DeepSeek-R1. Em pequenos grupos, os alunos devem diagramar o processo de treinamento em 4 estágios:
1. Início Frio: Prevenir degradação da legibilidade.
2. RL Puro: Desenvolver habilidades de CoT via GRPO.
3. Amostragem de Rejeição: Criar conjuntos de dados rotulados sintéticos a partir de saídas de alta qualidade.
4. Alinhamento Final: Mesclar dados sintéticos com conjuntos de dados fácticos e criativos.

Bloco 4: Aplicação (Escalabilidade e Robustez)

Atividade: Debate de Otimização. Compare Aprendizado por Reforço (PPO/GRPO) com Estratégias Evolutivas (ES).
Tarefa: Determinar qual método é superior para "tarefas com recompensa esparsa e de longo horizonte" e resistência ao "hack de recompensa", baseado em pesquisas de 2026 do Cognizant AI Lab.

4. Revisão e Extensão

Equívocos:

Falácia do "Atualização Completa": Acreditar que ajuste fino de alta qualidade exige atualizar todos os bilhões de parâmetros (Correção: LoRA/QLoRA alcança isso via decomposição de posto).
Necessidade do "Modelo Crítico": Supor que RL sempre exige um LLM separado como avaliador (Correção: GRPO usa pontuação baseada em grupo e sistemas baseados em regras).

Diferenciação:

Apoio: Use AnimatedLLM para conceitualização não técnica da treinamento de próxima palavra.
Desafio: Implemente um pipeline de classificação de texto usando QLoRA em um conjunto de dados específico (ex: revisão de contratos jurídicos) para demonstrar a criação de "assistente personalizado".

Resultados de Aprendizagem:

Cognitivo: Explicar os mecanismos do pipeline pós-treinamento, incluindo a distinção entre o Ajuste Fino Supervisionado (SFT) e frameworks de Aprendizado por Reforço (RL), como o GRPO.
Habilidades: Projetar um pipeline de treinamento em múltiplas etapas — desde o início frio até o alinhamento final — utilizando técnicas de Ajuste Fino Eficiente em Parâmetros (PEFT), como LoRA.
Afectivo: Valorizar a mudança de ver a IA como uma "caixa-preta mágica" para um sistema engenhado de camadas mecânicas e raciocínio interno deliberado.

🔹 Aula 4: Engenharia de Prompts e Embasamento com RAG

Visão Geral: # Engenharia de Prompts e Embasamento com RAG

1. O Setup

Pergunta Fundamental: Como podemos passar de "truques" orientados à pesquisa para construir orquestrações de IA confiáveis e de produção que embasem modelos em dados do mundo real e infraestrutura resiliente?

Objetivos de Aprendizagem (SWBAT):

Cognitivo: Compreender o ciclo de vida do pipeline de Geração com Recuperação (RAG) e a necessidade de orquestração multi-fornecedor de LLMs para confiabilidade em produção.
Habilidades: Implementar análise avançada (chunking semântico e agente), avaliar precisão de recuperação usando métricas programáticas (MRR, NDCG) e projetar roteadores resilientes de tráfego para sistemas multi-modelos.
Afectivo: Valorizar a mudança de "truques" de prompt mal definidos para uma disciplina de engenharia rigorosa que inclui controle de versão e conscientização em segurança cibernética.

2. Componentes de Conhecimento Central (Os Ingredientes)

A. Conceitos-Chave (Substantivos):

Infraestrutura RAG: Modelos de embeddings densos, Representações vetoriais de alta dimensão, Bancos de dados vetoriais especializados (Pinecone, Deep Lake, Milvus), FAISS, Grafos HNSW.
Métodos de Chunking: Chunking semântico, Chunking sobreposto, Chunking agente.
Métricas de Avaliação: Recall@K, Precision@K, Média Recíproca de Rank (MRR), Ganho Cumulativo Descontado Normalizado (NDCG).
Arquiteturas Avançadas: Geração Aumentada por Cache (CAG), Roteamento de Multi-Consulta, RAG Hierárquico, RAG Multimodal.
Orquestração e Prompts: LLMOps, Controladores de tráfego (Routers), Camadas de gateway unificadas, Suportes de raciocínio, Vulnerabilidades adversarias, Controle de versão de prompts.

B. Princípios Fundamentais (Regras):

Necessidade de Embasamento: LLMs sofrem inherentemente com alucinações e cortes de conhecimento temporais; o RAG é necessário para conectá-los a bases de conhecimento externas.
Resiliência Arquitetônica: Depender de um único provedor de API terceirizada é uma vulnerabilidade crítica; os sistemas devem implementar orquestração multi-fornecedor e lógica de fallback automático.
Rigor de Engenharia: A engenharia de prompts deve passar de "truques" para uma disciplina formal envolvendo especificações de saída rígidas (ex: JSON válido) e etapas sequenciais explícitas.

C. Habilidades Essenciais (Verbos):

Ingestão: Converter texto não estruturado em representações vetoriais via modelos de embeddings densos.
Parse: Dividir texto com base no significado (semântico) ou em pontos de ruptura determinados por IA (agente), em vez de contagem de caracteres.
Quantificar: Medir rigorosamente a precisão de recuperação usando suites de testes programáticas.
Roteamento: Direcionar dinamicamente prompts para modelos (ex: Claude 3.5 Sonnet vs. modelos open-source) com base em custo, latência e profundidade de raciocínio.
Segurança: Identificar e mitigar vulnerabilidades adversarias onde a lógica de formatação é usada para burlar guardas.

3. Blocos Instrucionais (O Fluxo)

Bloco 1: Ativação (A Realidade da Produção)

Atividade: "A Auditoria de 2026". Os participantes analisam um cenário onde um script simples baseado em API de LLM falha devido a um corte de conhecimento ou falha do provedor. Discussão: Por que modelos "crus" são insuficientes para software de produção?

Bloco 2: Aquisição (RAG Avançado e LLMOps)

Conteúdo: Palestra sobre o ciclo de vida do RAG: da ingestão de dados até bancos vetoriais (FAISS/HNSW). Contraste chunking fixo com chunking semântico e agente. Introdução de arquiteturas altamente otimizadas como Geração Aumentada por Cache (CAG).

Bloco 3: Prática (Métricas e Roteamento)

Atividade: "O Laboratório do Avaliador". Dado um conjunto de dados, os participantes selecionam e justificam o uso de métricas específicas (MRR vs. NDCG) para quantificar o sucesso da recuperação. Depois, projetam um mapa de "Lógica de Roteamento" que determina se uma consulta deve ir para um modelo de raciocínio avançado (como OpenAI o3-mini) ou para um modelo econômico open-source.

Bloco 4: Aplicação (Projeto de Sistema Resiliente)

Atividade: "Engenharia do Pipeline". Os participantes elaboram uma arquitetura de sistema para um ambiente de alto risco. O projeto deve incluir:
1. Um pipeline RAG com chunking agente.
2. Uma camada de gateway unificada com lógica de fallback automático.
3. Um guia de engenharia de prompts utilizando suportes de raciocínio e especificações rígidas de saída JSON.

4. Revisão e Extensão

Equívocos:

Chunking de tamanho fixo é "suficiente": A realidade exige chunking semântico ou agente para preservar contexto entre fronteiras.
Engenharia de prompts é apenas escrita criativa: A realidade exige que seja uma disciplina formal com controle de versão e fluxos explícitos.
RAG é apenas sobre encontrar texto: O RAG moderno envolve integração multimodal (imagem e texto) e cache otimizado (CAG).

Diferenciação:

Apoio: Foque na transição de "truques" para padrões de formatação básicos e métricas simples de recuperação.
Desafio: Desafie alunos avançados a conectar engenharia de prompts e segurança em IA projetando um sistema para detectar/prevenir explorações de formatação adversaria.

Resultados de Aprendizagem:

Gerado

🔹 Aula 5: Privacidade, Ética e Navegando Modelos Open-Source

Visão Geral: # Privacidade, Ética e Navegando Modelos Open-Source

1. O Setup

Pergunta Fundamental: Em uma era de LLMs de alto desempenho em nuvem, por que a transição para implantação local e "Pesos Abertos" está se tornando uma exigência não negociável para IA de nível empresarial?

Objetivos de Aprendizagem (SWBAT):

Cognitivo: Distinguir entre "Open Source" (definições OSI) e modelos de "Pesos Abertos", e identificar os três principais motivadores para implantação local (privacidade, custo, capacidade offline).
Habilidades: Mapear requisitos de produção (como Augmentação de Conhecimento ou Confiança em Prompts) para soluções específicas de orquestração como Bancos de Dados Vetoriais, Roteadores de Backup e Red Teaming.
Afectivo: Valorizar a importância de restrições de privacidade de dados e testes éticos de segurança no desenvolvimento profissional de IA.

2. Componentes de Conhecimento Central (Os Ingredientes)

A. Conceitos-Chave (Substantivos):

Bancos de Dados Vetoriais: Pinecone, Deep Lake.
Componentes de Infraestrutura: Modelos de Embedding, Roteadores de Backup, Gateways.
Métricas de Avaliação: MRR (Média Recíproca de Rank), Precision@K, LLM como Juiz.
Categorias de Licença: Open Source (definição OSI), Pesos Abertos.
Ferramentas de Segurança: Red Teaming, Controle de Versão, Especificações de Formato de Saída.

B. Princípios Fundamentais (Regras):

Princípio de Embasamento: Os sistemas devem embasar respostas em dados privados específicos para reduzir drasticamente as taxas de alucinação.
Necessidade de Implantação: Privacidade corporativa rigorosa, custos cumulativos de tokens e necessidades offline tornam a implantação local essencial.
Nuance de Licença: Um modelo só é "Open Source" se incluir código de treinamento e direitos irrestritos; caso contrário, é "Pesos Abertos".
Regra de Resiliência: Sistemas empresariais devem rotear prompts dinamicamente para otimizar custo e disponibilidade.

C. Habilidades Essenciais (Verbos):

Orquestrar: Gerenciar sistemas multi-fornecedor e gateways.
Avaliar: Implementar pipelines automatizados para monitorar precisão de recuperação e qualidade de geração.
Diferenciar: Clarificar nuances de licenciamento entre tipos diferentes de modelos.
Proteger: Realizar testes de vulnerabilidades adversarias (Red Teaming).

3. Blocos Instrucionais (O Fluxo)

Bloco 1: Ativação (O Porquê da IA Local)

Atividade: "Auditoria de Custos-Privacidade". Os alunos analisam um cenário hipotético onde uma empresa enfrenta contas de tokens exorbitantes e vazamento de dados. Discutam como a implantação local resolve esses "desafios da Fase 5".

Bloco 2: Aquisição (Arquitetando a Solução)

Conteúdo: Desdobramento da tabela de Requisitos de Produção.
- Augmentação de Conhecimento: Usar bancos vetoriais para reduzir alucinações.
- Disponibilidade: Usar roteadores de backup para uptime.
- Segurança: Usar Red Teaming e Controle de Versão.
- Avaliação: Entender métricas MRR e Precision@K.

Bloco 3: Prática (Licenciamento e Lógica)

Atividade: "Classificação Open Source vs. Pesos Abertos". Dada uma lista de características de modelo (ex: "Parâmetros Públicos", "Inclui Código de Treinamento", "Restrições Comerciais"), os alunos devem categorizá-las corretamente com base nas definições fornecidas no texto.

Bloco 4: Aplicação (Design de Sistema)

Atividade: "Plano de Pipeline Resiliente". Os alunos projetam uma arquitetura de sistema de alto nível que inclua um Modelo de Embedding para embasamento de dados privados e um pipeline LLM como Juiz para monitoramento contínuo.

4. Revisão e Extensão

Equívocos:

Mitologia do "Aberto": Assumir que qualquer modelo com parâmetros públicos é "Open Source". (Correção: Pode ser apenas "Pesos Abertos" se o código de treinamento/direitos forem restritos).
Superioridade da Nuvem: Assumir que modelos em nuvem são sempre melhores. (Correção: Modelos locais são essenciais para escala, controle de custo e privacidade).

Diferenciação:

Apoio: Forneça um glossário para métricas de avaliação (MRR, Precision@K) para alunos novos em ciência de dados.
Desafio: Peça a desenvolvedores sêniores para projetar uma lógica de "Orquestração Multi-Provedor" que troque entre modelos locais e em nuvem com base no desempenho de "Precision@K" versus "Custo de Tokens".

Resultados de Aprendizagem:

Gerado

🔹 Aula 6: Fluxos Agênticos: Automatizando Tarefas Complexas

Visão Geral: # Fluxos Agênticos: Automatizando Tarefas Complexas

1. O Setup

Pergunta Fundamental: Como passamos de sistemas de IA que apenas geram texto em uma única passagem para agentes autônomos capazes de raciocinar, usar ferramentas e colaborar em microserviços distribuídos?

Objetivos de Aprendizagem (SWBAT):

Cognitivo: Contrapor frameworks de integração linear com orquestração cíclica baseada em grafos e diferenciar entre protocolos de integração vertical (MCP) e horizontal (A2A).
Habilidades: Definir nós especializados e arestas condicionais usando princípios da teoria dos grafos e implementar um servidor MCP usando FastMCP para conectar agentes a dados externos.
Afectivo: Valorizar a importância da "execução cíclica" e do gerenciamento de estado na imitação de fluxos cognitivos humanos complexos.

2. Componentes de Conhecimento Central (Os Ingredientes)

A. Conceitos-Chave (Substantivos):

Características de Agentes de IA: Autonomia, Uso de Ferramentas, Memória, Raciocínio.
Frameworks de Orquestração: LangGraph, CrewAI (vs. LangChain inicial).
Arquitetura de Grafos: Nós (tarefas/chamadas de ferramentas), Arestas Condicionais (caminhos de decisão), Esquemas de Estado (Python TypedDict).
Protocolos de Interoperabilidade: Protocolo de Contexto de Modelo (MCP), Protocolo Agent2Agent (A2A).
Ferramentas de Implantação: Ollama (CLI), LM Studio (GUI), FastMCP, LocalAI.
Modelos: Llama 3, Qwen2.5, DeepSeek-R1 (quantizados).

B. Princípios Fundamentais (Regras):

Mudança de Paradigma: Transição de geração estática e de uma única passagem para fluxos altamente autônomos e orientados a objetivos.
Execução Cíclica: Agentes devem realizar uma ação, avaliar o resultado e voltar para corrigir erros ou coletar informações.
Integração Vertical vs. Horizontal: MCP atua como um "USB-C" para conectar modelos a dados (Vertical); A2A atua como uma linguagem comum para comunicação entre agentes em ecossistemas diferentes (Horizontal).
Arquitetura de Microserviços: MCP e A2A são complementares, não concorrentes.

C. Habilidades Essenciais (Verbos):

Orquestrar: Gerenciar cadeias de lógica complexas e loop de tomada de decisão com estado.
Implantar: Executar modelos locais em hardware de consumo com latência zero.
Expor: Fornecer ferramentas (APIs), recursos (dados somente leitura) e prompts através de servidores MCP.
Negociar: Permitir que agentes independentes descubram capacidades e compartilhem resultados estruturados de forma programática.

3. Blocos Instrucionais (O Fluxo)

Bloco 1: Ativação (Do Estático para o Agêntico) Atividade: Compare uma interação padrão prompt-resposta com uma tarefa de múltiplos passos (ex: "Pesquisar um tema e escrever um relatório"). Os alunos identificam as quatro características agênticas centrais (Autonomia, Uso de Ferramentas, Memória, Raciocínio) necessárias para automatizar o último.

Bloco 2: Aquisição (Evolução de Frameworks e Teoria dos Grafos) Conteúdo: Palestra sobre as limitações de sequências lineares (LangChain inicial) em lidar com loops de tomada de decisão. Introduza os princípios de LangGraph: definir nós para tarefas e arestas condicionais para controle de fluxo. Explique como o TypedDict do Python mantém o estado ao longo desses passos para garantir que o "histórico de decisões" seja preservado.

Bloco 3: Prática (Integração Vertical com MCP) Atividade: Módulo prático usando FastMCP em Python. Os alunos constroem um servidor MCP local que expõe três funcionalidades (Ferramentas, Recursos, Prompts). Eles conectarão um agente a um banco de dados PostgreSQL local ou a uma API ativa (como Hacker News) para demonstrar a extensão de capacidades além dos dados de treinamento estáticos.

Bloco 4: Aplicação (Orquestração Horizontal com A2A) Atividade: Projete uma arquitetura de microserviços onde um "agente de pesquisa" (construído em LangGraph) usa MCP para acessar dados, depois utiliza o Protocolo A2A para comunicar seus achados a um "agente de decisão" (em um servidor separado). Pratique o uso de Server-Sent Events (SSE) para atualizações em streaming entre esses agentes.

4. Revisão e Extensão

Equívocos:

Linearidade: Os alunos frequentemente pensam que uma simples sequência de prompts é um "agente". A instrução deve enfatizar que agentes requerem execução cíclica e lógica condicional.
Concorrência de Protocolos: Clarifique que MCP e A2A não são rivais; um trata de acesso interno a ferramentas (MCP), enquanto o outro trata de colaboração externa entre agentes (A2A).

Diferenciação:

Apoio: Use o GUI do LM Studio para alunos que têm dificuldades com ambientes de linha de comando para descobrir e ajustar modelos.
Desafio: Desenvolvedores avançados devem implementar LocalAI como substituto drop-in da API OpenAI ou usar o text-generation-webui para integrar extensões de plugin extensas para seus fluxos agênticos.

Resultados de Aprendizagem:

Cognitivo: Contrapor frameworks de integração linear com orquestração cíclica baseada em grafos e diferenciar entre protocolos de integração vertical (MCP) e horizontal (A2A).
Habilidades: Definir nós especializados e arestas condicionais usando princípios da teoria dos grafos e implementar um servidor MCP usando FastMCP para conectar agentes a dados externos.
Afectivo: Valorizar a importância da "execução cíclica" e do gerenciamento de estado na imitação de fluxos cognitivos humanos complexos.

🔹 Aula 7: Capstone: Construindo Seu Sistema Pessoal de Produtividade com LLM

Visão Geral: # Capstone: Construindo Seu Sistema Pessoal de Produtividade com LLM

1. O Setup

Pergunta Fundamental: Como você passa de ser um consumidor passivo de inteligência artificial para se tornar um arquiteto principal capaz de construir sistemas de IA robustos, resilientes e autônomos?

Objetivos de Aprendizagem (SWBAT):

Cognitivo: Compreender as complexidades arquitetônicas dos protocolos de comunicação agente (LangGraph, MCP, A2A) e os fundamentos matemáticos do alinhamento pós-treinamento (Otimização Relativa de Grupo).
Habilidades: Construir um portfólio abrangente que vá de pipelines NLP locais e aplicações RAG seguras até sistemas empresariais distribuídos multi-agente.
Afectivo: Desenvolver "intuição de engenharia" ao ir além de APIs de nuvem superficiais e lidar com as mecânicas de baixo nível da manipulação de tensores e orquestração distribuída.

2. Componentes de Conhecimento Central (Os Ingredientes)

A. Conceitos-Chave (Substantivos):

Protocolos: Protocolo de Contexto de Modelo (MCP), Barramento de Comunicação Agent-to-Agent (A2A).
Arquiteturas: Pipeline NLP Fundacional, Arquitetura RAG Avançada, Fluxo Agêntico Autônomo, Capstone de Sistemas Distribuídos.
Ferramentas: Hugging Face (transformers/datasets), Ollama, LM Studio, Pinecone (Banco de Dados Vetorial), LangGraph.
Métricas: MRR (Média Recíproca de Rank), Precision@K.
Modelos: Modelos open-source quantizados, DeepSeek V3/R1, Modelos de Visão-Linguagem-Ação.

B. Princípios Fundamentais (Regras):

Aplicação Empírica: O conhecimento teórico se deteriora sem aplicação rigorosa e empírica em repositórios de código publicamente verificáveis.
Redução de Alucinações: Sistemas RAG locais devem utilizar suites de avaliação automatizadas para provar empiricamente a redução de alucinações em comparação com modelos base.
Trajetória de Complexidade: As habilidades devem ser construídas incrementalmente, conectando álgebra linear e manipulação de tensores com orquestração de alto nível de sistemas.
Educação Contínua: A proficiência em engenharia exige permanecer atualizado com artigos fundamentais (ICLR/ICML) e relatórios técnicos.

C. Habilidades Essenciais (Verbos):

Tokenizar: Converter conjuntos de dados textuais personalizados para consumo por modelos.
Chunk: Implementar estratégias avançadas de chunking sobreposto para grandes corpora.
Delegar: Usar protocolos A2A para mover tarefas entre agentes especializados (ex: Agente de Triagem para Agente de Dados).
Consultar: Acessar bancos de dados SQL simulados com segurança por meio de servidores MCP dedicados.
Raciocinar: Construir loops autônomos que realizam verificações internas até que um relatório esteja pronto para publicação.

3. Blocos Instrucionais (O Fluxo)

Bloco 1: Ativação (A Mudança para Engenharia de Especialista)

Atividade: Discussão "Além do Prompt". Contraste as limitações da engenharia básica de prompts e APIs proprietárias de nuvem com os requisitos da engenharia de "nível especialista" (teoria matemática, manipulação de tensores e sistemas distribuídos).

Bloco 2: Aquisição (Literatura e Fundamentos Técnicos)

Conteúdo: Aprofundamento em artigos fundamentais e relatórios técnicos. Os alunos revisam avanços do ICLR/ICML e os relatórios técnicos do DeepSeek V3/R1 para entender o "vanguarda" da arquitetura de modelos e técnicas de alinhamento como a Otimização Relativa de Grupo.

Bloco 3: Prática (Construção Progressiva de Projetos)

Atividade 1: O Pipeline NLP: Carregue localmente um modelo pré-treinado para executar geração e classificação de texto (ex: Previsão de churn de clientes).
Atividade 2: O Arquiteto RAG: Monte um RAG local usando Ollama/LM Studio e Pinecone. Os alunos devem implementar chunking sobreposto e usar MRR/Precision@K para medir o desempenho.

Bloco 4: Aplicação (O Capstone de Sistemas Distribuídos)

Atividade: Implantação do Sistema "Triage-Data Agent". Construa um ambiente multi-agente onde um "Agente de Triagem" principal receba solicitações e use o protocolo A2A para delegar consultas seguras a um "Agente de Dados" em execução em um processo separado via servidor MCP.

4. Revisão e Extensão

Equívocos:

Armadilha da API: Acreditar que chamar APIs proprietárias de nuvem é equivalente a engenharia de IA.
Q&A Estática: Pensar que sistemas de IA são limitados a perguntas e respostas estáticas em vez de fluxos agênticos autônomos e multi-etapa.
Teoria vs. Prática: Supor que ler artigos é suficiente sem desenvolver "repositórios de código publicamente verificáveis".

Diferenciação:

Apoio: Utilize recursos visuais como "LLM Transformer Model Visually Explained" e visualizações interativas (AnimatedLLM) para compreender operações mecânicas como fluxo de tensores e tokenização.
Desafio: Transite de agentes básicos para construir "Fluxos Agênticos Autônomos" especializados que decidam dinamicamente usar ferramentas de busca web ou execução de Python para satisfazer objetivos amplos (ex: análise de relatórios financeiros da SEC).

Modelos de Linguagem de Grande Porte para Todos: Dos Fundamentos ao Uso Prático (Edição 2026)

Aulas

Lesson

Visão Geral do Curso

📚 Resumo do Conteúdo

🎯 Objetivos de Aprendizagem

🔹 Aula 1: Introdução aos LLMs: Do Conceito à Realidade

2. Componentes de Conhecimento Central (Os Ingredientes)

3. Blocos Instrucionais (O Fluxo)

4. Revisão e Extensão

🔹 Aula 2: Por Trás dos Cúmulos: Como os LLMs Processam e Preveem Texto

1. O Setup

2. Componentes de Conhecimento Central (Os Ingredientes)

3. Blocos Instrucionais (O Fluxo)

4. Revisão e Extensão

🔹 Aula 3: Alinhamento e Raciocínio: Como a IA se Torna uma Assistente Útil

1. O Setup

2. Componentes de Conhecimento Central (Os Ingredientes)

3. Blocos Instrucionais (O Fluxo)

4. Revisão e Extensão

🔹 Aula 4: Engenharia de Prompts e Embasamento com RAG

1. O Setup

2. Componentes de Conhecimento Central (Os Ingredientes)

3. Blocos Instrucionais (O Fluxo)

4. Revisão e Extensão

🔹 Aula 5: Privacidade, Ética e Navegando Modelos Open-Source

1. O Setup

2. Componentes de Conhecimento Central (Os Ingredientes)

3. Blocos Instrucionais (O Fluxo)

4. Revisão e Extensão

🔹 Aula 6: Fluxos Agênticos: Automatizando Tarefas Complexas

1. O Setup

2. Componentes de Conhecimento Central (Os Ingredientes)

3. Blocos Instrucionais (O Fluxo)

4. Revisão e Extensão

🔹 Aula 7: Capstone: Construindo Seu Sistema Pessoal de Produtividade com LLM

1. O Setup

2. Componentes de Conhecimento Central (Os Ingredientes)

3. Blocos Instrucionais (O Fluxo)

4. Revisão e Extensão