Penjelajahan Mendalam tentang Model Bahasa Besar
Kursus ini menyediakan pengantar yang komprehensif dan mendalam mengenai sejarah pengembangan model bahasa besar (LLM), arsitektur teknis inti mereka, paradigma pelatihan (pretraining, fine-tuning, dan alignment), ekstensi multimodal, teknik prompt engineering, penalaran chain-of-thought, agen, serta topik terkini seperti keamanan model dan perlindungan privasi.
Pelajaran
Gambaran Umum Kursus
📚 Ringkasan Konten
Kursus ini menyediakan pengantar komprehensif dan mendalam mengenai evolusi Model Bahasa Besar (LLM), arsitektur teknis inti, paradigma pelatihan (pre-training, fine-tuning, dan alignment), ekstensi multimodal, teknik prompt engineering, Chain of Thought (CoT), agen, serta topik terdepan seperti keamanan model dan perlindungan privasi.
Analisis mendalam mengenai evolusi teknologi dan keselarasan keamanan model besar secara menyeluruh, mulai dari pre-training hingga agen umum.
🎯 Tujuan Pembelajaran
- Membedakan antara arsitektur model: Mengidentifikasi perbedaan struktural dan kasus penggunaan untuk model Encoder-only, Decoder-only, dan Encoder-Decoder.
- Menjelaskan Pipeline Pelatihan LLM: Mendeskripsikan transisi dari pre-training berbasis self-supervised ke Supervised Fine-Tuning (SFT) dan Reinforcement Learning from Human Feedback (RLHF).
- Menganalisis Skala dan Perilaku Model: Menjelaskan konsep Hukum Skala, Kemampuan Muncul (pembelajaran dalam konteks, Chain of Thought), serta fenomena Halusinasi.
- Menganalisis perbedaan struktur antara arsitektur Encoder-only (BERT), Decoder-only (GPT), dan Encoder-Decoder (T5).
- Menjelaskan proses pelatihan tiga tahap: Pre-training (model dasar), Instruction Tuning (SFT), dan Alignment (RLHF/PPO).
- Membandingkan kinerja, hukum skala, dan inovasi arsitektur dari LLM utama seperti GPT, Llama, Qwen, dan DeepSeek.
- Menerapkan strategi prompting zero-shot dan few-shot untuk ekstraksi dan klasifikasi data terstruktur.
- Mengkalibrasi hipertes (Temperature, Top P, Penalti) untuk menyeimbangkan output kreatif dan deterministik.
- Membangun prompt Chain-of-Thought (CoT) yang efektif menggunakan metode manual, otomatis, dan zero-shot ("Mari kita pikir langkah demi langkah").
- Menganalisis dan Membandingkan Varian CoT: Membedakan antara Self-Consistency, Program of Thought (PoT), Tree-of-Thought (ToT), dan Graph-of-Thought (GoT).
🔹 Pelajaran 1: Pengantar Model Bahasa Besar dan Teknologi Pre-training
Gambaran Umum: Pelajaran ini menjelajahi evolusi Kecerdasan Buatan dari model kecil khusus menjadi Model Bahasa Besar (LLM) berfungsi umum. Ini mencakup pergeseran arsitektur dari pendekatan "BERTology" berbasis Encoder menuju paradigma generatif Decoder-only, meliputi pipeline teknis kritis pre-training, tuning instruksi, dan alignment (RLHF). Selain itu, konten ini mengevaluasi keluarga model unggulan industri termasuk GPT, Llama, dan inovasi domestik seperti Qwen dan DeepSeek.
Hasil Pembelajaran:
- Membedakan antara arsitektur model: Mengidentifikasi perbedaan struktural dan kasus penggunaan untuk model Encoder-only, Decoder-only, dan Encoder-Decoder.
- Menjelaskan Pipeline Pelatihan LLM: Mendeskripsikan transisi dari pre-training berbasis self-supervised ke Supervised Fine-Tuning (SFT) dan Reinforcement Learning from Human Feedback (RLHF).
- Menganalisis Skala dan Perilaku Model: Menjelaskan konsep Hukum Skala, Kemampuan Muncul (pembelajaran dalam konteks, Chain of Thought), serta fenomena Halusinasi.
🔹 Pelajaran 2: Studi Kasus LLM Utama dan Strategi Pelaksanaan
Gambaran Umum: Pelajaran ini memberikan gambaran teknis komprehensif mengenai Model Bahasa Besar (LLM), melacak evolusinya dari arsitektur encoder-decoder dasar hingga sistem modern multimodal dan berbasis agen. Ini menjelaskan pipeline teknis inti—yang terdiri atas pre-training, tuning instruksi, dan alignment—sementara mengevaluasi studi kasus utama seperti GPT-4, Llama 3, dan DeepSeek. Modul ini diakhiri dengan strategi pelaksanaan praktis (API vs. Lokal) serta kerangka teknik prompting canggih seperti RAG dan ReAct.
Hasil Pembelajaran:
- Menganalisis perbedaan struktur antara arsitektur Encoder-only (BERT), Decoder-only (GPT), dan Encoder-Decoder (T5).
- Menjelaskan proses pelatihan tiga tahap: Pre-training (model dasar), Instruction Tuning (SFT), dan Alignment (RLHF/PPO).
- Membandingkan kinerja, hukum skala, dan inovasi arsitektur dari LLM utama seperti GPT, Llama, Qwen, dan DeepSeek.
🔹 Pelajaran 3: Dasar-Dasar Engineering Prompt dan Chain-of-Thought
Gambaran Umum: Pelajaran ini membahas transisi lanjutan dari prompting zero-shot dasar ke pembelajaran few-shot terstruktur dan kemampuan penalaran muncul Chain-of-Thought (CoT). Siswa akan menganalisis bagaimana mengendalikan perilaku model melalui hipertes teknis dan demonstrasi terstruktur untuk menyelesaikan tugas logika, matematika, dan linguistik yang kompleks. Materi diakhiri dengan eksplorasi pembelajaran yang dipantau proses dan metode pembentukan CoT otomatis.
Hasil Pembelajaran:
- Menerapkan strategi prompting zero-shot dan few-shot untuk ekstraksi dan klasifikasi data terstruktur.
- Mengkalibrasi hipertes model (Temperature, Top P, Penalti) untuk menyeimbangkan output kreatif dan deterministik.
- Membangun prompt Chain-of-Thought (CoT) yang efektif menggunakan metode manual, otomatis, dan zero-shot ("Mari kita pikir langkah demi langkah").
🔹 Pelajaran 4: Penalaran Lanjutan, Pengeditan Pengetahuan, dan Logika Matematis
Gambaran Umum: Pelajaran ini menjelajahi varian struktural lanjutan dari prompting Chain-of-Thought (CoT), kerangka teknis untuk mengedit pengetahuan dalam Model Bahasa Besar (LLM), serta bidang khusus logika matematis. Ini menjelaskan bagaimana model beralih dari penalaran linear sederhana ke struktur berbasis graf kompleks, bagaimana pengetahuan "tidak diinginkan" diperbaiki melalui pengeditan internal dan eksternal, serta pipeline pelatihan/evaluasi untuk model matematis terkini.
Hasil Pembelajaran:
- Menganalisis dan Membandingkan Varian CoT: Membedakan antara Self-Consistency, Program of Thought (PoT), Tree-of-Thought (ToT), dan Graph-of-Thought (GoT).
- Menilai Teknik Pengeditan Pengetahuan: Memahami metrik Reliability, Locality, dan Portability, serta membedakan antara solusi pengeditan internal (ROME) dan eksternal (SERAC).
- Menilai Pipeline Logika Matematis: Mengidentifikasi data pelatihan (GSM8K, MATH, AIME) dan proses distilasi yang digunakan untuk meningkatkan penalaran matematis jangka panjang pada model seperti DeepSeek-Math dan o1.
🔹 Pelajaran 5: Keamanan Konten, Watermarking, dan Analisis Jailbreak
Gambaran Umum: Pelajaran ini menjelajahi mekanisme teknis untuk mengidentifikasi konten hasil generasi LLM dan tantangan keamanan yang ditimbulkan oleh serangan adversarial. Ini mencakup teknik watermarking statistik (KGW, SIR, X-SIR) yang dirancang agar bertahan terhadap terjemahan dan pemindaian ulang, serta analisis prompt "Jailbreak" (DAN, STAN) yang digunakan untuk melanggar pengamanan. Materi diakhiri dengan strategi pertahanan dan konflik inheren antara bantuan model dan ketidakberbahayaannya.
Hasil Pembelajaran:
- Menganalisis fondasi matematis watermarking KGW dan SIR, termasuk partisi vocab dan penyesuaian invariant semantik.
- Mengidentifikasi dan Mengkategorikan strategi jailbreak seperti "Pura-pura," "Peningkatan Hak Akses," dan serangan berbasis Cipher.
- Menilai langkah-langkah pertahanan termasuk In-Context Defense (ICD), Cautionary Warning Defense (CWD), dan Red Teaming.
🔹 Pelajaran 6: Penelitian Steganografi LLM dan Perlindungan Privasi
Gambaran Umum: Pelajaran ini menjelajahi keseimbangan krusial antara utilitas Model Bahasa Besar (LLM) dan keamanan, dengan fokus pada mekanisme serangan "jailbreak" dan implementasi teknis steganografi. Ini mencakup bagaimana penyerang melewati filter keamanan menggunakan rekayasa prompt canggih (misalnya, DAN, STAN) dan bagaimana LLM dapat digunakan untuk komunikasi tersembunyi dengan menyisipkan data dalam proses generasi token. Selain itu, diperkenalkan arsitektur dan kemampuan Model Bahasa Besar Multimodal (MLLM) dalam memproses dan menghasilkan berbagai jenis data seperti gambar, audio, dan video.
Hasil Pembelajaran:
- Mengidentifikasi dan menganalisis pola serangan jailbreak umum, termasuk role-playing (DAN), paksaan kognitif (PUA), dan metode side-channel (cipher/kode).
- Menjelaskan mekanisme teknis steganografi LLM, khususnya bagaimana bitstream dipetakan ke distribusi probabilitas (logits) prediksi token berikutnya.
- Mengkategorikan arsitektur MLLM berdasarkan kemampuan mereka dalam memahami dan menghasilkan berbagai modality (Teks, Gambar, Audio, 3D).
🔹 Pelajaran 7: Arsitektur dan Desain LLM Multimodal Lanjutan
Gambaran Umum: Pelajaran ini menjelajahi infrastruktur teknis Model Bahasa Besar Multimodal (MLLM), dengan fokus pada mekanisme encoding, proyeksi, dan decoding yang memungkinkan kecerdasan lintas-modal. Ini mendetailkan transisi dari encoder khusus modality menuju ruang representasi terpadu dan menganalisis berbagai metode yang digunakan untuk menutup celah antara sinyal non-teks dan ruang semantik LLM.
Hasil Pembelajaran:
- Mengidentifikasi encoder khusus dan metode tokenisasi untuk modality non-visual, termasuk audio (HuBERT, Whisper) dan awan titik 3D (Point-BERT).
- Menilai berbagai teknik proyeksi sisi input (Linear, Multi-layer MLP, Resamplers) yang digunakan untuk menyelaraskan representasi multimodal dengan ruang semantik LLM.
- Membandingkan tiga strategi utama koneksi sisi decoding: token diskret, embedding kontinu, dan codebook untuk generasi multimodal.
🔹 Pelajaran 8: Agen Otonom, RLHF, dan Keselarasan Keamanan
Gambaran Umum: Pelajaran ini menjelajahi evolusi agen GUI dari eksekusi tugas statis hingga pengambilan keputusan otonom dalam lingkungan dinamis. Ini mendetailkan arsitektur teknis agen open-source dan closed-source, integrasi Reinforcement Learning from Human Feedback (RLHF) dan Proximal Policy Optimization (PPO) untuk keselarasan kebijakan, serta tantangan keamanan kritis—mulai dari injeksi prompt lingkungan hingga backdoor model—yang menuntut kerangka pertahanan kuat seperti GuardAgent dan R-Judge.
Hasil Pembelajaran:
- Menganalisis komponen arsitektur agen GUI, termasuk modul perencanaan, pengambilan keputusan, dan refleksi dalam sistem multi-agen.
- Menjelaskan mekanisme Reinforcement Learning (RL) dan RLHF, khususnya peran model hadiah dan PPO dalam menyelaraskan perilaku agen dengan nilai manusia.
- Menilai risiko keamanan dan masalah keandalan pada agen otonom, termasuk kesalahan Out-of-Distribution (OOD), serangan jailbreak, dan gangguan lingkungan.