การศึกษาเชิงลึกเกี่ยวกับโมเดลภาษาขนาดใหญ่
หลักสูตรนี้ให้การแนะนำอย่างละเอียดและครอบคลุมเกี่ยวกับประวัติการพัฒนาโมเดลภาษาขนาดใหญ่ (LLMs) สถาปัตยกรรมทางเทคนิคหลัก การฝึกอบรมแบบต่าง ๆ (การฝึกเบื้องต้น การปรับแต่ง และการประสานงาน) การขยายเป็นหลายมิติ การใช้คำสั่ง (prompt engineering) การใช้เหตุผลแบบลำดับขั้นตอน (chain-of-thought reasoning) ระบบเอเจนต์ รวมถึงหัวข้อที่ทันสมัย เช่น ความปลอดภัยของโมเดลและการป้องกันความเป็นส่วนตัว
บทเรียน
ภาพรวมคอร์สเรียน
📚 สรุปเนื้อหา
หลักสูตรนี้ให้การแนะนำอย่างละเอียดและครอบคลุมเกี่ยวกับการพัฒนาของโมเดลภาษาขนาดใหญ่ (LLMs) สถาปัตยกรรมทางเทคนิคหลัก การเรียนรู้แบบต่างๆ (การฝึกเบื้องต้น การปรับแต่งเฉพาะจุด และการประสานงาน), การขยายไปยังระบบหลายมิติ, การออกแบบคำสั่ง (Prompt Engineering), ห่วงโซ่ความคิด (Chain of Thought หรือ CoT), ตัวแทน (Agents) รวมถึงหัวข้อขั้นสูง เช่น ความปลอดภัยของโมเดลและการปกป้องความเป็นส่วนตัว
การวิเคราะห์เชิงลึกเกี่ยวกับการเปลี่ยนแปลงทางเทคโนโลยีและการประสานงานด้านความปลอดภัยของโมเดลขนาดใหญ่ทั้งระบบ ตั้งแต่การฝึกเบื้องต้นจนถึงตัวแทนทั่วไป
🎯 เป้าหมายการเรียนรู้
- แยกแยะโครงสร้างโมเดล: ระบุความแตกต่างทางโครงสร้างและกรณีการใช้งานของโมเดลประเภท Encoder-Only, Decoder-Only และ Encoder-Decoder
- อธิบายกระบวนการฝึกโมเดลภาษาขนาดใหญ่ (LLM): อธิบายลำดับการเปลี่ยนจาก "การฝึกแบบไม่มีผู้ควบคุม" (self-supervised pre-training) สู่ "การปรับแต่งแบบมีผู้ควบคุม" (Supervised Fine-Tuning หรือ SFT) และ "การเรียนรู้เสริมจากการตอบสนองของมนุษย์" (Reinforcement Learning from Human Feedback หรือ RLHF)
- วิเคราะห์การขยายขนาดและพฤติกรรมของโมเดล: อธิบายแนวคิดเรื่องกฎการขยายขนาด (Scaling Laws), ความสามารถที่ปรากฏขึ้น (เช่น การเรียนรู้ในบริบท, ห่วงโซ่ความคิด), และปรากฏการณ์ของการเล่าเรื่องเท็จ (Hallucinations)
- วิเคราะห์ความแตกต่างทางโครงสร้างระหว่างสถาปัตยกรรม Encoder-Only (BERT), Decoder-Only (GPT), และ Encoder-Decoder (T5)
- อธิบายกระบวนการฝึกอบรมสามขั้นตอน: การฝึกเบื้องต้น (โมเดลพื้นฐาน), การปรับแต่งคำสั่ง (SFT), และการประสานงาน (RLHF/PPO)
- เปรียบเทียบประสิทธิภาพ กฎการขยายขนาด และนวัตกรรมทางสถาปัตยกรรมของโมเดลภาษาขนาดใหญ่หลัก เช่น GPT, Llama, Qwen และ DeepSeek
- ประยุกต์ใช้กลยุทธ์การสั่งงานแบบ zero-shot และ few-shot สำหรับการดึงข้อมูลโครงสร้างและจำแนกประเภท
- ปรับพารามิเตอร์ไฮเปอร์ของโมเดล (เช่น ความร้อน, Top P, ค่าลงโทษ) เพื่อสมดุลระหว่างผลลัพธ์ที่สร้างสรรค์และแน่นอน
- สร้างคำสั่งห่วงโซ่ความคิด (CoT) ที่มีประสิทธิภาพโดยใช้วิธีการแบบดั้งเดิม แบบอัตโนมัติ และแบบ zero-shot ("ลองคิดทีละขั้นตอน")
- วิเคราะห์และเปรียบเทียบรูปแบบต่างๆ ของห่วงโซ่ความคิด: แยกแยะระหว่าง Self-Consistency, Program of Thought (PoT), Tree-of-Thought (ToT), และ Graph-of-Thought (GoT)
🔹 บทเรียนที่ 1: บทนำเกี่ยวกับโมเดลภาษาขนาดใหญ่และเทคโนโลยีการฝึกเบื้องต้น
ภาพรวม: บทเรียนนี้สำรวจการเปลี่ยนแปลงของปัญญาประดิษฐ์จากโมเดลขนาดเล็กเฉพาะหน้าที่ ไปสู่โมเดลภาษาขนาดใหญ่ (LLM) ที่มีวัตถุประสงค์ทั่วไป ครอบคลุมการเปลี่ยนแปลงทางสถาปัตยกรรมจากโมเดลแบบ Encoder อย่าง "BERTology" สู่แนวทางสร้างสรรค์แบบ Decoder-Only โดยครอบคลุมสายการผลิตทางเทคนิคสำคัญในการฝึกเบื้องต้น การปรับแต่งคำสั่ง และการประสานงาน (RLHF) นอกจากนี้ยังวิเคราะห์ชุดโมเดลชั้นนำในอุตสาหกรรม เช่น GPT, Llama และนวัตกรรมภายในประเทศ เช่น Qwen และ DeepSeek
ผลลัพธ์การเรียนรู้:
- แยกแยะโครงสร้างโมเดล: ระบุความแตกต่างทางโครงสร้างและกรณีการใช้งานของโมเดลประเภท Encoder-Only, Decoder-Only และ Encoder-Decoder
- อธิบายกระบวนการฝึกโมเดลภาษาขนาดใหญ่ (LLM): อธิบายลำดับการเปลี่ยนจาก "การฝึกแบบไม่มีผู้ควบคุม" (self-supervised pre-training) สู่ "การปรับแต่งแบบมีผู้ควบคุม" (Supervised Fine-Tuning หรือ SFT) และ "การเรียนรู้เสริมจากการตอบสนองของมนุษย์" (Reinforcement Learning from Human Feedback หรือ RLHF)
- วิเคราะห์การขยายขนาดและพฤติกรรมของโมเดล: อธิบายแนวคิดเรื่องกฎการขยายขนาด (Scaling Laws), ความสามารถที่ปรากฏขึ้น (เช่น การเรียนรู้ในบริบท, ห่วงโซ่ความคิด), และปรากฏการณ์ของการเล่าเรื่องเท็จ (Hallucinations)
🔹 บทเรียนที่ 2: กรณีศึกษาโมเดลภาษาขนาดใหญ่หลักและกลยุทธ์การนำไปใช้งาน
ภาพรวม: บทเรียนนี้ให้ภาพรวมทางเทคนิคโดยรวมเกี่ยวกับโมเดลภาษาขนาดใหญ่ (LLM) โดยติดตามการพัฒนาตั้งแต่สถาปัตยกรรมพื้นฐานแบบ Encoder-Decoder ไปสู่ระบบสมัยใหม่ที่มีหลายมิติและใช้ตัวแทน (Agent) รายละเอียดสายการผลิตทางเทคนิคหลัก ได้แก่ การฝึกเบื้องต้น การปรับแต่งคำสั่ง และการประสานงาน พร้อมประเมินกรณีศึกษาหลัก เช่น GPT-4, Llama 3 และ DeepSeek บทเรียนสิ้นสุดด้วยกลยุทธ์การนำไปใช้งานจริง (การใช้ API หรือใช้ในท้องถิ่น) และกรอบการเขียนคำสั่งขั้นสูง เช่น RAG และ ReAct
ผลลัพธ์การเรียนรู้:
- วิเคราะห์ความแตกต่างทางโครงสร้างระหว่างสถาปัตยกรรม Encoder-Only (BERT), Decoder-Only (GPT), และ Encoder-Decoder (T5)
- อธิบายกระบวนการฝึกอบรมสามขั้นตอน: การฝึกเบื้องต้น (โมเดลพื้นฐาน), การปรับแต่งคำสั่ง (SFT), และการประสานงาน (RLHF/PPO)
- เปรียบเทียบประสิทธิภาพ กฎการขยายขนาด และนวัตกรรมทางสถาปัตยกรรมของโมเดลภาษาขนาดใหญ่หลัก เช่น GPT, Llama, Qwen และ DeepSeek
🔹 บทเรียนที่ 3: พื้นฐานการเขียนคำสั่ง (Prompt Engineering) และห่วงโซ่ความคิด
ภาพรวม: บทเรียนนี้ครอบคลุมการเปลี่ยนผ่านขั้นสูงจากคำสั่งแบบ zero-shot ทั่วไป ไปสู่การเรียนรู้แบบมีโครงสร้าง (few-shot) และความสามารถในการคิดเชิงเหตุผลที่เกิดขึ้นใหม่ในห่วงโซ่ความคิด (Chain of Thought หรือ CoT) นักเรียนจะวิเคราะห์วิธีควบคุมพฤติกรรมของโมเดลด้วยพารามิเตอร์ทางเทคนิคและตัวอย่างที่มีโครงสร้าง เพื่อแก้ปัญหาเชิงตรรกะ คณิตศาสตร์ และภาษาที่ซับซ้อน วัสดุการเรียนรู้สิ้นสุดด้วยการสำรวจการเรียนรู้ที่ควบคุมกระบวนการ และวิธีการสร้างห่วงโซ่ความคิดอัตโนมัติ
ผลลัพธ์การเรียนรู้:
- ประยุกต์ใช้กลยุทธ์การสั่งงานแบบ zero-shot และ few-shot สำหรับการดึงข้อมูลโครงสร้างและจำแนกประเภท
- ปรับพารามิเตอร์ไฮเปอร์ของโมเดล (ความร้อน, Top P, ค่าลงโทษ) เพื่อสมดุลระหว่างผลลัพธ์ที่สร้างสรรค์และแน่นอน
- สร้างคำสั่งห่วงโซ่ความคิด (CoT) ที่มีประสิทธิภาพโดยใช้วิธีการแบบดั้งเดิม แบบอัตโนมัติ และแบบ zero-shot ("ลองคิดทีละขั้นตอน")
🔹 บทเรียนที่ 4: การคิดเชิงวิเคราะห์ขั้นสูง การแก้ไขความรู้ และตรรกะทางคณิตศาสตร์
ภาพรวม: บทเรียนนี้สำรวจรูปแบบต่างๆ ของห่วงโซ่ความคิด (CoT) ขั้นสูง โครงสร้างทางเทคนิคสำหรับการแก้ไขความรู้ภายในโมเดลภาษาขนาดใหญ่ (LLM) และโดเมนเฉพาะทางของตรรกะทางคณิตศาสตร์ รายละเอียดว่าโมเดลเปลี่ยนจากตรรกะแบบเส้นตรงง่ายๆ ไปสู่โครงสร้างแบบกราฟที่ซับซ้อนได้อย่างไร วิธีการแก้ไขความรู้ที่ไม่ต้องการผ่านการแก้ไขภายในและภายนอก รวมถึงกระบวนการฝึกและประเมินผลสำหรับโมเดลคณิตศาสตร์ระดับสูง
ผลลัพธ์การเรียนรู้:
- วิเคราะห์และเปรียบเทียบรูปแบบต่างๆ ของห่วงโซ่ความคิด: แยกแยะระหว่าง Self-Consistency, Program of Thought (PoT), Tree-of-Thought (ToT), และ Graph-of-Thought (GoT)
- ประเมินเทคนิคการแก้ไขความรู้: เข้าใจเกณฑ์ด้านความน่าเชื่อถือ (Reliability), ความเฉพาะเจาะจง (Locality), และความสามารถในการถ่ายโอน (Portability) และแยกแยะระหว่างวิธีแก้ไขภายใน (เช่น ROME) และภายนอก (เช่น SERAC)
- ประเมินกระบวนการตรรกะทางคณิตศาสตร์: ระบุข้อมูลการฝึก (เช่น GSM8K, MATH, AIME) และกระบวนการดัดแปลง (distillation) ที่ใช้เพื่อเพิ่มความสามารถในการคิดเชิงยาวในโมเดล เช่น DeepSeek-Math และ o1
🔹 บทเรียนที่ 5: ความปลอดภัยของเนื้อหา การทำเครื่องหมายน้ำ และการวิเคราะห์การหลบหลีก
ภาพรวม: บทเรียนนี้สำรวจกลไกทางเทคนิคในการตรวจจับเนื้อหาที่สร้างโดยโมเดลภาษาขนาดใหญ่ และความท้าทายด้านความปลอดภัยที่เกิดจากโจมตีเชิงรุก ครอบคลุมเทคนิคการใส่เครื่องหมายน้ำเชิงสถิติ (เช่น KGW, SIR, X-SIR) ที่ออกแบบมาเพื่อคงอยู่แม้ถูกแปลหรือเขียนใหม่ พร้อมวิเคราะห์คำสั่งแบบ "หลบหลีก" (Jailbreak) เช่น DAN และ STAN ที่ใช้หลบเลี่ยงเกราะป้องกันด้านความปลอดภัย วัสดุการเรียนรู้สิ้นสุดด้วยกลยุทธ์ป้องกัน และความขัดแย้งที่แท้จริงระหว่างประโยชน์ของโมเดลกับความไม่เป็นอันตราย
ผลลัพธ์การเรียนรู้:
- วิเคราะห์พื้นฐานทางคณิตศาสตร์ของการทำเครื่องหมายน้ำแบบ KGW และ SIR รวมถึงการแบ่งชุดคำศัพท์ (vocab partitioning) และการปรับเปลี่ยนที่ไม่เปลี่ยนแปลงทางความหมาย (semantic invariant adjustments)
- ระบุและจำแนกกลยุทธ์การหลบหลีก เช่น "การเล่นบทบาท", "การเพิ่มสิทธิพิเศษ", และ "การโจมตีแบบรหัส"
- ประเมินมาตรการป้องกัน เช่น การป้องกันในบริบท (In-Context Defense หรือ ICD), การเตือนระวัง (Cautionary Warning Defense หรือ CWD), และการทดสอบเชิงรุก (Red Teaming)
🔹 บทเรียนที่ 6: การซ่อนข้อมูลในโมเดลภาษาขนาดใหญ่ และงานวิจัยด้านการปกป้องความเป็นส่วนตัว
ภาพรวม: บทเรียนนี้สำรวจสมดุลที่สำคัญระหว่างประโยชน์การใช้งานของโมเดลภาษาขนาดใหญ่ (LLM) กับด้านความปลอดภัย โดยเน้นกลไกการโจมตีแบบ "หลบหลีก" และการใช้เทคนิคการซ่อนข้อมูล (Steganography) ครอบคลุมวิธีที่ผู้โจมตีหลบเลี่ยงกรองความปลอดภัยด้วยการออกแบบคำสั่งขั้นสูง (เช่น DAN, STAN) และวิธีที่โมเดลภาษาขนาดใหญ่สามารถใช้สื่อสารลับโดยการฝังข้อมูลไว้ในกระบวนการสร้างโทเค็น รวมถึงนำเสนอสถาปัตยกรรมและศักยภาพของโมเดลภาษาขนาดใหญ่หลายมิติ (MLLMs) ในการประมวลผลและสร้างข้อมูลหลากหลายประเภท เช่น ภาพ เสียง และวิดีโอ
ผลลัพธ์การเรียนรู้:
- ระบุและวิเคราะห์รูปแบบการโจมตีแบบหลบหลีกทั่วไป เช่น การเล่นบทบาท (DAN), การบีบบังคับทางความคิด (PUA), และวิธีการทางด้านข้าง (รหัส/โค้ด)
- อธิบายกลไกทางเทคนิคของการซ่อนข้อมูลในโมเดลภาษาขนาดใหญ่ โดยเฉพาะการแปลงสตรีมบิตเป็นการแจกแจงความน่าจะเป็น (logits) ของคำถัดไป
- จัดหมวดหมู่สถาปัตยกรรม MLLM ตามความสามารถในการรับรู้และสร้างข้อมูลในหลายมิติ (ข้อความ, ภาพ, เสียง, 3D)
🔹 บทเรียนที่ 7: สถาปัตยกรรมและการออกแบบโมเดลภาษาขนาดใหญ่หลายมิติขั้นสูง
ภาพรวม: บทเรียนนี้สำรวจโครงสร้างพื้นฐานทางเทคนิคของโมเดลภาษาขนาดใหญ่หลายมิติ (MLLMs) โดยเน้นกลไกการเข้ารหัส การแปลง และการถอดรหัสที่ทำให้เกิดความฉลาดข้ามมิติ รายละเอียดการเปลี่ยนผ่านจากตัวเข้ารหัสเฉพาะมิติไปสู่พื้นที่แสดงผลรวมเดียวกัน และวิเคราะห์วิธีการต่างๆ ที่ใช้เชื่อมช่องว่างระหว่างสัญญาณที่ไม่ใช่ข้อความกับพื้นที่ความหมายของโมเดลภาษาขนาดใหญ่
ผลลัพธ์การเรียนรู้:
- ระบุตัวเข้ารหัสเฉพาะและวิธีการแยกโทเค็นสำหรับมิติที่ไม่ใช่ภาพ เช่น เสียง (HuBERT, Whisper) และเมฆจุด 3 มิติ (Point-BERT)
- ประเมินเทคนิคการแปลงที่ด้านข้อมูลเข้า (Input-side projection) ต่างๆ เช่น แบบเส้นตรง (Linear), แบบหลายชั้น (Multi-layer MLP), และแบบรีแซมเปิ้ล (Resamplers) ที่ใช้จัดตำแหน่งข้อมูลหลายมิติให้เข้ากับพื้นที่ความหมายของโมเดลภาษาขนาดใหญ่
- เปรียบเทียบกลยุทธ์การเชื่อมต่อที่ด้านการถอดรหัส (Decoding-side) สามรูปแบบหลัก: โทเค็นแบบไม่ต่อเนื่อง, ตัวแทนแบบต่อเนื่อง, และบุ๊กบุ๊ก (codebooks) สำหรับการสร้างข้อมูลหลายมิติ
🔹 บทเรียนที่ 8: ตัวแทนอัตโนมัติ ระบบการเรียนรู้เสริมจากข้อมูลมนุษย์ (RLHF) และการประสานงานด้านความปลอดภัย
ภาพรวม: บทเรียนนี้สำรวจการพัฒนาของตัวแทนที่มีอินเทอร์เฟซกราฟิก (GUI agents) จากการดำเนินงานแบบคงที่ ไปสู่การตัดสินใจอัตโนมัติในสภาพแวดล้อมที่เปลี่ยนแปลงได้ ครอบคลุมสถาปัตยกรรมทางเทคนิคของตัวแทนแบบเปิดและแบบปิด รวมถึงการรวมระบบการเรียนรู้เสริมจากข้อมูลมนุษย์ (RLHF) และการเพิ่มประสิทธิภาพนโยบายแบบใกล้เคียง (Proximal Policy Optimization หรือ PPO) เพื่อประสานพฤติกรรมตัวแทนกับค่านิยมของมนุษย์ พร้อมทั้งวิเคราะห์ความท้าทายด้านความปลอดภัยที่สำคัญ ตั้งแต่การโจมตีด้วยคำสั่งจากสภาพแวดล้อม ไปจนถึงบุ๋มภายในโมเดล ซึ่งต้องอาศัยกรอบการป้องกันที่แข็งแรง เช่น GuardAgent และ R-Judge
ผลลัพธ์การเรียนรู้:
- วิเคราะห์องค์ประกอบทางสถาปัตยกรรมของตัวแทน GUI รวมถึงโมดูลวางแผน การตัดสินใจ และการสะท้อน (reflection) ในระบบตัวแทนหลายตัว
- อธิบายกลไกการเรียนรู้เชิงเสริม (RL) และการเรียนรู้เสริมจากข้อมูลมนุษย์ (RLHF) โดยเฉพาะบทบาทของโมเดลรางวัล (reward models) และการเพิ่มประสิทธิภาพนโยบายแบบใกล้เคียง (PPO) ในการประสานพฤติกรรมตัวแทนกับค่านิยมของมนุษย์
- ประเมินความเสี่ยงด้านความปลอดภัยและปัญหาความน่าเชื่อถือของตัวแทนอัตโนมัติ รวมถึงข้อผิดพลาดนอกขอบเขต (Out-of-Distribution หรือ OOD), การโจมตีแบบหลบหลีก และการรบกวนจากสภาพแวดล้อม