กลับสู่คอร์สเรียน
AI012 Professional

การสำรวจลึกเกี่ยวกับโมเดลภาษาขนาดใหญ่

หลักสูตรนี้นำเสนอการแนะนำอย่างละเอียดและลึกซึ้งเกี่ยวกับประวัติการพัฒนาโมเดลภาษาขนาดใหญ่ (LLMs) สถาปัตยกรรมทางเทคนิคหลัก การฝึกอบรมแบบต่าง ๆ (การฝึกเบื้องต้น การปรับแต่ง และการประสานงาน) การขยายเป็นหลายรูปแบบ วิศวกรรมการกระตุ้น กระบวนการเหตุผลแบบห่วงโซ่ความคิด ตัวแทน รวมถึงหัวข้อแนวหน้า เช่น ความปลอดภัยของโมเดลและการปกป้องความเป็นส่วนตัว

4.9
24.0h
1067 ผู้เรียน
0 การถูกใจ
ปัญญาประดิษฐ์
เริ่มเรียน

ภาพรวมคอร์สเรียน

📚 สรุปเนื้อหา

หลักสูตรนี้ให้การแนะนำอย่างละเอียดและครอบคลุมเกี่ยวกับการพัฒนาของโมเดลภาษาขนาดใหญ่ (LLMs) สถาปัตยกรรมทางเทคนิคหลัก การเรียนรู้แบบต่างๆ (การฝึกเบื้องต้น การปรับแต่งเฉพาะจุด และการประสานงาน), การขยายไปยังระบบหลายมิติ, การออกแบบคำสั่ง (Prompt Engineering), ห่วงโซ่ความคิด (Chain of Thought หรือ CoT), ตัวแทน (Agents) รวมถึงหัวข้อขั้นสูง เช่น ความปลอดภัยของโมเดลและการปกป้องความเป็นส่วนตัว

การวิเคราะห์เชิงลึกเกี่ยวกับการเปลี่ยนแปลงทางเทคโนโลยีและการประสานงานด้านความปลอดภัยของโมเดลขนาดใหญ่ทั้งระบบ ตั้งแต่การฝึกเบื้องต้นจนถึงตัวแทนทั่วไป

🎯 เป้าหมายการเรียนรู้

  1. แยกแยะโครงสร้างโมเดล: ระบุความแตกต่างทางโครงสร้างและกรณีการใช้งานของโมเดลประเภท Encoder-Only, Decoder-Only และ Encoder-Decoder
  2. อธิบายกระบวนการฝึกโมเดลภาษาขนาดใหญ่ (LLM): อธิบายลำดับการเปลี่ยนจาก "การฝึกแบบไม่มีผู้ควบคุม" (self-supervised pre-training) สู่ "การปรับแต่งแบบมีผู้ควบคุม" (Supervised Fine-Tuning หรือ SFT) และ "การเรียนรู้เสริมจากการตอบสนองของมนุษย์" (Reinforcement Learning from Human Feedback หรือ RLHF)
  3. วิเคราะห์การขยายขนาดและพฤติกรรมของโมเดล: อธิบายแนวคิดเรื่องกฎการขยายขนาด (Scaling Laws), ความสามารถที่ปรากฏขึ้น (เช่น การเรียนรู้ในบริบท, ห่วงโซ่ความคิด), และปรากฏการณ์ของการเล่าเรื่องเท็จ (Hallucinations)
  4. วิเคราะห์ความแตกต่างทางโครงสร้างระหว่างสถาปัตยกรรม Encoder-Only (BERT), Decoder-Only (GPT), และ Encoder-Decoder (T5)
  5. อธิบายกระบวนการฝึกอบรมสามขั้นตอน: การฝึกเบื้องต้น (โมเดลพื้นฐาน), การปรับแต่งคำสั่ง (SFT), และการประสานงาน (RLHF/PPO)
  6. เปรียบเทียบประสิทธิภาพ กฎการขยายขนาด และนวัตกรรมทางสถาปัตยกรรมของโมเดลภาษาขนาดใหญ่หลัก เช่น GPT, Llama, Qwen และ DeepSeek
  7. ประยุกต์ใช้กลยุทธ์การสั่งงานแบบ zero-shot และ few-shot สำหรับการดึงข้อมูลโครงสร้างและจำแนกประเภท
  8. ปรับพารามิเตอร์ไฮเปอร์ของโมเดล (เช่น ความร้อน, Top P, ค่าลงโทษ) เพื่อสมดุลระหว่างผลลัพธ์ที่สร้างสรรค์และแน่นอน
  9. สร้างคำสั่งห่วงโซ่ความคิด (CoT) ที่มีประสิทธิภาพโดยใช้วิธีการแบบดั้งเดิม แบบอัตโนมัติ และแบบ zero-shot ("ลองคิดทีละขั้นตอน")
  10. วิเคราะห์และเปรียบเทียบรูปแบบต่างๆ ของห่วงโซ่ความคิด: แยกแยะระหว่าง Self-Consistency, Program of Thought (PoT), Tree-of-Thought (ToT), และ Graph-of-Thought (GoT)

บทเรียน