กลับสู่คอร์สเรียน
AI012 Professional

การศึกษาเชิงลึกเกี่ยวกับโมเดลภาษาขนาดใหญ่

หลักสูตรนี้ให้การแนะนำอย่างละเอียดและครอบคลุมเกี่ยวกับประวัติการพัฒนาโมเดลภาษาขนาดใหญ่ (LLMs) สถาปัตยกรรมทางเทคนิคหลัก การฝึกอบรมแบบต่าง ๆ (การฝึกเบื้องต้น การปรับแต่ง และการประสานงาน) การขยายเป็นหลายมิติ การใช้คำสั่ง (prompt engineering) การใช้เหตุผลแบบลำดับขั้นตอน (chain-of-thought reasoning) ระบบเอเจนต์ รวมถึงหัวข้อที่ทันสมัย เช่น ความปลอดภัยของโมเดลและการป้องกันความเป็นส่วนตัว

4.9
24h
1067 ผู้เรียน
1 การถูกใจ
ปัญญาประดิษฐ์

ภาพรวมคอร์สเรียน

📚 สรุปเนื้อหา

หลักสูตรนี้ให้การแนะนำอย่างละเอียดและครอบคลุมเกี่ยวกับการพัฒนาของโมเดลภาษาขนาดใหญ่ (LLMs) สถาปัตยกรรมทางเทคนิคหลัก การเรียนรู้แบบต่างๆ (การฝึกเบื้องต้น การปรับแต่งเฉพาะจุด และการประสานงาน), การขยายไปยังระบบหลายมิติ, การออกแบบคำสั่ง (Prompt Engineering), ห่วงโซ่ความคิด (Chain of Thought หรือ CoT), ตัวแทน (Agents) รวมถึงหัวข้อขั้นสูง เช่น ความปลอดภัยของโมเดลและการปกป้องความเป็นส่วนตัว

การวิเคราะห์เชิงลึกเกี่ยวกับการเปลี่ยนแปลงทางเทคโนโลยีและการประสานงานด้านความปลอดภัยของโมเดลขนาดใหญ่ทั้งระบบ ตั้งแต่การฝึกเบื้องต้นจนถึงตัวแทนทั่วไป

🎯 เป้าหมายการเรียนรู้

  1. แยกแยะโครงสร้างโมเดล: ระบุความแตกต่างทางโครงสร้างและกรณีการใช้งานของโมเดลประเภท Encoder-Only, Decoder-Only และ Encoder-Decoder
  2. อธิบายกระบวนการฝึกโมเดลภาษาขนาดใหญ่ (LLM): อธิบายลำดับการเปลี่ยนจาก "การฝึกแบบไม่มีผู้ควบคุม" (self-supervised pre-training) สู่ "การปรับแต่งแบบมีผู้ควบคุม" (Supervised Fine-Tuning หรือ SFT) และ "การเรียนรู้เสริมจากการตอบสนองของมนุษย์" (Reinforcement Learning from Human Feedback หรือ RLHF)
  3. วิเคราะห์การขยายขนาดและพฤติกรรมของโมเดล: อธิบายแนวคิดเรื่องกฎการขยายขนาด (Scaling Laws), ความสามารถที่ปรากฏขึ้น (เช่น การเรียนรู้ในบริบท, ห่วงโซ่ความคิด), และปรากฏการณ์ของการเล่าเรื่องเท็จ (Hallucinations)
  4. วิเคราะห์ความแตกต่างทางโครงสร้างระหว่างสถาปัตยกรรม Encoder-Only (BERT), Decoder-Only (GPT), และ Encoder-Decoder (T5)
  5. อธิบายกระบวนการฝึกอบรมสามขั้นตอน: การฝึกเบื้องต้น (โมเดลพื้นฐาน), การปรับแต่งคำสั่ง (SFT), และการประสานงาน (RLHF/PPO)
  6. เปรียบเทียบประสิทธิภาพ กฎการขยายขนาด และนวัตกรรมทางสถาปัตยกรรมของโมเดลภาษาขนาดใหญ่หลัก เช่น GPT, Llama, Qwen และ DeepSeek
  7. ประยุกต์ใช้กลยุทธ์การสั่งงานแบบ zero-shot และ few-shot สำหรับการดึงข้อมูลโครงสร้างและจำแนกประเภท
  8. ปรับพารามิเตอร์ไฮเปอร์ของโมเดล (เช่น ความร้อน, Top P, ค่าลงโทษ) เพื่อสมดุลระหว่างผลลัพธ์ที่สร้างสรรค์และแน่นอน
  9. สร้างคำสั่งห่วงโซ่ความคิด (CoT) ที่มีประสิทธิภาพโดยใช้วิธีการแบบดั้งเดิม แบบอัตโนมัติ และแบบ zero-shot ("ลองคิดทีละขั้นตอน")
  10. วิเคราะห์และเปรียบเทียบรูปแบบต่างๆ ของห่วงโซ่ความคิด: แยกแยะระหว่าง Self-Consistency, Program of Thought (PoT), Tree-of-Thought (ToT), และ Graph-of-Thought (GoT)

🔹 บทเรียนที่ 1: บทนำเกี่ยวกับโมเดลภาษาขนาดใหญ่และเทคโนโลยีการฝึกเบื้องต้น

ภาพรวม: บทเรียนนี้สำรวจการเปลี่ยนแปลงของปัญญาประดิษฐ์จากโมเดลขนาดเล็กเฉพาะหน้าที่ ไปสู่โมเดลภาษาขนาดใหญ่ (LLM) ที่มีวัตถุประสงค์ทั่วไป ครอบคลุมการเปลี่ยนแปลงทางสถาปัตยกรรมจากโมเดลแบบ Encoder อย่าง "BERTology" สู่แนวทางสร้างสรรค์แบบ Decoder-Only โดยครอบคลุมสายการผลิตทางเทคนิคสำคัญในการฝึกเบื้องต้น การปรับแต่งคำสั่ง และการประสานงาน (RLHF) นอกจากนี้ยังวิเคราะห์ชุดโมเดลชั้นนำในอุตสาหกรรม เช่น GPT, Llama และนวัตกรรมภายในประเทศ เช่น Qwen และ DeepSeek

ผลลัพธ์การเรียนรู้:

  • แยกแยะโครงสร้างโมเดล: ระบุความแตกต่างทางโครงสร้างและกรณีการใช้งานของโมเดลประเภท Encoder-Only, Decoder-Only และ Encoder-Decoder
  • อธิบายกระบวนการฝึกโมเดลภาษาขนาดใหญ่ (LLM): อธิบายลำดับการเปลี่ยนจาก "การฝึกแบบไม่มีผู้ควบคุม" (self-supervised pre-training) สู่ "การปรับแต่งแบบมีผู้ควบคุม" (Supervised Fine-Tuning หรือ SFT) และ "การเรียนรู้เสริมจากการตอบสนองของมนุษย์" (Reinforcement Learning from Human Feedback หรือ RLHF)
  • วิเคราะห์การขยายขนาดและพฤติกรรมของโมเดล: อธิบายแนวคิดเรื่องกฎการขยายขนาด (Scaling Laws), ความสามารถที่ปรากฏขึ้น (เช่น การเรียนรู้ในบริบท, ห่วงโซ่ความคิด), และปรากฏการณ์ของการเล่าเรื่องเท็จ (Hallucinations)

🔹 บทเรียนที่ 2: กรณีศึกษาโมเดลภาษาขนาดใหญ่หลักและกลยุทธ์การนำไปใช้งาน

ภาพรวม: บทเรียนนี้ให้ภาพรวมทางเทคนิคโดยรวมเกี่ยวกับโมเดลภาษาขนาดใหญ่ (LLM) โดยติดตามการพัฒนาตั้งแต่สถาปัตยกรรมพื้นฐานแบบ Encoder-Decoder ไปสู่ระบบสมัยใหม่ที่มีหลายมิติและใช้ตัวแทน (Agent) รายละเอียดสายการผลิตทางเทคนิคหลัก ได้แก่ การฝึกเบื้องต้น การปรับแต่งคำสั่ง และการประสานงาน พร้อมประเมินกรณีศึกษาหลัก เช่น GPT-4, Llama 3 และ DeepSeek บทเรียนสิ้นสุดด้วยกลยุทธ์การนำไปใช้งานจริง (การใช้ API หรือใช้ในท้องถิ่น) และกรอบการเขียนคำสั่งขั้นสูง เช่น RAG และ ReAct

ผลลัพธ์การเรียนรู้:

  • วิเคราะห์ความแตกต่างทางโครงสร้างระหว่างสถาปัตยกรรม Encoder-Only (BERT), Decoder-Only (GPT), และ Encoder-Decoder (T5)
  • อธิบายกระบวนการฝึกอบรมสามขั้นตอน: การฝึกเบื้องต้น (โมเดลพื้นฐาน), การปรับแต่งคำสั่ง (SFT), และการประสานงาน (RLHF/PPO)
  • เปรียบเทียบประสิทธิภาพ กฎการขยายขนาด และนวัตกรรมทางสถาปัตยกรรมของโมเดลภาษาขนาดใหญ่หลัก เช่น GPT, Llama, Qwen และ DeepSeek

🔹 บทเรียนที่ 3: พื้นฐานการเขียนคำสั่ง (Prompt Engineering) และห่วงโซ่ความคิด

ภาพรวม: บทเรียนนี้ครอบคลุมการเปลี่ยนผ่านขั้นสูงจากคำสั่งแบบ zero-shot ทั่วไป ไปสู่การเรียนรู้แบบมีโครงสร้าง (few-shot) และความสามารถในการคิดเชิงเหตุผลที่เกิดขึ้นใหม่ในห่วงโซ่ความคิด (Chain of Thought หรือ CoT) นักเรียนจะวิเคราะห์วิธีควบคุมพฤติกรรมของโมเดลด้วยพารามิเตอร์ทางเทคนิคและตัวอย่างที่มีโครงสร้าง เพื่อแก้ปัญหาเชิงตรรกะ คณิตศาสตร์ และภาษาที่ซับซ้อน วัสดุการเรียนรู้สิ้นสุดด้วยการสำรวจการเรียนรู้ที่ควบคุมกระบวนการ และวิธีการสร้างห่วงโซ่ความคิดอัตโนมัติ

ผลลัพธ์การเรียนรู้:

  • ประยุกต์ใช้กลยุทธ์การสั่งงานแบบ zero-shot และ few-shot สำหรับการดึงข้อมูลโครงสร้างและจำแนกประเภท
  • ปรับพารามิเตอร์ไฮเปอร์ของโมเดล (ความร้อน, Top P, ค่าลงโทษ) เพื่อสมดุลระหว่างผลลัพธ์ที่สร้างสรรค์และแน่นอน
  • สร้างคำสั่งห่วงโซ่ความคิด (CoT) ที่มีประสิทธิภาพโดยใช้วิธีการแบบดั้งเดิม แบบอัตโนมัติ และแบบ zero-shot ("ลองคิดทีละขั้นตอน")

🔹 บทเรียนที่ 4: การคิดเชิงวิเคราะห์ขั้นสูง การแก้ไขความรู้ และตรรกะทางคณิตศาสตร์

ภาพรวม: บทเรียนนี้สำรวจรูปแบบต่างๆ ของห่วงโซ่ความคิด (CoT) ขั้นสูง โครงสร้างทางเทคนิคสำหรับการแก้ไขความรู้ภายในโมเดลภาษาขนาดใหญ่ (LLM) และโดเมนเฉพาะทางของตรรกะทางคณิตศาสตร์ รายละเอียดว่าโมเดลเปลี่ยนจากตรรกะแบบเส้นตรงง่ายๆ ไปสู่โครงสร้างแบบกราฟที่ซับซ้อนได้อย่างไร วิธีการแก้ไขความรู้ที่ไม่ต้องการผ่านการแก้ไขภายในและภายนอก รวมถึงกระบวนการฝึกและประเมินผลสำหรับโมเดลคณิตศาสตร์ระดับสูง

ผลลัพธ์การเรียนรู้:

  • วิเคราะห์และเปรียบเทียบรูปแบบต่างๆ ของห่วงโซ่ความคิด: แยกแยะระหว่าง Self-Consistency, Program of Thought (PoT), Tree-of-Thought (ToT), และ Graph-of-Thought (GoT)
  • ประเมินเทคนิคการแก้ไขความรู้: เข้าใจเกณฑ์ด้านความน่าเชื่อถือ (Reliability), ความเฉพาะเจาะจง (Locality), และความสามารถในการถ่ายโอน (Portability) และแยกแยะระหว่างวิธีแก้ไขภายใน (เช่น ROME) และภายนอก (เช่น SERAC)
  • ประเมินกระบวนการตรรกะทางคณิตศาสตร์: ระบุข้อมูลการฝึก (เช่น GSM8K, MATH, AIME) และกระบวนการดัดแปลง (distillation) ที่ใช้เพื่อเพิ่มความสามารถในการคิดเชิงยาวในโมเดล เช่น DeepSeek-Math และ o1

🔹 บทเรียนที่ 5: ความปลอดภัยของเนื้อหา การทำเครื่องหมายน้ำ และการวิเคราะห์การหลบหลีก

ภาพรวม: บทเรียนนี้สำรวจกลไกทางเทคนิคในการตรวจจับเนื้อหาที่สร้างโดยโมเดลภาษาขนาดใหญ่ และความท้าทายด้านความปลอดภัยที่เกิดจากโจมตีเชิงรุก ครอบคลุมเทคนิคการใส่เครื่องหมายน้ำเชิงสถิติ (เช่น KGW, SIR, X-SIR) ที่ออกแบบมาเพื่อคงอยู่แม้ถูกแปลหรือเขียนใหม่ พร้อมวิเคราะห์คำสั่งแบบ "หลบหลีก" (Jailbreak) เช่น DAN และ STAN ที่ใช้หลบเลี่ยงเกราะป้องกันด้านความปลอดภัย วัสดุการเรียนรู้สิ้นสุดด้วยกลยุทธ์ป้องกัน และความขัดแย้งที่แท้จริงระหว่างประโยชน์ของโมเดลกับความไม่เป็นอันตราย

ผลลัพธ์การเรียนรู้:

  • วิเคราะห์พื้นฐานทางคณิตศาสตร์ของการทำเครื่องหมายน้ำแบบ KGW และ SIR รวมถึงการแบ่งชุดคำศัพท์ (vocab partitioning) และการปรับเปลี่ยนที่ไม่เปลี่ยนแปลงทางความหมาย (semantic invariant adjustments)
  • ระบุและจำแนกกลยุทธ์การหลบหลีก เช่น "การเล่นบทบาท", "การเพิ่มสิทธิพิเศษ", และ "การโจมตีแบบรหัส"
  • ประเมินมาตรการป้องกัน เช่น การป้องกันในบริบท (In-Context Defense หรือ ICD), การเตือนระวัง (Cautionary Warning Defense หรือ CWD), และการทดสอบเชิงรุก (Red Teaming)

🔹 บทเรียนที่ 6: การซ่อนข้อมูลในโมเดลภาษาขนาดใหญ่ และงานวิจัยด้านการปกป้องความเป็นส่วนตัว

ภาพรวม: บทเรียนนี้สำรวจสมดุลที่สำคัญระหว่างประโยชน์การใช้งานของโมเดลภาษาขนาดใหญ่ (LLM) กับด้านความปลอดภัย โดยเน้นกลไกการโจมตีแบบ "หลบหลีก" และการใช้เทคนิคการซ่อนข้อมูล (Steganography) ครอบคลุมวิธีที่ผู้โจมตีหลบเลี่ยงกรองความปลอดภัยด้วยการออกแบบคำสั่งขั้นสูง (เช่น DAN, STAN) และวิธีที่โมเดลภาษาขนาดใหญ่สามารถใช้สื่อสารลับโดยการฝังข้อมูลไว้ในกระบวนการสร้างโทเค็น รวมถึงนำเสนอสถาปัตยกรรมและศักยภาพของโมเดลภาษาขนาดใหญ่หลายมิติ (MLLMs) ในการประมวลผลและสร้างข้อมูลหลากหลายประเภท เช่น ภาพ เสียง และวิดีโอ

ผลลัพธ์การเรียนรู้:

  • ระบุและวิเคราะห์รูปแบบการโจมตีแบบหลบหลีกทั่วไป เช่น การเล่นบทบาท (DAN), การบีบบังคับทางความคิด (PUA), และวิธีการทางด้านข้าง (รหัส/โค้ด)
  • อธิบายกลไกทางเทคนิคของการซ่อนข้อมูลในโมเดลภาษาขนาดใหญ่ โดยเฉพาะการแปลงสตรีมบิตเป็นการแจกแจงความน่าจะเป็น (logits) ของคำถัดไป
  • จัดหมวดหมู่สถาปัตยกรรม MLLM ตามความสามารถในการรับรู้และสร้างข้อมูลในหลายมิติ (ข้อความ, ภาพ, เสียง, 3D)

🔹 บทเรียนที่ 7: สถาปัตยกรรมและการออกแบบโมเดลภาษาขนาดใหญ่หลายมิติขั้นสูง

ภาพรวม: บทเรียนนี้สำรวจโครงสร้างพื้นฐานทางเทคนิคของโมเดลภาษาขนาดใหญ่หลายมิติ (MLLMs) โดยเน้นกลไกการเข้ารหัส การแปลง และการถอดรหัสที่ทำให้เกิดความฉลาดข้ามมิติ รายละเอียดการเปลี่ยนผ่านจากตัวเข้ารหัสเฉพาะมิติไปสู่พื้นที่แสดงผลรวมเดียวกัน และวิเคราะห์วิธีการต่างๆ ที่ใช้เชื่อมช่องว่างระหว่างสัญญาณที่ไม่ใช่ข้อความกับพื้นที่ความหมายของโมเดลภาษาขนาดใหญ่

ผลลัพธ์การเรียนรู้:

  • ระบุตัวเข้ารหัสเฉพาะและวิธีการแยกโทเค็นสำหรับมิติที่ไม่ใช่ภาพ เช่น เสียง (HuBERT, Whisper) และเมฆจุด 3 มิติ (Point-BERT)
  • ประเมินเทคนิคการแปลงที่ด้านข้อมูลเข้า (Input-side projection) ต่างๆ เช่น แบบเส้นตรง (Linear), แบบหลายชั้น (Multi-layer MLP), และแบบรีแซมเปิ้ล (Resamplers) ที่ใช้จัดตำแหน่งข้อมูลหลายมิติให้เข้ากับพื้นที่ความหมายของโมเดลภาษาขนาดใหญ่
  • เปรียบเทียบกลยุทธ์การเชื่อมต่อที่ด้านการถอดรหัส (Decoding-side) สามรูปแบบหลัก: โทเค็นแบบไม่ต่อเนื่อง, ตัวแทนแบบต่อเนื่อง, และบุ๊กบุ๊ก (codebooks) สำหรับการสร้างข้อมูลหลายมิติ

🔹 บทเรียนที่ 8: ตัวแทนอัตโนมัติ ระบบการเรียนรู้เสริมจากข้อมูลมนุษย์ (RLHF) และการประสานงานด้านความปลอดภัย

ภาพรวม: บทเรียนนี้สำรวจการพัฒนาของตัวแทนที่มีอินเทอร์เฟซกราฟิก (GUI agents) จากการดำเนินงานแบบคงที่ ไปสู่การตัดสินใจอัตโนมัติในสภาพแวดล้อมที่เปลี่ยนแปลงได้ ครอบคลุมสถาปัตยกรรมทางเทคนิคของตัวแทนแบบเปิดและแบบปิด รวมถึงการรวมระบบการเรียนรู้เสริมจากข้อมูลมนุษย์ (RLHF) และการเพิ่มประสิทธิภาพนโยบายแบบใกล้เคียง (Proximal Policy Optimization หรือ PPO) เพื่อประสานพฤติกรรมตัวแทนกับค่านิยมของมนุษย์ พร้อมทั้งวิเคราะห์ความท้าทายด้านความปลอดภัยที่สำคัญ ตั้งแต่การโจมตีด้วยคำสั่งจากสภาพแวดล้อม ไปจนถึงบุ๋มภายในโมเดล ซึ่งต้องอาศัยกรอบการป้องกันที่แข็งแรง เช่น GuardAgent และ R-Judge

ผลลัพธ์การเรียนรู้:

  • วิเคราะห์องค์ประกอบทางสถาปัตยกรรมของตัวแทน GUI รวมถึงโมดูลวางแผน การตัดสินใจ และการสะท้อน (reflection) ในระบบตัวแทนหลายตัว
  • อธิบายกลไกการเรียนรู้เชิงเสริม (RL) และการเรียนรู้เสริมจากข้อมูลมนุษย์ (RLHF) โดยเฉพาะบทบาทของโมเดลรางวัล (reward models) และการเพิ่มประสิทธิภาพนโยบายแบบใกล้เคียง (PPO) ในการประสานพฤติกรรมตัวแทนกับค่านิยมของมนุษย์
  • ประเมินความเสี่ยงด้านความปลอดภัยและปัญหาความน่าเชื่อถือของตัวแทนอัตโนมัติ รวมถึงข้อผิดพลาดนอกขอบเขต (Out-of-Distribution หรือ OOD), การโจมตีแบบหลบหลีก และการรบกวนจากสภาพแวดล้อม