AI003

บทนำสู่การเรียนรู้เชิงลึก

การเรียนรู้เชิงลึกเป็นสาขาหนึ่งของเครื่องเรียนรู้ที่เน้นการเรียนรู้การแทนข้อมูลลักษณะที่ซับซ้อนและมีลำดับชั้นจากข้อมูลดิบโดยใช้เครือข่ายประสาทเทียม หลักสูตรนี้ครอบคลุมหลักการพื้นฐาน คณิตศาสตร์พื้นฐาน แนวคิดการเพิ่มประสิทธิภาพ (การลดความชันแบบเกรเดียนต์ การถ่ายโอนย้อนกลับ) โมดูลเครือข่าย (เลเยอร์เชิงเส้น เลเยอร์การแปลงเชิงพีชคณิต และเลเยอร์การจัดกลุ่ม) และโครงสร้างที่พบบ่อย (เครือข่ายประสาทเชิงลึกแบบก้าวหน้า, เครือข่ายประสาทเชิงวนซ้ำ) แอปพลิเคชันที่แสดงให้เห็นได้แก่ การมองเห็นของเครื่อง การประมวลผลภาษาธรรมชาติ และการเรียนรู้เสริมแรง นักศึกษาจะใช้ไลบรารีการเรียนรู้เชิงลึก PyTorch ในการนำเสนองานและทำโปรเจกต์สุดท้ายเกี่ยวกับสถานการณ์จริง

5.0 คะแนน
512 นักเรียน

ภาพรวมคอร์สเรียน

📚 สรุปเนื้อหา

การเรียนรู้เชิงลึก (Deep Learning) เป็นสาขาย่อยของวิทยาศาสตร์ข้อมูลที่เน้นการเรียนรู้ตัวแทนคุณสมบัติที่ซับซ้อนและเป็นลำดับชั้นจากข้อมูลดิบโดยใช้เครือข่ายประสาทเทียม หลักสูตรนี้ครอบคลุมหลักการพื้นฐาน คณิตศาสตร์เบื้องหลัง แนวคิดการเพิ่มประสิทธิภาพ (เช่น การลดความชัน หรือ Gradient Descent, การถ่ายโอนย้อนกลับ หรือ Backpropagation) ส่วนประกอบของเครือข่าย (เช่น ชั้นเชิงเส้น ชั้นการกรองแบบคอนโวลูชัน ชั้นการจัดกลุ่ม) และสถาปัตยกรรมที่พบบ่อย (เช่น CNNs, RNNs) แอปพลิเคชันที่แสดงให้เห็นได้แก่ วิสัยทัศน์ของเครื่องจักร การประมวลผลภาษาธรรมชาติ และการเรียนรู้เสริมแรง นักเรียนจะใช้ไลบรารีการเรียนรู้เชิงลึกอย่าง PyTorch ในการนำไปปฏิบัติ และทำโปรเจกต์สุดท้ายเกี่ยวกับสถานการณ์จริง

สรุปสั้นๆ ของเป้าหมายหลัก: เข้าใจทฤษฎีการเรียนรู้เชิงลึก นำโมเดลมาใช้งานผ่าน PyTorch เข้าใจสถาปัตยกรรมเฉพาะ (เช่น CNNs, RNNs, Transformers) และนำไปประยุกต์ใช้กับงานด้านวิสัยทัศน์ของเครื่องจักร ภาษาธรรมชาติ และการตัดสินใจตามลำดับ

🎯 วัตถุประสงค์การเรียนรู้

  1. อธิบายโครงสร้างพื้นฐานทางคณิตศาสตร์และเทคนิคการเพิ่มประสิทธิภาพหลัก (เช่น การลดความชัน, การถ่ายโอนย้อนกลับ) ที่จำเป็นสำหรับการฝึกอบรมเครือข่ายประสาทลึก
  2. ใช้เฟรมเวิร์กการเรียนรู้เชิงลึกอย่าง PyTorch เพื่อทำการตั้งค่า ฝึกฝน และตรวจสอบโมเดลที่ทันสมัยได้อย่างมีประสิทธิภาพ โดยใช้การเร่งความเร็วด้วย CUDA และเทคนิคการจัดการข้อมูลอย่างมีประสิทธิภาพ
  3. ออกแบบและวิเคราะห์สถาปัตยกรรมเฉพาะ เช่น โครงข่ายประสาทแบบคอนโวลูชัน (CNNs) สำหรับข้อมูลภาพ และโมเดลแปลง (Transformer) สำหรับความสัมพันธ์ตามลำดับ
  4. ประยุกต์ใช้เทคนิคการเรียนรู้เชิงลึกแก้ปัญหาจริงในโดเมนหลัก ได้แก่ วิสัยทัศน์ของเครื่องจักร การประมวลผลภาษาธรรมชาติ และการเรียนรู้เสริมแรง
  5. ประเมินโมเดลตามความทนทาน ความเข้าใจง่าย และความยุติธรรมทางจริยธรรม โดยเปรียบเทียบจุดแข็งของแนวทางขั้นสูงต่างๆ (เช่น โมเดลสร้างสรรค์ การเรียนรู้ครึ่งหนึ่ง)

🔹 บทเรียนที่ 1: พื้นฐานการเรียนรู้เชิงลึกและการเพิ่มประสิทธิภาพ

บทนำ: บทเรียนพื้นฐานนี้แนะนำองค์ประกอบหลักของระบบการเรียนรู้เชิงลึก เราเริ่มจากการพิจารณาเครื่องมือจำแนกเชิงเส้น โดยเฉพาะฟังก์ชัน Softmax และการใช้ค่าความผิดพลาดแบบ Cross-Entropy เพื่อวัดความคลาดเคลื่อน จากนั้นเราจะกำหนดโครงสร้างของเครือข่ายประสาทแบบส่งผ่าน (Feedforward Neural Network) แบบพื้นฐาน (หลายชั้นตัวประมวลผล หรือ Multi-Layer Perceptron) โดยอธิบายบทบาทของน้ำหนัก ค่าคงที่ และฟังก์ชันการกระตุ้นไม่เป็นเชิงเส้น (เช่น ReLU) จุดเน้นหลักเปลี่ยนไปสู่กระบวนการเพิ่มประสิทธิภาพที่จำเป็นในการฝึกโมเดลที่มีพารามิเตอร์จำนวนมาก เราจะนำเสนออัลกอริธึมการเพิ่มประสิทธิภาพหลักคือการลดความชัน (Gradient Descent) และเปรียบเทียบข้อกำหนดด้านการคำนวณกับการลดความชันแบบสุ่ม (Stochastic Gradient Descent หรือ SGD) และการลดความชันแบบขนาดเล็ก (Mini-batch GD) อย่างไรก็ตาม บทเรียนนี้จะสิ้นสุดลงด้วยการอธิบายอย่างละเอียดเกี่ยวกับอัลกอริธึมการถ่ายโอนย้อนกลับ (Backpropagation) แสดงให้เห็นว่ากฎโซ่จากแคลคูลัสถูกนำมาใช้อย่างมีประสิทธิภาพผ่านกราฟการคำนวณเพื่อคำนวณเกรเดียนต์ที่จำเป็นสำหรับการอัปเดตน้ำหนักในทุกชั้น ผลลัพธ์การเรียนรู้:

  • กำหนดโครงสร้างของเครือข่ายประสาทแบบส่งผ่านพื้นฐาน และอธิบายความจำเป็นของการใช้ฟังก์ชันการกระตุ้นไม่เป็นเชิงเส้น (เช่น ReLU)
  • วางรูปแบบฟังก์ชันความผิดพลาดสำหรับการจำแนกประเภท (เช่น ฟังก์ชัน Softmax และ Cross-Entropy) และเข้าใจว่ามันวัดความคลาดเคลื่อนของโมเดลอย่างไร
  • อธิบายกลไกการทำงานของอัลกอริธึมการลดความชัน (GD) และแยกแยะความแตกต่างระหว่างรูปแบบต่างๆ (SGD, Mini-batch GD) ในแง่ของการปรับตัวและประสิทธิภาพด้านการคำนวณ
  • อนุมานอัลกอริธึมการถ่ายโอนย้อนกลับโดยใช้กฎโซ่ และแสดงการนำเสนอมันผ่านกราฟการคำนวณเพื่อคำนวณเกรเดียนต์
  • ระบุเงื่อนไขทางคณิตศาสตร์สำคัญ (เช่น เรขาคณิตเชิงเส้นและแคลคูลัสหลายตัวแปร) ที่จำเป็นต่อการเข้าใจการเพิ่มประสิทธิภาพของเครือข่ายประสาท

🔹 บทเรียนที่ 2: การนำไปปฏิบัติจริงและเครื่องมือการเรียนรู้เชิงลึก

บทนำ: บทเรียนนี้เปลี่ยนจากแนวคิดทฤษฎีสู่การนำไปใช้จริงในสภาพแวดล้อมการผลิต โดยใช้ไลบรารี PyTorch ซึ่งเป็นไลบรารีหลักของหลักสูตรนี้ เราเริ่มต้นด้วยพื้นฐานของ PyTorch โดยอธิบายโครงสร้างเทนเซอร์ การใช้ CUDA เพื่อเร่งความเร็วผ่าน GPU และเข้าใจการคำนวณอัตโนมัติผ่านกราฟการคำนวณแบบไดนามิก จุดเน้นสำคัญจะอยู่ที่การจัดการข้อมูลอย่างมีประสิทธิภาพ: แนะนำคลาส Dataset ของ PyTorch สำหรับการสร้างข้อมูลให้เป็นนามธรรม และคลาส DataLoader สำหรับจัดการข้อมูลขนาดใหญ่ ซึ่งช่วยให้สามารถแบ่งข้อมูลเป็นชุดย่อย (batch), สับเปลี่ยนข้อมูล (shuffle) และโหลดข้อมูลพร้อมกันผ่านกระบวนการหลายตัว (multi-process) ท้ายที่สุด เราจะพูดถึงประเด็นปฏิบัติที่สำคัญสำหรับการขยายขนาดการฝึกอบรม ครอบคลุมการปรับแต่งการจัดการหน่วยความจำ เทคนิคเช่น การสะสมเกรเดียนต์ (gradient accumulation) และแนะนำแนวคิดหลักของการฝึกอบรมแบบกระจาย (เช่น การแยกข้อมูลแบบขนาน) ซึ่งจำเป็นต่อการทำงานกับโมเดลที่เกินขีดจำกัดของหนึ่งการ์ดจอ ผลลัพธ์การเรียนรู้:

  • ดำเนินการปฏิบัติการหลักของการเรียนรู้เชิงลึกโดยใช้เทนเซอร์ของ PyTorch และใช้คุณสมบัติการคำนวณเกรเดียนต์อัตโนมัติ
  • ออกแบบและดำเนินการระบบการจัดการข้อมูลอย่างมีประสิทธิภาพโดยใช้แนวคิดของคลาส Dataset และ DataLoader ของ PyTorch เพื่อจัดการข้อมูลขนาดใหญ่แบบแบ่งเป็นชุดย่อย
  • ตั้งค่าโมเดลและข้อมูลให้ทำงานบน GPU ที่รองรับ CUDA เพื่อเร่งกระบวนการฝึกและคาดการณ์อย่างมาก
  • อธิบายบทบาทของเทคนิคการปรับแต่งหน่วยความจำ เช่น การสะสมเกรเดียนต์ และเข้าใจหลักการพื้นฐานของการฝึกอบรมแบบกระจายเพื่อขยายขนาด

🔹 บทเรียนที่ 3: โครงข่ายการกรอง: ชั้นและสถาปัตยกรรม

บทนำ: บทเรียนนี้แนะนำโครงข่ายประสาทแบบคอนโวลูชัน (Convolutional Neural Networks หรือ CNNs) ซึ่งเป็นหัวใจสำคัญของวิสัยทัศน์ของเครื่องจักรสมัยใหม่ เราจะสำรวจโมดูลพื้นฐานอย่างลึกซึ้ง ได้แก่ ชั้นการกรองแบบคอนโวลูชัน (Convolutional Layer) และชั้นการจัดกลุ่ม (Pooling Layer) สำหรับชั้นการกรองแบบคอนโวลูชัน เราจะพูดถึงคณิตศาสตร์ของกระบวนการ รวมถึงบทบาทของเคอร์เนล (ฟิลเตอร์), ระยะก้าว (stride), และการเติม (padding) และอภิปรายแนวคิดสำคัญเช่น การเชื่อมโยงเฉพาะที่ (local connectivity) และการแชร์พารามิเตอร์ (parameter sharing) ที่ทำให้ CNN มีประสิทธิภาพสูงสำหรับข้อมูลภาพมิติสูง พวกเราจะแยกแยะระหว่างการจัดกลุ่มแบบค่ามากสุด (Max Pooling) กับการจัดกลุ่มแบบเฉลี่ย (Average Pooling) และอธิบายบทบาทสำคัญของชั้นการจัดกลุ่มในการลดขนาดข้อมูลภาพและสร้างความไม่ขึ้นกับการเคลื่อนที่ (translation invariance) ท้ายที่สุด เราจะรวมชั้นเหล่านี้เข้าเป็นสถาปัตยกรรม CNN แบบพื้นฐานที่สมบูรณ์ แสดงการเปลี่ยนแปลงแบบลำดับจากข้อมูลพิกเซลดิบ ผ่านชุดการดึงคุณสมบัติแบบลำดับชั้น ไปสู่ชั้นเชิงเส้นเต็มที่เพื่อการจำแนกสุดท้าย โดยใช้โมเดลคลาสสิกอย่าง LeNet-5 เป็นตัวอย่าง ผลลัพธ์การเรียนรู้:

  • อธิบายการดำเนินการแบบคอนโวลูชัน 2 มิติ โดยเฉพาะว่าขนาดฟิลเตอร์ ระยะก้าว และการเติมส่งผลต่อขนาดของแผนที่คุณสมบัติอย่างไร
  • อธิบายแนวคิดการเชื่อมโยงเฉพาะที่และการแชร์พารามิเตอร์ และอธิบายว่าทำไมมันช่วยให้ CNN มีประสิทธิภาพและมีประสิทธิผลเมื่อเปรียบเทียบกับเครือข่ายเชิงเส้นเต็มเมื่อจัดการข้อมูลภาพ
  • แยกแยะระหว่าง Max Pooling และ Average Pooling และอธิบายวัตถุประสงค์หลักของชั้นการจัดกลุ่มในการลดขนาดแผนที่คุณสมบัติและสร้างความไม่ขึ้นกับการเคลื่อนที่
  • ออกแบบและวิเคราะห์สถาปัตยกรรม CNN แบบลำดับพื้นฐานที่ประกอบด้วยชั้นการกรอง การกระตุ้น (ReLU) การจัดกลุ่ม และชั้นเชิงเส้นสลับกัน

🔹 บทเรียนที่ 4: วิสัยทัศน์ของเครื่องจักร: โมเดลขั้นสูงและการตีความ

บทนำ: บทเรียนนี้ก้าวไกลจากรูปแบบพื้นฐานของ CNN (เช่น AlexNet) สู่การสำรวจสถาปัตยกรรมการเรียนรู้เชิงลึกขั้นสูงและมีอิทธิพลสูงที่ใช้ในงานวิสัยทัศน์ของเครื่องจักรระดับสูง เราจะวิเคราะห์หลักการออกแบบและนวัตกรรมในโมเดลสำคัญ ได้แก่ ความลึกที่เรียบง่ายของเครือข่าย VGG ความรวมข้อมูลแบบหลายระดับของ Inception (GoogLeNet) และการใช้การเชื่อมต่อแบบคงที่ (residual connections) ใน ResNet เพื่อแก้ปัญหาการหายไปของเกรเดียนต์ในเครือข่ายที่ลึกมาก ครึ่งหลังของบทเรียนเน้นหัวข้อสำคัญเรื่องการตีความโมเดลและปัญญาประดิษฐ์ที่สามารถอธิบายได้ (XAI) นักเรียนจะเรียนรู้เทคนิคการมองเห็น เช่น การตรวจสอบการกระตุ้นแผนที่คุณสมบัติ และลึกซึ้งไปสู่วิธีการที่ใช้เกรเดียนต์ในการระบุตำแหน่งเฉพาะ อย่างเฉพาะเจาะจง เราจะครอบคลุมกลไกและวิธีการใช้งานของ Class Activation Mapping (CAM) และการขยายที่ใช้เกรเดียนต์อย่างกว้างขวางคือ Grad-CAM ซึ่งช่วยอธิบายการตัดสินใจของเครือข่ายโดยการเน้นส่วนที่สำคัญในภาพต้นฉบับ ผลลัพธ์การเรียนรู้:

  • เปรียบเทียบและแยกแยะนวัตกรรมทางสถาปัตยกรรมหลัก (เช่น การเชื่อมต่อแบบคงที่ โมดูล Inception) ของโมเดล VGG, GoogLeNet และ ResNet
  • อธิบายบทบาทและความท้าทายในการขยายขนาดความลึกของเครือข่าย โดยเฉพาะปัญหาการเสื่อมโทรม (degradation problem) และวิธีที่ ResNet ช่วยบรรเทาปัญหานี้
  • อธิบายวิธีการพื้นฐานในการแสดงผลลัพธ์ของฟีเจอร์ ได้แก่ การตรวจสอบการกระตุ้นในชั้นกลางและฟิลเตอร์ที่เรียนรู้ได้
  • สรุปกลไกทฤษฎีของ Class Activation Mapping (CAM) และ Grad-CAM สำหรับการสร้างคำอธิบายภาพโดยอิงจากกระแสเกรเดียนต์
  • นำเทคนิคการตีความมาใช้วิเคราะห์และวิเคราะห์กระบวนการตัดสินใจของโมเดล CNN ขั้นสูงในการจำแนกประเภท

🔹 บทเรียนที่ 5: โครงข่ายประสาทวนซ้ำและแบบจำลองลำดับ

บทนำ: บทเรียนนี้นำเสนอความท้าทายในการจำลองข้อมูลที่มีโครงสร้าง โดยเฉพาะลำดับ (เช่น ข้อความ ข้อมูลเวลา) ซึ่งละเมิดสมมติฐานความเป็นอิสระที่พบในเครือข่ายส่งผ่านทั่วไป เราจะนิยามงานจำลองลำดับ เช่น การแปลภาษา ระบบการรับรู้เสียง และการพยากรณ์ข้อมูลตามเวลา โดยเน้นความจำเป็นต้องมีกลไกในการคงสถานะข้อมูล จุดเน้นหลักอยู่ที่สถาปัตยกรรมของโครงข่ายประสาทวนซ้ำ (Recurrent Neural Networks หรือ RNN) แนวคิดสำคัญที่ครอบคลุมได้แก่ กลไกการแชร์น้ำหนัก การเปิดกราฟการคำนวณตามช่วงเวลา คำนวณการอัปเดตสถานะภายใน (h_t) และการจัดการลำดับข้อมูลที่มีความยาวต่างกัน พวกเราจะพิจารณาข้อจำกัดหลักของ RNN แบบพื้นฐาน ซึ่งคือการไม่สามารถจับความสัมพันธ์ระยะยาวได้ เนื่องจากปัญหาเกรเดียนต์หายไป (vanishing gradient) หรือเกรเดียนต์พุ่งสูง (exploding gradient) ที่เกิดขึ้นระหว่างการถ่ายโอนย้อนกลับตามเวลา (BPTT) ผลลัพธ์การเรียนรู้:

  • นิยามข้อมูลที่มีโครงสร้าง (ลำดับ) และอธิบายว่าทำไมเครือข่ายส่งผ่านทั่วไป (FNN) จึงไม่เพียงพอในการจำลองความสัมพันธ์ตามลำดับ
  • อธิบายสถาปัตยกรรมพื้นฐานของโครงข่ายประสาทวนซ้ำ (RNN) โดยระบุองค์ประกอบต่างๆ เช่น สถานะภายในและเมทริกซ์น้ำหนักที่แชร์กัน
  • แสดงกระบวนการ "เปิด" กราฟการคำนวณของ RNN ตามช่วงเวลา และอภิปรายวิธีจัดการลำดับข้อมูลที่มีความยาวต่างกัน
  • อธิบายกลไกการถ่ายโอนย้อนกลับตามเวลา (BPTT) และวิเคราะห์ปัญหาเกรเดียนต์หายไปและพุ่งสูงที่เกิดขึ้นในกระบวนการฝึกอบรม RNN แบบดั้งเดิม

🔹 บทเรียนที่ 6: กลไกการสนใจและสถาปัตยกรรม Transformer

บทนำ: บทเรียนนี้สำรวจการเปลี่ยนแปลงแนวคิดอย่างลึกซึ้งจากบทความ “Attention Is All You Need” ซึ่งย้ายการจำลองลำดับจากโครงข่ายประสาทวนซ้ำ (RNN) โดยกำจัดการวนซ้ำและพึ่งพาเพียงกลไกการสนใจ (attention) เท่านั้น เราจะเริ่มต้นด้วยพื้นฐานทางคณิตศาสตร์ของกลไกการสนใจ โดยเฉพาะการใช้การคูณจุดที่ปรับขนาด (Scaled Dot-Product Attention) ด้วยเวกเตอร์คำถาม (Query หรือ Q), คีย์ (Key หรือ K), และค่า (Value หรือ V) หลังจากนั้น วิทยากรจะขยายแนวคิดนี้เป็นกลไกการสนใจแบบหลายหัว (Multi-Head Attention) โดยอธิบายบทบาทในการจับความสัมพันธ์ทางบริบทที่หลากหลาย จุดเน้นหลักอยู่ที่สถาปัตยกรรมครบวงจรของ Transformer โดยวิเคราะห์โครงสร้างของชุดรหัส (Encoder) และชุดถอดรหัส (Decoder) รวมถึงองค์ประกอบสำคัญ เช่น การเชื่อมต่อแบบคงที่ (Residual Connections), การปรับมาตรฐานชั้น (Layer Normalization) และการเข้ารหัสตำแหน่ง (Positional Encoding) ที่จำเป็นต่อการคงข้อมูลลำดับ ท้ายที่สุด เราจะพิจารณาความสามารถในการขนานกันอย่างมหาศาลของ Transformer และผลกระทบปฏิวัติของมันในสาขาต่างๆ เช่น การแปลภาษาเชิงประสาท และโมเดลภาษาที่ถูกเตรียมไว้ล่วงหน้า ผลลัพธ์การเรียนรู้:

  • นิยามวัตถุประสงค์ของกลไกการสนใจ และอธิบายว่ามันแก้ข้อจำกัด (เช่น ความสัมพันธ์ระยะไกล ปัญหาการประมวลผลตามลำดับ) ของโครงข่ายประสาทวนซ้ำได้อย่างไร
  • อธิบายการดำเนินการทางคณิตศาสตร์ของ Scaled Dot-Product Attention โดยระบุบทบาทของเวกเตอร์คำถาม คีย์ และค่าได้อย่างแม่นยำ
  • อธิบายโครงสร้างโดยรวมของโมเดล Transformer โดยแยกแยะระหว่างชุดรหัสและชุดถอดรหัส และอธิบายหน้าที่ของ Multi-Head Attention และฟังก์ชันฟีดฟอร์เวิร์ด
  • อธิบายความจำเป็นและวิธีการทางคณิตศาสตร์ของการเข้ารหัสตำแหน่งภายในสถาปัตยกรรม Transformer ที่ไม่ขึ้นกับการเรียงลำดับ
  • วิเคราะห์ประโยชน์ด้านการคำนวณ (การขนานกัน) และการใช้งานอย่างกว้างขวางของสถาปัตยกรรม Transformer ในงานการเรียนรู้เชิงลึกสมัยใหม่ โดยอ้างอิงโมเดลต่างๆ เช่น BERT และ GPT

🔹 บทเรียนที่ 7: การประยุกต์ใช้การเรียนรู้เชิงลึกในงานประมวลผลภาษาธรรมชาติและเวกเตอร์ตัวแทน

บทนำ: บทบรรยายนี้ลึกซึ้งไปยังด้านพื้นฐานและประยุกต์ใช้ของการเรียนรู้เชิงลึกในงานประมวลผลภาษาธรรมชาติ (NLP) เราเริ่มต้นด้วยการพิจารณาความจำเป็นสำคัญของตัวแทนคำที่มีประสิทธิภาพ แล้วเปลี่ยนจากวิธีแบบกระจาย (sparse) ไปสู่ตัวแทนคำแบบหนาแน่นที่เรียนรู้ได้ กลไกหลักของ Word2Vec (Skip-gram และ CBOW) จะถูกอธิบายอย่างละเอียด ชี้ให้เห็นว่าบริบทช่วยสร้างตัวแทนเวกเตอร์ที่มีความหมายทางความหมายอย่างลึกซึ้ง จากนั้นเราประยุกต์แนวคิดพื้นฐานเหล่านี้กับสองงานหลักในด้าน NLP ได้แก่ การแปลภาษาเชิงประสาท (Neural Machine Translation หรือ NMT) ที่ใช้สถาปัตยกรรมการเข้ารหัส-ถอดรหัสแบบลำดับต่อลำดับ และบทบาทสำคัญของกลไกการสนใจในการจัดการความสัมพันธ์ระยะไกลและจุดสมดุล; และการรับรู้เสียงอัตโนมัติ (Automated Speech Recognition หรือ ASR) ที่สำรวจว่าโมเดลลึกจัดการลำดับเวลาของข้อมูลเสียงเพื่อสร้างผลลัพธ์เชิงข้อความได้อย่างไร บทสนทนาจะเน้นย้ำว่าตัวแทนคำและสถาปัตยกรรมการเรียนรู้เชิงลึกตามลำดับเป็นหัวใจสำคัญของระบบประมวลผลภาษาธรรมชาติเชิงพาณิชย์สมัยใหม่ ผลลัพธ์การเรียนรู้:

  • อธิบายข้อจำกัดของตัวแทนคำแบบกระจาย (เช่น แบบ one-hot encoding) และอธิบายเหตุผลที่จำเป็นต้องใช้ตัวแทนเวกเตอร์คำแบบหนาแน่น
  • อธิบายหลักการพื้นฐานและสถาปัตยกรรมของโมเดลอย่าง Word2Vec (Skip-gram / CBOW) ที่ใช้ในการเรียนรู้ตัวแทนแบบกระจาย
  • สรุปองค์ประกอบหลัก (ตัวเข้ารหัส ตัวถอดรหัส การสนใจ) ของระบบแปลภาษาเชิงประสาทสมัยใหม่ และเปรียบเทียบกับวิธีแบบดั้งเดิม
  • วิเคราะห์ความท้าทายที่เกิดขึ้นในงานตามลำดับเช่น NMT และการรับรู้เสียงอัตโนมัติ (ASR) โดยเฉพาะอย่างยิ่งในเรื่องความยาวของข้อมูลนำเข้า/ส่งออกที่ไม่คงที่
  • ระบุว่าสถาปัตยกรรมประสาทถูกปรับให้จัดการกับข้อมูลเสียงได้อย่างไรในบริบทของการรับรู้เสียงอัตโนมัติ

🔹 บทเรียนที่ 8: โมเดลสร้างสรรค์: วีเออีและเครือข่ายการแข่งขันเชิงสร้างสรรค์

บทนำ: บทเรียนนี้แนะนำโมเดลสร้างสรรค์ขั้นสูงสองแบบที่เป็นรากฐานของระบบการเรียนรู้เชิงลึกสมัยใหม่ ได้แก่ วีเออี (Variational Autoencoders หรือ VAEs) และเครือข่ายการแข่งขันเชิงสร้างสรรค์ (Generative Adversarial Networks หรือ GANs) เราเริ่มต้นด้วยวีเออี โดยอธิบายสถาปัตยกรรม — ตัวเข้ารหัสที่แปลงข้อมูลเป็นการแจกแจงพารามิเตอร์ในพื้นที่ลับ และตัวถอดรหัสที่สร้างตัวอย่างข้อมูล จุดเน้นอย่างยิ่งอยู่ที่คณิตศาสตร์เบื้องหลัง โดยเฉพาะฟังก์ชันวัตถุประสงค์ของขอบเขตการพิสูจน์ (Evidence Lower Bound หรือ ELBO) วิเคราะห์บทบาทของค่าความคลาดเคลื่อนในการกู้คืนข้อมูลและเทอมการเบี่ยงเบนคลิฟฟ์ (KL divergence) สำหรับการควบคุมความเหมาะสม กลไกการเปลี่ยนรูปแบบ (Reparameterization Trick) ที่จำเป็นต่อการให้เกรเดียนต์ไหลผ่านกระบวนการสุ่มจะถูกอธิบายอย่างละเอียด หลังจากนั้นเราจะเปลี่ยนไปสู่ GAN ซึ่งนิยามเกมศูนย์ (zero-sum game) ระหว่างตัวสร้าง (Generator หรือ G) และตัวตรวจจับ (Discriminator หรือ D) วิทยากรจะครอบคลุมฟังก์ชันค่าศูนย์สูงสุด (minimax) ทฤษฎี สำรวจว่าตัวตรวจจับที่เหมาะสมจะทำให้ค่าเป้าหมายสูงสุด และอภิปรายประเด็นปฏิบัติที่สำคัญ เช่น การเกิด "โหมดเดียว" (mode collapse) และความไม่มั่นคงในการฝึก ท้ายที่สุด เราจะเปรียบเทียบอย่างเชิงคุณภาพ แยกแยะระหว่างพื้นที่ลับที่เข้าใจได้ของวีเออี กับคุณภาพตัวอย่างที่เหนือกว่าโดยทั่วไปของจีแอน ผลลัพธ์การเรียนรู้:

  • แยกแยะระหว่างการจำแนก (discriminative) และการสร้าง (generative) โมเดล และอธิบายวัตถุประสงค์ทางคณิตศาสตร์ของการเรียนรู้การแจกแจงข้อมูลที่ซับซ้อน
  • อธิบายสถาปัตยกรรมของวีเออี (VAE) และอนุมานฟังก์ชันวัตถุประสงค์ของขอบเขตการพิสูจน์ (ELBO)
  • วิเคราะห์ความจำเป็นและบทบาทของกลไกการเปลี่ยนรูปแบบ (reparameterization trick) ในการฝึกวีเออี เพื่อให้การถ่ายโอนย้อนกลับมีประสิทธิภาพ
  • อธิบายกระบวนการฝึกอบรมเครือข่ายการแข่งขันเชิงสร้างสรรค์ (GAN) ว่าเป็นเกมศูนย์ระหว่างตัวสร้างและตัวตรวจจับ
  • เปรียบเทียบและแยกแยะวีเออีและจีแอนตามคุณภาพตัวอย่าง ความเข้าใจพื้นที่ลับ และความท้าทายในการฝึก เช่น การเกิดโหมดเดียว

🔹 บทเรียนที่ 9: การเรียนรู้เชิงลึกเพื่อการเสริมแรง

บทนำ: บทเรียนนี้แนะนำการเรียนรู้เชิงลึกเพื่อการเสริมแรง (Deep Reinforcement Learning หรือ DRL) โดยตั้งกรอบพื้นฐานการตัดสินใจ คือ กระบวนการตัดสินใจแบบมาร์คอฟ (Markov Decision Process หรือ MDP) เราจะนิยามวงจรของตัวแทน-สภาพแวดล้อม ช่องสถานะและช่องการกระทำ และเป้าหมายในการเพิ่มผลตอบแทนที่คาดหวังแบบลดค่า (discounted return) แนวคิดหลักของระบบการเรียนรู้แบบดั้งเดิมจะถูกครอบคลุม ได้แก่ ฟังก์ชันค่า (Value Functions) และสมการเบลล์แมน (Bellman Optimality Equation) บทเรียนนี้จะเปลี่ยนไปสู่ DRL โดยสำรวจความท้าทายของพื้นที่สถานะขนาดใหญ่ และวิธีที่เครือข่ายควีดี (Deep Q-Network หรือ DQN) แก้ปัญหานี้โดยใช้เครือข่ายประสาทในการประมาณฟังก์ชันควีดี (Q-function) เราจะอธิบายเทคนิคความมั่นคงที่จำเป็นสำหรับ DQN ได้แก่ การจัดเก็บประสบการณ์ (experience replay) และเครือข่ายเป้าหมาย (target networks) ท้ายที่สุด เราจะเปรียบเทียบวิธีการแบบค่า (value-based) กับวิธีการแบบนโยบาย (policy-based) โดยอธิบายแนวคิดทางคณิตศาสตร์เบื้องหลังอัลกอริธึม REINFORCE สำหรับการปรับปรุงนโยบายโดยตรง และเตรียมพื้นฐานสำหรับสถาปัตยกรรมแบบตัวแทน-ผู้สอน (Actor-Critic) ที่ซับซ้อนยิ่งขึ้น ผลลัพธ์การเรียนรู้:

  • กำหนดปัญหาการตัดสินใจแบบลำดับโดยใช้กรอบกระบวนการตัดสินใจแบบมาร์คอฟ (MDP) รวมถึงนิยามของสถานะ การกระทำ รางวัล และฟังก์ชันค่า
  • อธิบายการเปลี่ยนจากวิธีการค่าแบบตาราง (tabular Q-learning) ไปสู่เครือข่ายควีดีลึก (DQN) และระบุเทคนิคสำคัญ (การจัดเก็บประสบการณ์ การใช้เครือข่ายเป้าหมาย) ที่ใช้เพื่อคงเสถียรภาพในการฝึกอบรม DRL
  • แยกแยะความแตกต่างพื้นฐานระหว่างวิธีการแบบค่า (เช่น DQN) กับวิธีการแบบนโยบาย (เช่น REINFORCE)
  • อธิบายฟังก์ชันวัตถุประสงค์และแนวคิดทางคณิตศาสตร์เบื้องหลังทฤษฎีเกรเดียนต์นโยบาย (Policy Gradient Theorem) และการนำไปใช้ในอัลกอริธึม REINFORCE
  • เปรียบเทียบการประยุกต์ใช้ของวิธีการแบบค่า กับวิธีการแบบนโยบายในสถานการณ์การเรียนรู้เชิงลึกขั้นสูงสมัยใหม่

🔹 บทเรียนที่ 10: แนวคิดการเรียนรู้ขั้นสูงและปัญญาประดิษฐ์ที่มีจริยธรรม

บทนำ: บทเรียนนี้แนะนำแนวคิดการเรียนรู้ขั้นสูงที่จำเป็นต่อการนำไปใช้งานอย่างมั่นคง และพิจารณาผลกระทบทางสังคมที่สำคัญ แรกสุด เราสำรวจพื้นฐานทฤษฎีและแอปพลิเคชันของวิธีการเรียนรู้เชิงไม่ต้องมีฉลาก (Unsupervised Deep Learning) โดยเน้นโมเดลเช่น เครือข่ายเข้ารหัส-ถอดรหัส (Autoencoders) และโมเดลสร้างสรรค์เมื่อใช้เพื่อการเรียนรู้ตัวแทนและตรวจจับความผิดปกติ ต่อมา เราจะดำดิ่งลงไปในเทคนิคการเรียนรู้ครึ่งหนึ่ง (Semi-Supervised Learning หรือ SSL) เช่น การตั้งชื่อปลอม (pseudo-labeling) และการปรับความสม่ำเสมอ (consistency regularization) เช่น โมเดล Π และ MixMatch ซึ่งมีความสำคัญต่อการใช้ข้อมูลที่ไม่มีฉลากจำนวนมากร่วมกับตัวอย่างที่มีฉลากจำนวนน้อย ครึ่งหลังของบทเรียนจะวิเคราะห์อย่างละเอียดเกี่ยวกับปัญญาประดิษฐ์ที่มีจริยธรรม โดยอธิบายว่าการจัดการข้อมูลและการเลือกสถาปัตยกรรมทำให้เกิดอคติในอัลกอริธึม (Algorithmic Bias) เราจะนิยามและวิเคราะห์เมตริกความยุติธรรมสำคัญ (เช่น ความเท่าเทียมโอกาส ความเท่าเทียมประชากร) และอภิปรายกลยุทธ์การบรรเทาที่มีประสิทธิภาพ โดยเน้นความสำคัญของความเข้าใจโมเดล (XAI) และความรับผิดชอบในระบบการเรียนรู้เชิงลึกที่มีความสำคัญสูง ผลลัพธ์การเรียนรู้:

  • แยกแยะระหว่างการเรียนรู้แบบไม่มีฉลาก การเรียนรู้ครึ่งหนึ่ง และการเรียนรู้แบบมีฉลากทั่วไป และระบุสถานการณ์ในโลกแห่งความเป็นจริงที่เหมาะสมกับแต่ละแนวทาง
  • อธิบายหน้าที่และสถาปัตยกรรมของโมเดลไม่มีฉลากหลัก เช่น เครือข่ายเข้ารหัส-ถอดรหัส และการใช้งานในด้านการลดมิติหรือการเรียนรู้ตัวแทน
  • อธิบายวิธีการของเทคนิคการเรียนรู้ครึ่งหนึ่งสมัยใหม่ รวมถึงแนวคิดการตั้งชื่อปลอมและการปรับความสม่ำเสมอ
  • ระบุและจัดหมวดหมู่แหล่งที่มาหลักของอคติในอัลกอริธึมที่เกิดขึ้นตลอดวงจรชีวิตการเรียนรู้เชิงลึก (การรวบรวมข้อมูล การสร้างโมเดล การนำไปใช้งาน)
  • นิยามและเปรียบเทียบเมตริกความยุติธรรมของอัลกอริธึมที่พบบ่อย (เช่น ความเท่าเทียมกัน) และอภิปรายความขัดแย้งที่แท้จริงในกลยุทธ์การลดอคติ