กลับสู่คอร์สเรียน
AI025 Professional

ระบบ RAG ที่ใช้งานได้จริง: จากฐานความรู้สู่การสร้างข้อมูลที่ได้รับการเสริมจากข้อมูล

โน้ตการบรรยายสำหรับนักศึกษาเหล่านี้ให้มุมมองในระดับระบบเกี่ยวกับการสร้างระบบการสร้างข้อมูลที่ได้รับการเสริมจากข้อมูล (RAG) ที่ใช้งานได้จริง หลักสูตรครอบคลุมกระบวนการทั้งหมดตั้งแต่การนำเข้าข้อมูล การแบ่งข้อมูลเป็นชิ้นเล็ก ๆ กลยุทธ์การจัดกลุ่ม การแปลงเวกเตอร์ การจัดเก็บเวกเตอร์ การค้นหาแบบไฮบริด การจัดลำดับใหม่ และการประเมินผลเพื่อแอปพลิเคชันปัญญาประดิษฐ์ที่เชื่อถือได้

5.0
15.0h
619 ผู้เรียน
0 การถูกใจ
ปัญญาประดิษฐ์
เริ่มเรียน

ภาพรวมคอร์สเรียน

📚 สรุปเนื้อหา

โน้ตการเรียนของนักศึกษาเหล่านี้ให้มุมมองในระดับระบบเกี่ยวกับการสร้างระบบที่ใช้งานได้จริงสำหรับระบบการสร้างข้อมูลเสริม (Retrieval-Augmented Generation หรือ RAG) หลักสูตรครอบคลุมกระบวนการทั้งหมดตั้งแต่การรับข้อมูล การแบ่งชุดข้อมูล (chunking) กลยุทธ์การจับคู่การแทนความหมาย (embedding mapping) การจัดเก็บเวกเตอร์ การค้นหาแบบไฮบริด การจัดลำดับใหม่ และการประเมินผล เพื่อสร้างแอปพลิเคชันปัญญาประดิษฐ์ที่น่าเชื่อถือ

เชี่ยวชาญศิลปะการสร้างระบบที่อิงจากหลักฐานผ่านแนวทางการประมวลผลแบบครบวงจรของ RAG

ผู้เขียน: EvoClass

คำขอบคุณ: ทีมงาน EvoClass

🎯 เป้าหมายการเรียนรู้

  1. แยกแยะระหว่างการใช้ Prompt, Fine-tuning และ RAG เพื่อเลือกเครื่องมือที่เหมาะสมกับความต้องการทางธุรกิจเฉพาะเจาะจง
  2. วิเคราะห์การไหลของข้อมูลภายในสายการผลิตของ RAG ตั้งแต่คำถามของผู้ใช้จนถึงการสร้างผลลัพธ์ที่มีพื้นฐานจากข้อมูล
  3. ออกแบบระบบการนำเข้าข้อมูลอย่างมืออาชีพที่รวมเมตาดาต้า การปรับมาตรฐาน และการติดตามเวอร์ชัน เพื่อป้องกันปัญหา "ข้อมูลอ่อน" หรือข้อมูลที่ไม่แข็งแรง
  4. ประเมินและนำไปใช้ กลยุทธ์การแบ่งชุดข้อมูลที่หลากหลาย (แบบความยาวคงที่, เข้าใจโครงสร้าง, แบบหลายระดับ) ตามความต้องการเฉพาะด้าน
  5. อธิบายกลไกการทำงาน ของ embedding และความแตกต่างระหว่างความคล้ายคลึงทางความหมายกับประโยชน์ในการตอบคำถาม
  6. อธิบายแนวคิดทางเทคนิค ของระบบจัดเก็บเวกเตอร์และการดัชนี โดยเน้นความสมดุลระหว่างความเร็วในการค้นหา (ความหน่วงเวลา) กับความแม่นยำ
  7. ออกแบบแผนการค้นหาหลายขั้นตอนสำหรับข้อมูลขนาดใหญ่ (มากกว่า 100,000 ชุด) พร้อมกลยุทธ์การกรองเมตาดาต้า
  8. แยกแยะเป้าหมายของการค้นหา (ความครอบคลุม/ความแม่นยำ) กับการจัดลำดับใหม่ (ความแม่นยำ/ความเกี่ยวข้อง)
  9. วิเคราะห์เหตุผลว่าทำไมการจัดลำดับใหม่จึงจำเป็นต่อการสร้างข้อความโดยโมเดลภาษาขนาดใหญ่ และวิเคราะห์ปฏิสัมพันธ์กับการออกแบบชุดข้อมูล
  10. ออกแบบโครงสร้างเมตาดาต้าเบื้องต้นที่สนับสนุนการอ้างอิงอัตโนมัติและการค้นหาที่รู้จักเวอร์ชัน

🔹 บทเรียนที่ 1: พื้นฐานของ RAG และการสร้างฐานความรู้

ภาพรวม: บทเรียนนี้สร้างจุดเปลี่ยนจากการใช้โมเดลภาษาขนาดใหญ่ (LLM) ที่ทำงานอย่างโดดเดี่ยว มาเป็นระบบที่อาศัยความรู้ภายนอกอย่างมีพื้นฐาน นักเรียนจะได้เรียนรู้สถาปัตยกรรมของระบบการสร้างข้อมูลเสริม (RAG) เข้าใจว่าการควบคุมข้อมูลคือหัวใจสำคัญของคุณภาพโมเดล และเรียนรู้วิธีออกแบบกระบวนการนำเข้าข้อมูลเพื่อให้มั่นใจในความถูกต้องทางข้อมูลผ่านเมตาดาต้าและการติดตามเวอร์ชัน

ผลลัพธ์การเรียนรู้:

  • แยกแยะระหว่างการใช้ Prompt, Fine-tuning และ RAG เพื่อเลือกเครื่องมือที่เหมาะสมกับความต้องการทางธุรกิจเฉพาะเจาะจง
  • วิเคราะห์การไหลของข้อมูลภายในสายการผลิตของ RAG ตั้งแต่คำถามของผู้ใช้จนถึงการสร้างผลลัพธ์ที่มีพื้นฐานจากข้อมูล
  • ออกแบบระบบการนำเข้าข้อมูลอย่างมืออาชีพที่รวมเมตาดาต้า การปรับมาตรฐาน และการติดตามเวอร์ชัน เพื่อป้องกันปัญหา "ข้อมูลอ่อน" หรือข้อมูลที่ไม่แข็งแรง

🔹 บทเรียนที่ 2: การแปลงข้อมูล: การแบ่งชุดข้อมูล, Embedding และการดัชนี

ภาพรวม: บทเรียนนี้สำรวจขั้นตอนสำคัญในการเปลี่ยนข้อความดิบให้กลายเป็นโครงสร้างข้อมูลที่สามารถค้นหาได้ในระบบ RAG ครอบคลุมการเลือก "หน่วยการค้นหา" อย่างมีกลยุทธ์ผ่านวิธีการแบ่งชุดข้อมูลต่างๆ การแทนความหมายด้วยคณิตศาสตร์ผ่าน embedding และโครงสร้างพื้นฐานทางเทคนิคที่จำเป็นเพื่อให้การค้นหาในมิติสูงมีประสิทธิภาพในระดับใหญ่

ผลลัพธ์การเรียนรู้:

  • ประเมินและนำไปใช้ กลยุทธ์การแบ่งชุดข้อมูลที่หลากหลาย (แบบความยาวคงที่, เข้าใจโครงสร้าง, แบบหลายระดับ) ตามความต้องการเฉพาะด้าน
  • อธิบายกลไกการทำงาน ของ embedding และความแตกต่างระหว่างความคล้ายคลึงทางความหมายกับประโยชน์ในการตอบคำถาม
  • อธิบายแนวคิดทางเทคนิค ของระบบจัดเก็บเวกเตอร์และการดัชนี โดยเน้นความสมดุลระหว่างความเร็วในการค้นหา (ความหน่วงเวลา) กับความแม่นยำ

🔹 บทเรียนที่ 3: การปรับปรุงการค้นหาขั้นสูง: การค้นหาแบบไฮบริดและการจัดลำดับใหม่

ภาพรวม: บทเรียนนี้ครอบคลุมการเปลี่ยนจากค้นหาเวกเตอร์พื้นฐานไปสู่สถาปัตยกรรมการค้นหาที่พร้อมใช้งานจริง โฟกัสที่การค้นหาแบบไฮบริด (Hybrid Search) ซึ่งผสมผสานการค้นหาเชิงคำศัพท์ (lexical) และการค้นหาเชิงความหมาย (semantic) รวมถึงการใช้แผนการค้นหาสองขั้นตอน (Two-Stage Retrieval Pipeline) ที่ใช้เครื่องจัดลำดับใหม่ (rerankers) เพื่อให้หลักฐานที่มีความเกี่ยวข้องสูงที่สุดถึงมือโมเดลภาษาขนาดใหญ่ นักเรียนจะได้เรียนรู้วิธีออกแบบแผนการค้นหาสำหรับข้อมูลขนาดใหญ่ และเข้าใจปฏิสัมพันธ์สำคัญระหว่างคุณภาพการจัดลำดับกับความแม่นยำในการสร้างข้อความ

ผลลัพธ์การเรียนรู้:

  • ออกแบบแผนการค้นหาหลายขั้นตอนสำหรับข้อมูลขนาดใหญ่ (มากกว่า 100,000 ชุด) พร้อมกลยุทธ์การกรองเมตาดาต้า
  • แยกแยะเป้าหมายของการค้นหา (ความครอบคลุม/ความแม่นยำ) กับการจัดลำดับใหม่ (ความแม่นยำ/ความเกี่ยวข้อง)
  • วิเคราะห์เหตุผลว่าทำไมการจัดลำดับใหม่จึงจำเป็นต่อการสร้างข้อความโดยโมเดลภาษาขนาดใหญ่ และวิเคราะห์ปฏิสัมพันธ์กับการออกแบบชุดข้อมูล

🔹 บทเรียนที่ 4: ความน่าเชื่อถือและความมีคุณภาพ: การอ้างอิง ความทันสมัย และการประเมินผล

ภาพรวม: บทเรียนนี้เน้นการเปลี่ยนจากโปรโตไทป์ที่ฟังดูน่าเชื่อถือ ไปสู่แอปพลิเคชัน RAG ที่น่าเชื่อถือและพร้อมใช้งานจริง สำรวจวิธีการออกแบบเมตาดาต้าเพื่อให้การอ้างอิงทำได้อย่างน่าเชื่อถือและมีความแม่นยำด้านเวลา (ความทันสมัย) และนำเสนอกรอบการประเมินหลายชั้นสำหรับทั้งขั้นตอนการค้นหาและขั้นตอนการสร้าง เพื่อหลีกเลี่ยงการสาธิตที่หลอกลวง

ผลลัพธ์การเรียนรู้:

  • ออกแบบโครงสร้างเมตาดาต้าเบื้องต้นที่สนับสนุนการอ้างอิงอัตโนมัติและการค้นหาที่รู้จักเวอร์ชัน
  • ดำเนินกลยุทธ์ความทันสมัยที่สมดุลระหว่างความใหม่ของเอกสารกับสถานะที่น่าเชื่อถือ
  • สร้างชุดทดสอบที่ครอบคลุม และวิเคราะห์ข้อผิดพลาดอย่างละเอียดเพื่อระบุจุดล้มเหลวในระบบ

🔹 บทเรียนที่ 5: จากโปรโตไทป์สู่การใช้งานจริง: การรวมระบบและการสังเคราะห์สายการผลิต

ภาพรวม: บทเรียนนี้เปลี่ยนจากองค์ประกอบทฤษฎีของ RAG ไปสู่ความเป็นจริงในการสร้างแอปพลิเคชันที่พร้อมใช้งานจริง โฟกัสที่การรวมแต่ละขั้นตอนให้เป็นสถาปัตยกรรมที่สอดคล้องกันแบบครบวงจร ซึ่งความสำเร็จกำหนดโดยความสามารถในการติดตามผล (observability) การจัดการความล้มเหลวอย่างมีประสิทธิภาพ และการจัดการกับข้อจำกัดที่แท้จริงของระบบอย่างรอบคอบ นักเรียนจะได้เรียนรู้ว่าระบบที่ใช้งานได้จริง คือระบบที่ให้ความสำคัญกับการติดตามหลักฐานและพฤติกรรมที่ยอมรับได้มากกว่าความซับซ้อน

ผลลัพธ์การเรียนรู้:

  • แผนผัง สถาปัตยกรรมแบบครบวงจร 9 ขั้นตอนสำหรับระบบ RAG แบบปฏิบัติจริง
  • ระบุและประเมิน ข้อแลกเปลี่ยนสำคัญระหว่างประสิทธิภาพ ความแม่นยำ และต้นทุน
  • วินิจฉัย จุดล้มเหลวของระบบโดยการติดตามข้อผิดพลาดกลับไปยังขั้นตอนสถาปัตยกรรมเฉพาะ