AI023 Professional

บทนำสู่การเขียนโปรแกรมด้วยทริตอน: คู่มือปฏิบัติจริง

คู่มือการเรียนรู้ทางวิทยาศาสตร์ที่ครอบคลุม ออกแบบมาเพื่อให้เส้นทางการเรียนรู้แบบเต็มรูปแบบสำหรับ Triton ซึ่งเป็นภาษาและเครื่องคอมพิวเตอร์ที่ใช้ภาษา Python ในการเขียนเคอร์เนล GPU ที่กำหนดเอง หลักสูตรนี้ครอบคลุมโมเดลการเขียนโปรแกรม ไวยากรณ์ของภาษา ลักษณะทางตัวเลข และการปรับประสิทธิภาพ ตั้งแต่การบวกเวกเตอร์พื้นฐาน ไปจนถึงการดำเนินการรวมและแบ่งส่วนที่ใช้ในระบบเรียนรู้เชิงลึกสมัยใหม่

5.0

30.0h

561 ผู้เรียน

0 การถูกใจ

ปัญญาประดิษฐ์

เริ่มเรียน

บทเรียน

Lesson

1 Lesson 1

2 Lesson 2

3 Lesson 3

4 Lesson 4

5 Lesson 5

6 Lesson 6

7 Lesson 7

8 Lesson 8

9 Lesson 9

10 Lesson 10

ภาพรวมคอร์สเรียน

📚 สรุปเนื้อหา

บทเรียนทางวิทยาศาสตร์ที่ครอบคลุม ออกแบบมาเพื่อให้เส้นทางการเรียนรู้อย่างครบถ้วนสำหรับ Triton ซึ่งเป็นภาษาและเครื่องมือแปลภาษาที่ใช้พื้นฐานจาก Python สำหรับเขียนเคอร์เนล GPU แบบเฉพาะเจาะจง หลักสูตรนี้ครอบคลุมโมเดลการเขียนโปรแกรม เอกลักษณ์ของภาษา ลักษณะเชิงตัวเลข และการปรับแต่งประสิทธิภาพ โดยย้ายจากแนวคิดพื้นฐานของการบวกเวกเตอร์ไปจนถึงการดำเนินการที่รวมกัน (fused) และแบ่งเป็นช่อง (tiled) ที่ใช้ในระบบเรียนรู้เชิงลึกสมัยใหม่

เชี่ยวชาญศิลปะในการออกแบบเคอร์เนล GPU ประสิทธิภาพสูง จากหลักการพื้นฐาน

ผู้เขียน: EvoClass

คำขอบคุณ: สารบัญของ Triton และ โครงการทริตอนบน GitHub

🎯 วัตถุประสงค์การเรียนรู้

นิยามความหมายของ Triton และบทบาทของมันในระบบร่วมซอฟต์แวร์การเรียนรู้เชิงลึก
แยกแยะความแตกต่างระหว่าง Triton กับ CUDA, โค้ดแบบเร่งด่วนของ PyTorch และการเขียนโปรแกรมระดับต่ำสำหรับ GPU
ระบุงานที่เหมาะสมสำหรับการใช้งานกับ Triton และเข้าใจความสำคัญของการรวมเคอร์เนลและการเกิดจุดขัดข้อง (bottlenecks)
ติดตั้งสภาพแวดล้อมของ Triton อย่างสะอาดและตรวจสอบชุดซอฟต์แวร์ให้เรียบร้อย
ประยุกต์ใช้เคอร์เนลสำหรับการคัดลอกเวกเตอร์พื้นฐาน เพื่อยืนยันความถูกต้องของตรรกะสภาพแวดล้อมเทียบกับตรรกะเคอร์เนล
ระบุและจำแนกประเภทจุดขัดข้องของ GPU เพื่อสนับสนุนการรวมเมธอดใน PyTorch
นิยามอินสแตนซ์ของโปรแกรม และคำนวณมิติของกริดการเริ่มต้น 1 มิติโดยใช้ cdiv
ดำเนินการคำนวณตำแหน่งหน่วยความจำด้วยการคำนวณชี้ตำแหน่ง (pointer arithmetic) เพื่อจับคู่รหัสเฉพาะของโปรแกรม (pid) กับตำแหน่งหน่วยความจำ
แยกแยะระหว่างเทนเซอร์ของ PyTorch (ข้อมูลเมตาข้อมูลฝั่งโฮสต์) กับเทนเซอร์ของ Triton (บล็อกระดับคอมไพเลอร์)
คำนวณการจับคู่ระหว่างรหัสโปรแกรม (pid) กับตำแหน่งหน่วยความจำเฉพาะโดยใช้ tl.arange

บทเรียน

ภาพรวม: บทนี้ครอบคลุมพื้นฐานที่จำเป็นสำหรับการพัฒนาบน Triton โดยเน้นการตั้งค่าสภาพแวดล้อมที่มั่นคงและสะอาด พร้อมการตรวจสอบด้วยเคอร์เนล "ทดสอบความสมเหตุสมผล" ระดับพื้นฐาน นักเรียนจะได้เรียนรู้วิธีแยกแยะประเภทต่าง ๆ ของจุดขัดข้องด้านประสิทธิภาพของ GPU เช่น ด้านการคำนวณ ด้านหน่วยความจำ และด้านต้นทุนการเริ่มต้น เพื่อระบุว่าการดำเนินการใดของ PyTorch ที่เหมาะสมที่สุดสำหรับการรวมเมธอดด้วยตนเอง

ผลลัพธ์การเรียนรู้:

ติดตั้งสภาพแวดล้อมของ Triton อย่างสะอาดและตรวจสอบชุดซอฟต์แวร์ให้เรียบร้อย
ประยุกต์ใช้เคอร์เนลสำหรับการคัดลอกเวกเตอร์พื้นฐาน เพื่อยืนยันความถูกต้องของตรรกะสภาพแวดล้อมเทียบกับตรรกะเคอร์เนล
ระบุและจำแนกประเภทจุดขัดข้องของ GPU เพื่อสนับสนุนการรวมเมธอดใน PyTorch

ภาพรวม: บทนี้แนะนำโมเดลการเขียนโปรแกรมของ Triton ซึ่งเปลี่ยนจากโครงสร้างเชิงสูงของ PyTorch มาสู่แนวทางแบบบล็อกที่ใช้แบบ SPMD (Single Program, Multiple Data) นักเรียนจะได้เรียนรู้วิธีที่ Triton จัดการการดำเนินการผ่านกริดการเริ่มต้น 1 มิติ และอินสแตนซ์ของโปรแกรม วิธีจัดการตัวชี้เพื่อเข้าถึงหน่วยความจำ และความแตกต่างพื้นฐานระหว่างเทนเซอร์ของ PyTorch (ข้อมูลเมตาข้อมูลฝั่งโฮสต์) กับเทนเซอร์ของ Triton (บล็อกระดับคอมไพเลอร์)

ผลลัพธ์การเรียนรู้:

นิยามอินสแตนซ์ของโปรแกรม และคำนวณมิติของกริดการเริ่มต้น 1 มิติโดยใช้ cdiv
ดำเนินการคำนวณตำแหน่งหน่วยความจำด้วยการคำนวณชี้ตำแหน่ง (pointer arithmetic) เพื่อจับคู่รหัสเฉพาะของโปรแกรม (pid) กับตำแหน่งหน่วยความจำ
แยกแยะระหว่างเทนเซอร์ของ PyTorch (ข้อมูลเมตาข้อมูลฝั่งโฮสต์) กับเทนเซอร์ของ Triton (บล็อกระดับคอมไพเลอร์)

ภาพรวม: บทนี้ครอบคลุมการดำเนินการพื้นฐานที่จำเป็นเพื่อโอนข้อมูลระหว่างหน่วยความจำทั่วไป (global memory) กับเรจิสเตอร์ของ GPU โดยใช้หลักการของภาษาหลักของ Triton นักเรียนจะได้เรียนรู้วิธีจับคู่อินสแตนซ์โปรแกรมแบบขนานกับดัชนีข้อมูลเฉพาะ และจัดการเงื่อนไขขอบเขตโดยใช้เทคนิคการปิดหน่วยความจำ (memory masking) รวมถึงการแยกแยะระหว่างค่าคงที่ในขั้นตอนการคอมไพล์กับตัวแปรที่ใช้ในเวลาทำงาน

ผลลัพธ์การเรียนรู้:

คำนวณการจับคู่ระหว่างรหัสโปรแกรม (pid) กับตำแหน่งหน่วยความจำเฉพาะโดยใช้ tl.arange
ประยุกต์ใช้การเข้าถึงหน่วยความจำอย่างแข็งแรงโดยใช้ tl.load และ tl.store พร้อมมาสก์ขอบเขต
อธิบายความจำเป็นในการใช้ tl.constexpr เพื่อการปรับปรุงประสิทธิภาพของคอมไพเลอร์ และข้อจำกัดที่มีต่อค่าที่ใช้ในเวลาทำงานในฟังก์ชันที่กำหนดรูปร่าง

ภาพรวม: บทนี้นำคุณผ่านวงจรชีวิตการสร้างเคอร์เนลของ Triton ตั้งแต่แนวคิดทฤษฎีจนถึงการนำไปใช้จริงกับการบวกเวกเตอร์ คุณจะได้เรียนรู้วิธีเขียนเคอร์เนลฝั่ง GPU ออกแบบเว็บเบอร์โฮสต์ในภาษา Python ที่จัดการการเริ่มกริด ความปลอดภัยของหน่วยความจำ และการตรวจสอบข้อมูลนำเข้า และประยุกต์ใช้โปรโตคอลการตรวจสอบทางวิทยาศาสตร์เพื่อยืนยันความถูกต้อง

ผลลัพธ์การเรียนรู้:

สร้างเคอร์เนลการบวกเวกเตอร์อย่างสมบูรณ์โดยใช้ระบบการคำนวณชี้ตำแหน่งและมาสก์ของ Triton
ออกแบบเว็บเบอร์โฮสต์ในภาษา Python ที่จัดการการเริ่มกริด ความปลอดภัยของหน่วยความจำ และการตรวจสอบข้อมูลนำเข้า
ดำเนินการตรวจสอบอย่างเข้มงวดโดยใช้ torch.allclose เพื่อยืนยันผลลัพธ์ในขนาดข้อมูลที่หลากหลายและกรณีขอบเขตต่าง ๆ

ภาพรวม: บทนี้เปลี่ยนจากไวยากรณ์เคอร์เนลพื้นฐานไปสู่ "หลักการพื้นฐาน" ด้านประสิทธิภาพของ GPU โดยเน้นว่าทำไมโค้ดที่ถูกต้องทางตรรกะอาจยังไม่สามารถทำงานได้ดีพอ นักเรียนจะสำรวจความสัมพันธ์ระหว่างการไหลของข้อมูลหน่วยความจำ ความสามารถในการใช้งาน (occupancy) และการใช้ทรัพยากรฮาร์ดแวร์ จนจบลงด้วยแนวทางวิทยาศาสตร์ในการวัดผลและปรับขนาด BLOCK_SIZE

ผลลัพธ์การเรียนรู้:

แยกแยะระหว่างเคอร์เนลที่ขึ้นอยู่กับการคำนวณ (compute-bound) และเคอร์เนลที่ขึ้นอยู่กับหน่วยความจำ (memory-bound) โดยใช้หลักการพื้นฐานด้านประสิทธิภาพของ GPU
อธิบาย "สามเหลี่ยมแลกเปลี่ยน" (Trade-off Triangle) และวิธีที่ความสามารถในการใช้งานช่วยซ่อนความล่าช้าของหน่วยความจำ
ดำเนินการวัดผลเชิงวิทยาศาสตร์ รวมถึงการเตรียมการ (warmup) การซิงโครไนซ์ และการค้นหาค่าพารามิเตอร์ (parameter sweeping)

ภาพรวม: บทนี้เปลี่ยนจากปฏิบัติการ 1 มิติแบบแต่ละองค์ประกอบไปสู่การประมวลผลเทนเซอร์ 2 มิติใน Triton บทนี้เน้นความสัมพันธ์พื้นฐานระหว่างดัชนีทางตรรกะหลายมิติและหน่วยความจำทางกายภาพแบบเส้นตรงผ่านค่าระยะห่าง (strides) นักเรียนจะได้เรียนรู้วิธีสร้างกริดของที่อยู่ 2 มิติใน Triton และออกแบบเคอร์เนลที่เคารพความใกล้เคียงของหน่วยความจำ

ผลลัพธ์การเรียนรู้:

เข้าใจว่าเทนเซอร์ 2 มิติถูกแทนที่ในหน่วยความจำโดยใช้ตัวชี้พื้นฐานและค่าระยะห่าง (strides)
สร้างกริดที่อยู่ 2 มิติใน Triton โดยใช้รูปแบบการเคลื่อนที่แบบกระจาย (broadcasted offset patterns)
ประยุกต์ใช้เคอร์เนลที่คำนึงถึงการจัดวาง (layout-aware kernels) เช่น การคัดลอก การสลับมิติ และการเพิ่มค่าเบี่ยงเบน (bias add) ที่จัดการกับหน่วยความจำที่ไม่ต่อเนื่องได้อย่างถูกต้อง

ภาพรวม: บทนี้ครอบคลุมการเปลี่ยนจากการเขียนโค้ด Triton ที่ใช้งานได้ ไปสู่การพัฒนาเคอร์เนลที่มีคุณภาพสูงและเหมาะกับการใช้งานจริง บทนี้จัดตั้งลำดับขั้นตอนการแก้ไขข้อผิดพลาดแบบเป็นระบบ "จากตรรกะสู่ประสิทธิภาพ" และแนะนำทัศนคติที่เข้มงวดที่จำเป็นสำหรับการปรับแต่งอัตโนมัติและการวัดผล

ผลลัพธ์การเรียนรู้:

ระบบการแก้ไขข้อผิดพลาด: ประยุกต์กลยุทธ์แบบชั้น ๆ ที่ให้ความสำคัญกับความถูกต้องทางตรรกะและความเสถียรภาพทางตัวเลขก่อนจัดการจุดขัดข้องด้านประสิทธิภาพ
ดำเนินการกระบวนการทำงานการปรับแต่งอัตโนมัติ: กำหนดช่วงค่าที่ถูกต้องสำหรับพารามิเตอร์เชิงเมตา และดำเนินการวัดผลที่หลีกเลี่ยงข้อผิดพลาดทั่วไป เช่น การติดกับฮาร์ดแวร์ (hardware overfitting)
วิเคราะห์การเติบโตทางวิชาชีพ: ระบุ "บันไดแห่งความเป็นจริง" จากการประยุกต์ใช้เบื้องต้นของ Triton ไปสู่การพัฒนาเคอร์เนลระดับสูงในเชิงการผลิต