Quay lại Khóa học
AI023 Professional

Giới thiệu về Lập trình Triton: Một Hướng Dẫn Thực Hành

Một hướng dẫn khoa học toàn diện được thiết kế để cung cấp lộ trình học tập đầy đủ cho Triton, một ngôn ngữ và bộ biên dịch dựa trên Python dùng để viết các kernel GPU tùy chỉnh. Khóa học bao gồm các mô hình lập trình, ngữ nghĩa ngôn ngữ, hành vi số học và tối ưu hóa hiệu suất, từ phép cộng vector cơ bản đến các toán tử ghép nối và chia ô được sử dụng trong các hệ thống học sâu hiện đại.

5.0
30.0h
561 học viên
0 lượt thích
Trí tuệ nhân tạo
Bắt đầu học

Tổng quan khóa học

📚 Tóm tắt Nội dung

Một hướng dẫn khoa học toàn diện nhằm cung cấp lộ trình học tập đầy đủ cho Triton — một ngôn ngữ và trình biên dịch dựa trên Python để viết các kernel GPU tùy chỉnh. Khóa học bao gồm các mô hình lập trình, ngữ nghĩa ngôn ngữ, hành vi số học và tối ưu hiệu suất, từ phép cộng vector cơ bản đến các toán tử ghép nối và phân mảnh được sử dụng trong hệ thống học sâu hiện đại.

Thành thạo nghệ thuật thiết kế kernel GPU hiệu suất cao từ nguyên lý đầu tiên.

Tác giả: EvoClass

Ghi nhận cảm ơn: Tài liệu hướng dẫn Triton và kho lưu trữ GitHub của Triton.

🎯 Mục tiêu Học tập

  1. Định nghĩa Triton và vai trò của nó trong stack phần mềm học sâu.
  2. Phân biệt Triton với CUDA, mã PyTorch ở chế độ eager, và mã assembly cấp thấp của GPU.
  3. Xác định những loại tải công việc nào phù hợp với Triton và hiểu rõ tầm quan trọng của việc ghép nối kernel và các điểm nghẽn hiệu suất.
  4. Thực hiện cài đặt sạch môi trường Triton và xác minh cấu trúc phần mềm.
  5. Triển khai một kernel sao chép vector cơ bản để kiểm tra logic môi trường so với logic kernel.
  6. Nhận diện và phân loại các điểm nghẽn GPU để biện minh cho việc sử dụng ghép nối toán tử PyTorch.
  7. Định nghĩa một phiên bản chương trình và tính toán kích thước lưới khởi tạo 1D bằng cdiv.
  8. Thực hiện toán học con trỏ để ánh xạ các ID chương trình cụ thể (pid) thành khoảng cách bộ nhớ.
  9. Phân biệt giữa tensor PyTorch (thông tin phụ trợ phía máy chủ) và tensor Triton (khối mức trình biên dịch).
  10. Tính toán sự ánh xạ giữa ID chương trình (pid) và các khoảng cách bộ nhớ cụ thể bằng cách sử dụng tl.arange.

Bài học