Quay lại Khóa học
AI021 Professional

Hướng dẫn Lập trình CUDA

Tài nguyên chính thức, toàn diện dành cho các nhà phát triển để học mô hình lập trình CUDA và cách viết mã hiệu suất cao chạy trên GPU của NVIDIA. Hướng dẫn này bao gồm kiến trúc nền tảng, giao diện lập trình, các tính năng phần cứng nâng cao và thông số kỹ thuật kỹ thuật.

5.0
30.0h
1762 học viên
1 lượt thích
Trí tuệ nhân tạo
Bắt đầu học

Tổng quan khóa học

📚 Tóm tắt nội dung

Tài liệu chính thức, toàn diện dành cho các nhà phát triển để học mô hình lập trình CUDA và cách viết mã hiệu suất cao chạy trên GPU NVIDIA. Hướng dẫn này bao gồm kiến trúc nền tảng, giao diện lập trình, các tính năng phần cứng nâng cao và thông số kỹ thuật kỹ thuật.

Thành thạo nghệ thuật tính toán song song với hướng dẫn chuẩn ngành về NVIDIA CUDA.

Tác giả: Công ty NVIDIA

Ghi nhận: Bản quyền © 2007–2024 Công ty NVIDIA và các công ty liên kết. Mọi quyền được bảo lưu.

🎯 Mục tiêu học tập

  1. Xác định vai trò của thiết bị chủ (CPU) và thiết bị (GPU) trong hệ thống đa dạng.
  2. Giải thích mô hình lập trình SIMT và cấu trúc phân cấp của luồng, khối và lưới.
  3. Phân biệt giữa PTX (Parallel Thread Execution) và mã nhị phân (cubins), và giải thích cách biên dịch ngay lúc cần (JIT) hỗ trợ tương thích.
  4. Phát triển và biên dịch các hạt nhân CUDA: Viết hàm global, cấu hình thực thi bằng ký hiệu ba dấu chéo, và quản lý quy trình biên dịch NVCC.
  5. Tối ưu hóa bộ nhớ và di chuyển dữ liệu: Phân biệt các mô hình bộ nhớ Unified, Explicit và Mapped, và triển khai bộ nhớ trang khóa trên máy chủ để truyền tải hiệu quả.
  6. Quản lý thực thi song song: Sử dụng CUDA Streams, Events và Cooperative Groups để quản lý các tác vụ bất đồng bộ và đồng bộ hóa hoạt động giữa CPU và GPU.
  7. Thực hiện phép toán con trỏ phức tạp và xác định các điểm nghẽn kiến trúc (von Neumann so với Harvard).
  8. Triển khai các mẫu thực thi CUDA nâng cao, bao gồm việc khởi chạy hạt nhân phụ thuộc chương trình và truyền dữ liệu hàng loạt đa dạng.
  9. Sử dụng các tính năng đặc thù phần cứng như Thread Scopes, Proxy bất đồng bộ và Pipeline để tối đa hóa độ song song.
  10. Cấu hình và điều chỉnh hiệu suất bộ nhớ Unified bằng cách sử dụng chức năng đón trước, gợi ý sử dụng và quản lý kích thước trang.

Bài học