Quay lại Khóa học
AI012 Professional

Đi sâu vào Mô hình Ngôn ngữ Lớn

Khóa học này cung cấp một giới thiệu toàn diện và sâu sắc về lịch sử phát triển của các mô hình ngôn ngữ lớn (LLMs), kiến trúc kỹ thuật cốt lõi, các phương pháp huấn luyện (tiền huấn luyện, tinh chỉnh và đồng bộ hóa), các mở rộng đa phương tiện, kỹ thuật lập trình lời nhắc, suy luận chuỗi suy nghĩ, các tác nhân, cũng như các chủ đề tiên phong như an toàn mô hình và bảo vệ quyền riêng tư.

4.9
24h
1067 học viên
1 lượt thích
Trí tuệ nhân tạo

Tổng quan khóa học

📚 Tóm tắt nội dung

Khóa học này cung cấp một giới thiệu toàn diện và sâu sắc về quá trình phát triển của các Mô hình Ngôn ngữ Lớn (LLM), kiến trúc kỹ thuật cốt lõi, các phương pháp huấn luyện (tiền huấn luyện, tinh chỉnh, điều chỉnh phù hợp), mở rộng đa phương tiện, kỹ thuật lập trình lời nhắc (prompt engineering), Chuỗi Tư duy (CoT), các tác nhân (agents), cũng như những chủ đề tiên phong như an toàn mô hình và bảo vệ quyền riêng tư.

Phân tích sâu về sự tiến hóa công nghệ và việc điều chỉnh phù hợp về an toàn trong các mô hình lớn toàn bộ hệ thống, từ giai đoạn tiền huấn luyện đến các tác nhân tổng quát.

🎯 Mục tiêu học tập

  1. Phân biệt các kiến trúc mô hình: Nhận diện sự khác biệt về cấu trúc và các trường hợp sử dụng giữa các mô hình Encoder-only, Decoder-only và Encoder-Decoder.
  2. Giải thích quy trình huấn luyện LLM: Mô tả quá trình chuyển đổi từ tiền huấn luyện tự giám sát sang Tinh chỉnh Có giám sát (SFT) và Học tăng cường từ Phản hồi Người dùng (RLHF).
  3. Phân tích quy luật mở rộng và hành vi mô hình: Giải thích các khái niệm về Quy luật Mở rộng (Scaling Laws), Khả năng nổi bật (học trong ngữ cảnh, Chuỗi Tư duy), và hiện tượng Hư cấu (Hallucinations).
  4. Phân tích sự khác biệt về cấu trúc giữa các kiến trúc Encoder-only (BERT), Decoder-only (GPT), và Encoder-Decoder (T5).
  5. Giải thích quy trình huấn luyện ba giai đoạn: Tiền huấn luyện (mô hình cơ sở), Điều chỉnh Hướng dẫn (SFT), và Điều chỉnh Phù hợp (RLHF/PPO).
  6. So sánh hiệu suất, quy luật mở rộng và các đổi mới kiến trúc của các LLM hàng đầu như GPT, Llama, Qwen và DeepSeek.
  7. Triển khai chiến lược lập trình lời nhắc zero-shot và few-shot để trích xuất và phân loại dữ liệu có cấu trúc.
  8. Điều chỉnh siêu tham số mô hình (Temperature, Top P, Penalty) để cân bằng giữa đầu ra sáng tạo và xác định.
  9. Xây dựng các lời nhắc Chuỗi Tư duy (CoT) hiệu quả bằng các phương pháp thủ công, tự động và zero-shot ("Hãy suy nghĩ từng bước").
  10. Phân tích và so sánh các biến thể CoT: Phân biệt giữa Tự nhất quán (Self-Consistency), Chương trình Tư duy (PoT), Cây Tư duy (ToT), và Đồ thị Tư duy (GoT).

🔹 Bài học 1: Giới thiệu về Mô hình Ngôn ngữ Lớn và Công nghệ Tiền huấn luyện

Tổng quan: Bài học này khám phá quá trình phát triển của Trí tuệ nhân tạo từ các mô hình nhỏ chuyên biệt sang các Mô hình Ngôn ngữ Lớn (LLM) mang tính tổng quát. Nó chi tiết về sự dịch chuyển kiến trúc từ "BERTology" dựa trên Encoder sang các mô hình sinh tổng quát chỉ sử dụng Decoder, bao gồm quy trình kỹ thuật then chốt về tiền huấn luyện, điều chỉnh hướng dẫn và điều chỉnh phù hợp (RLHF). Ngoài ra, nội dung còn nghiên cứu các họ mô hình dẫn đầu ngành công nghiệp như GPT, Llama và các đổi mới trong nước như Qwen và DeepSeek.

Kết quả học tập:

  • Phân biệt các kiến trúc mô hình: Nhận diện sự khác biệt về cấu trúc và các trường hợp sử dụng giữa các mô hình Encoder-only, Decoder-only và Encoder-Decoder.
  • Giải thích quy trình huấn luyện LLM: Mô tả quá trình chuyển đổi từ tiền huấn luyện tự giám sát sang Tinh chỉnh Có giám sát (SFT) và Học tăng cường từ Phản hồi Người dùng (RLHF).
  • Phân tích quy luật mở rộng và hành vi mô hình: Giải thích các khái niệm về Quy luật Mở rộng (Scaling Laws), Khả năng nổi bật (học trong ngữ cảnh, Chuỗi Tư duy), và hiện tượng Hư cấu (Hallucinations).

🔹 Bài học 2: Các nghiên cứu điển hình LLM phổ biến và Chiến lược triển khai

Tổng quan: Bài học này cung cấp cái nhìn toàn diện về kỹ thuật các Mô hình Ngôn ngữ Lớn (LLM), theo dõi quá trình phát triển từ kiến trúc encoder-decoder cơ bản đến các hệ thống đa phương tiện hiện đại và các hệ thống dựa trên tác nhân. Nó chi tiết về quy trình kỹ thuật cốt lõi – gồm tiền huấn luyện, điều chỉnh hướng dẫn và điều chỉnh phù hợp – đồng thời đánh giá các nghiên cứu điển hình chính như GPT-4, Llama 3 và DeepSeek. Module kết thúc bằng các chiến lược triển khai thực tế (API so với Local) và các khung kỹ thuật lập trình lời nhắc nâng cao như RAG và ReAct.

Kết quả học tập:

  • Phân tích sự khác biệt về cấu trúc giữa các kiến trúc Encoder-only (BERT), Decoder-only (GPT), và Encoder-Decoder (T5).
  • Giải thích quy trình huấn luyện ba giai đoạn: Tiền huấn luyện (mô hình cơ sở), Điều chỉnh Hướng dẫn (SFT), và Điều chỉnh Phù hợp (RLHF/PPO).
  • So sánh hiệu suất, quy luật mở rộng và các đổi mới kiến trúc của các LLM phổ biến như GPT, Llama, Qwen và DeepSeek.

🔹 Bài học 3: Nền tảng Kỹ thuật lập trình lời nhắc và Chuỗi Tư duy

Tổng quan: Bài học này đề cập đến bước chuyển đổi nâng cao từ lập trình lời nhắc zero-shot cơ bản sang học có cấu trúc few-shot và các khả năng suy luận nổi bật của Chuỗi Tư duy (CoT). Sinh viên sẽ phân tích cách kiểm soát hành vi mô hình thông qua các siêu tham số kỹ thuật và các minh họa có cấu trúc để giải quyết các bài toán logic, toán học và ngôn ngữ phức tạp. Tài liệu kết thúc bằng việc khám phá học có giám sát quy trình và các phương pháp xây dựng CoT tự động.

Kết quả học tập:

  • Triển khai chiến lược lập trình lời nhắc zero-shot và few-shot để trích xuất và phân loại dữ liệu có cấu trúc.
  • Điều chỉnh siêu tham số mô hình (Temperature, Top P, Penalty) để cân bằng giữa đầu ra sáng tạo và xác định.
  • Xây dựng các lời nhắc Chuỗi Tư duy (CoT) hiệu quả bằng các phương pháp thủ công, tự động và zero-shot ("Hãy suy nghĩ từng bước").

🔹 Bài học 4: Suy luận nâng cao, chỉnh sửa tri thức và Logic Toán học

Tổng quan: Bài học này khám phá các biến thể cấu trúc nâng cao của lập trình lời nhắc Chuỗi Tư duy (CoT), các khung kỹ thuật chỉnh sửa tri thức trong các Mô hình Ngôn ngữ Lớn (LLM), và lĩnh vực chuyên biệt về suy luận toán học. Nó chi tiết về cách mô hình chuyển từ suy luận tuyến tính đơn giản sang các cấu trúc đồ thị phức tạp, cách khắc phục tri thức "không mong muốn" thông qua chỉnh sửa nội tại và bên ngoài, cũng như các quy trình huấn luyện và đánh giá cho các mô hình toán học tiên tiến.

Kết quả học tập:

  • Phân tích và so sánh các biến thể CoT: Phân biệt giữa Tự nhất quán (Self-Consistency), Chương trình Tư duy (PoT), Cây Tư duy (ToT), và Đồ thị Tư duy (GoT).
  • Đánh giá các kỹ thuật chỉnh sửa tri thức: Hiểu các chỉ số về Độ tin cậy, Địa phương và Di động, và phân biệt giữa các giải pháp chỉnh sửa nội tại (ROME) và bên ngoài (SERAC).
  • Đánh giá quy trình suy luận toán học: Xác định dữ liệu huấn luyện (GSM8K, MATH, AIME) và các quá trình tinh chế được sử dụng để nâng cao khả năng suy luận toán học dài hạn ở các mô hình như DeepSeek-Math và o1.

🔹 Bài học 5: An toàn nội dung, Chèn dấu nước và Phân tích tấn công "Jailbreak"

Tổng quan: Bài học này khám phá các cơ chế kỹ thuật để nhận diện nội dung do LLM tạo ra và các thách thức an ninh do các cuộc tấn công đối kháng gây ra. Nó bao gồm các kỹ thuật chèn dấu nước thống kê (KGW, SIR, X-SIR) được thiết kế để tồn tại sau khi dịch hay viết lại, cùng với phân tích các lời nhắc "Jailbreak" (DAN, STAN) dùng để vượt qua các rào chắn an toàn. Tài liệu kết thúc bằng các chiến lược phòng thủ và mâu thuẫn vốn có giữa lợi ích của mô hình và tính vô hại.

Kết quả học tập:

  • Phân tích nền tảng toán học của chèn dấu nước KGW và SIR, bao gồm việc chia nhỏ từ vựng và điều chỉnh bất biến ngữ nghĩa.
  • Nhận diện và phân loại các chiến lược jailbreak như "Giả vờ", "Tăng cấp đặc quyền", và các cuộc tấn công dựa trên mật mã.
  • Đánh giá các biện pháp phòng thủ bao gồm Phòng thủ Trong ngữ cảnh (ICD), Phòng thủ Cảnh báo Cẩn trọng (CWD), và Đội thử nghiệm đỏ (Red Teaming).

🔹 Bài học 6: Nghiên cứu về Steganography và Bảo vệ Quyền riêng tư trong LLM

Tổng quan: Bài học này khám phá sự cân bằng then chốt giữa hiệu quả và an toàn của Mô hình Ngôn ngữ Lớn (LLM), tập trung vào cơ chế các cuộc tấn công "jailbreak" và việc triển khai kỹ thuật steganography. Nó bao gồm cách kẻ tấn công vượt qua các bộ lọc an toàn bằng kỹ thuật lập trình lời nhắc tinh vi (ví dụ: DAN, STAN) và cách LLM có thể được dùng cho giao tiếp bí mật bằng cách nhúng dữ liệu vào quá trình sinh token. Ngoài ra, nó giới thiệu kiến trúc và khả năng của các Mô hình Ngôn ngữ Lớn Đa phương tiện (MLLM) trong xử lý và sinh ra các loại dữ liệu đa dạng như hình ảnh, âm thanh và video.

Kết quả học tập:

  • Nhận diện và phân tích các mẫu tấn công jailbreak phổ biến, bao gồm đóng vai (DAN), ép buộc nhận thức (PUA), và phương pháp kênh phụ (mật mã/mã hóa).
  • Giải thích cơ chế kỹ thuật của steganography LLM, cụ thể là cách luồng bit được ánh xạ vào phân bố xác suất (logits) của dự đoán token tiếp theo.
  • Phân loại kiến trúc MLLM dựa trên khả năng nhận diện và sinh ra nhiều loại phương tiện (Văn bản, Hình ảnh, Âm thanh, 3D).

🔹 Bài học 7: Kiến trúc và Thiết kế LLM Đa phương tiện Nâng cao

Tổng quan: Bài học này khám phá hạ tầng kỹ thuật của các Mô hình Ngôn ngữ Lớn Đa phương tiện (MLLM), tập trung vào các cơ chế mã hóa, chiếu và giải mã giúp tạo ra trí tuệ liên phương tiện. Nó chi tiết về quá trình chuyển đổi từ các bộ mã hóa riêng biệt theo phương tiện sang không gian biểu diễn thống nhất và phân tích các phương pháp đa dạng nhằm thu hẹp khoảng cách giữa tín hiệu phi văn bản và không gian ngữ nghĩa của LLM.

Kết quả học tập:

  • Xác định các bộ mã hóa chuyên dụng và phương pháp mã hóa token cho các phương tiện phi trực quan, bao gồm âm thanh (HuBERT, Whisper) và đám điểm 3D (Point-BERT).
  • Đánh giá các kỹ thuật chiếu phía đầu vào (Linear, Multi-layer MLP, Resamplers) được dùng để đồng bộ hóa biểu diễn đa phương tiện với không gian ngữ nghĩa của LLM.
  • So sánh ba chiến lược kết nối phía giải mã chính: token rời rạc, nhúng liên tục và bảng mã cho sinh đa phương tiện.

🔹 Bài học 8: Tác nhân tự chủ, RLHF và Điều chỉnh phù hợp an toàn

Tổng quan: Bài học này khám phá quá trình phát triển của các tác nhân GUI từ thực thi nhiệm vụ tĩnh sang ra quyết định tự chủ trong môi trường động. Nó chi tiết về kiến trúc kỹ thuật của các tác nhân nguồn mở và kín, việc tích hợp Học tăng cường từ Phản hồi Người dùng (RLHF) và Tối ưu hóa Chính sách Gần kề (PPO) để điều chỉnh chính sách, cùng với các thách thức an toàn then chốt — từ việc bị tiêm lệnh môi trường đến các cổng hậu môn mô hình — đòi hỏi các khung phòng thủ vững chắc như GuardAgent và R-Judge.

Kết quả học tập:

  • Phân tích các thành phần kiến trúc của tác nhân GUI, bao gồm các module lập kế hoạch, ra quyết định và phản tư trong các hệ thống tác nhân đa nhiệm.
  • Giải thích cơ chế của Học tăng cường (RL) và RLHF, cụ thể là vai trò của mô hình thưởng và PPO trong việc điều chỉnh hành vi tác nhân phù hợp với giá trị con người.
  • Đánh giá các rủi ro an toàn và vấn đề độ tin cậy trong các tác nhân tự chủ, bao gồm lỗi ngoài phân bố (OOD), các cuộc tấn công jailbreak và sự xao nhãng từ môi trường.