課程總覽
📚 內容概要
「AI魔法實驗室」是一門嚴謹且整合性的課程,旨在提供對現代人工智慧的深入、循序漸進的理解。課程內容分為四個逐步遞進的模塊:基礎概念(感知與資料)、先進生成能力(透過大型語言模型與擴散模型的認知與生成)、自主系統(代理與演化計算),以及倫理治理(倫理與未來)。學生將從理解資料的原始數值表達出發,逐步掌握複雜系統設計,最終形成對負責任的人工智慧創造與部署的全面觀點。
本課程提供對現代人工智慧的嚴謹且整合性的理解,涵蓋核心資料基礎知識、大型語言模型(LLM)的生成技術、自主代理的架構,以及實現負責任部署所必需的重要倫理考量。
🎯 學習目標
- 掌握人工智慧感知、資料表示(張量)及基礎監督式學習任務(如分類)的根本原理。
- 理解並掌控大型語言模型(LLM)與生成式人工智能,透過序列預測、注意力機制,以及高階提示工程技術加以應用。
- 設計並分析智能代理,結合感知-決策-行動迴圈,並整合先進的群體優化方法,例如演化計算。
- 区分生成式與判別式人工智能,並解釋擴散模型在文字轉圖像生成中的機械過程。
- 評估當代人工智慧固有的倫理挑戰(資料偏見、模型幻覺、深度偽造),並提出促進人機共生的策略。
🔹 第一課:機器的數位之眼
概述: 本基礎課程探討機器感知,從 像素 與 RGB 顏色模型 開始。學生將學習原始視覺資料如何被量化,以及電腦視覺(CV)如何運用 特徵提取。核心介紹的機制是 卷積,一種用於偵測邊緣等低階特徵的數位濾波器,將可見影像轉換為結構化的數值矩陣,以供後續的人工智慧處理。 學習成果:
- 定義像素、RGB 值與解析度在數位影像構建中的角色。
- 解釋電腦視覺(CV)與特徵提取在機器感知中的必要性。
- 將卷積概念化為用於偵測邊緣與角落等低階特徵的「數位濾波器」。
- 理解所有視覺資料最終皆以結構化數值矩陣形式呈現,供人工智慧處理。
🔹 第二課:資料的基本單元(張量)
概述: 本關鍵課程從原始感知過渡到結構化的數學表示。我們將非結構化資料(文字、音訊、影像)分類,並引入 張量——作為所有人工智慧運算通用語言的多維容器。我們將視覺化不同資料類型如何以張量表示,並定義輸入/輸出(I/O)關係。關鍵的是,介紹了 預處理(清理、縮放與歸一化)流程,作為有效模型訓練的先決條件。 學習成果:
- 定義非結構化資料(文字、影像、音訊)的主要特徵,並解釋轉換的必要性。
- 從數學上區分向量(1D)與張量(多維容器)。
- 解釋張量如何作為所有神經網路的通用輸入/輸出結構。
- 概述資料預處理的關鍵步驟與目標(清理與歸一化),以利模型訓練前進行準備。
🔹 第三課:分類大師
概述: 本課聚焦於 監督式學習,說明人工智慧如何利用結構化、標記的資料執行複雜任務。核心任務是 分類,即模型學習透過劃定一個比喻性的 決策邊界 來對輸入進行分類。我們使用 準確率 來評估模型效能,並探討主要陷阱——過度擬合,即模型無法將知識泛化至新、未見資料。 學習成果:
- 定義監督式學習,並識別訓練資料與標籤的角色。
- 解釋分類的目標,並視覺化模型如何建立決策邊界。
- 使用準確率指標計算或解讀模型表現。
- 分析並描述過度擬合的概念及其對人工智慧泛化能力的負面影響。
🔹 第四課:語言預測與注意力機制
概述: 本課轉向動態序列生成,解釋大型語言模型(LLM)的核心機制。我們定義 詞元 及 上下文窗口(LLM 的短期記憶)的限制。該過程依賴於 序列預測(計算下一個詞元的概率)與 注意力機制,動態權衡詞元的重要性。最後,學生將學習 溫度 參數如何控制生成輸出的隨機性與創意。 學習成果:
- 定義詞元,並解釋文字如何轉換為序列以供 LLM 處理。
- 圖示上下文窗口的功能,並解釋其作為人工智慧短期記憶的限制。
- 描述注意力機制在模型預測過程中幫助聚焦相關輸入資訊的作用。
- 解釋序列預測為概率性過程,並分析溫度參數如何控制模型輸出的創意與隨機性。
🔹 第五課:提示工程的魔術
概述: 在大型語言模型預測技術基礎上,本課專注於主動控制輸出,使用結構化輸入——將語言視為高階程式碼。我們建立核心提示架構(指示、背景、格式)。所涵蓋的技巧包括 角色設定(人物設定)、少樣本學習(提供範例),以及 思維鏈(CoT),透過要求逐步推理來提升邏輯準確性。 學習成果:
- 定義提示工程,並認識自然語言作為引導大型語言模型的新程式設計範式。
- 實施角色設定(人物設定)與少樣本學習技巧,以調整大型語言模型的語氣、焦點與特定輸出格式的遵循程度。
- 應用思維鏈(CoT)技巧解決多步推理問題,並提升邏輯準確性。
- 練習迭代式提示優化,系統性地精煉與約束生成輸出,以符合期望結果。
🔹 第六課:生成藝術與擴散模型
概述: 本課從文字輸入控制(第5課)轉向創作的機械過程。我們區分 生成式人工智慧 與 判別式人工智慧。核心重點在於 擴散模型,其中每張圖像皆從隨機 噪音 開始。該過程包含數百次的迭代 去噪,由詳細提示精確控制,以確保在 潛在空間 中的 文字到圖像對齊。 學習成果:
- 區分生成式與判別式人工智慧模型。
- 解釋擴散模型的核心原理為從隨機噪音開始的迭代去噪過程。
- 描述文字提示在實現文字到圖像對齊中的作用。
- 認識擴散模型的關鍵應用,例如風格轉移。
🔹 第七課:代理的核心迴圈
概述: 本課介紹 智能代理——一種由封閉迴圈 感知-決策-行動(PDA)迴圈 定義的自主系統。我們拆解各元件:感知(透過 感測器)、決策(內部大腦),以及 行動(透過 執行器)。關鍵延伸為 工具使用,即代理呼叫外部資源(如搜尋引擎),以擴展其能力超越核心模型。 學習成果:
- 定義智能代理,並根據其與環境互動的能力,區分於靜態生成式人工智慧模型。
- 繪製並解釋感知-決策-行動(PDA)封閉迴圈中各元件的角色。
- 識別並提供現實世界與純數位代理中感測器(感知)與執行器(行動)的例子。
- 理解「工具使用」的功能與重要性,以擴展代理在核心模型之外的有效能力。
🔹 第八課:演化的力量(香港理工大學特色)
概述: 本課介紹 演化計算(EC),一種受自然選擇啟發的優化範式,用於尋找最佳代理決策。我們定義 基因型(編碼指令)與 表現型(表現行為)。深入探討三大支柱:突變(隨機變更)、交配(組合特徵)與 選擇,由 適應度函數 引導——作為衡量跨世代解決方案品質的客觀標準。 學習成果:
- 定義演化計算(EC),並解釋其來自生物自然選擇的靈感。
- 區分演化解決方案的基因型(參數)與表現型(行為)。
- 闡明突變、交配與基於適應度的選擇在演化算法中的功能。
- 描述演化計算如何透過世代間的迭代週期優化一群解決方案。
- 識別演化演算法相較於傳統方法具有可行優勢的優化問題。
🔹 第九課:多代理協作與蜂群
概述: 從單一優化(第8課)過渡到集體智能的動態。我們分析需要合作與競爭的情境,聚焦於 蜂群智能。學生將學習 突現 的原則,即複雜的全球行為(如螞蟻路徑)僅由簡單的局部通訊協定產生,強調擴展自主系統時產生的複雜性。 學習成果:
- 區分單一代理系統與多代理系統(MAS)的目標與機制。
- 解釋通訊在協調多個代理之間的合作與競爭中的作用。
- 定義「突現」,並識別真實世界與計算上的蜂群智能例子(例如螞蟻巢穴優化)。
- 分析簡單的局部規則如何產生複雜的全局集體行為。
- 討論多代理系統的複雜性如何導致需謹慎的倫理考量與管控。
🔹 第十課:倫理、偏見與人機共生
概述: 本課最後一課探討先進自主性所需的必要倫理責任。我們檢視系統性缺陷,如 資料偏見 和模型本身的限制,特別是 模型幻覺。深入探討先進生成技術(深度偽造)的風險,進而引入解決方案:人機共治(HITL) 監督的必要角色。課程結尾定義理想的未來狀態:人機共生,其中人工智慧扮演強大的副駕駛角色,增強人類能力。 學習成果:
- 識別當代人工智慧系統中資料偏見與模型幻覺的來源與後果。
- 分析深度偽造技術帶來的安全風險,以及內容驗證的重要性。
- 解釋人機共治(HITL)監督的概念與在自主決策過程中的必要性。
- 評估人機共生的潛力,將人工智慧主要視為「副駕駛」工具而非替代品。
- 提出對未來人工智慧創作者倫理責任的初步看法。