课程概述
📚 内容概要
“AI魔法实验室”是一门严谨且融合贯通的课程,旨在提供对现代人工智能的深度、递进式理解。课程分为四个逐步推进的模块:基础概念(感知与数据)、高级生成能力(通过大语言模型和扩散模型实现的认知与生成)、自主系统(智能体与进化计算)以及伦理治理(伦理与未来)。学生将从理解数据的原始数值表示开始,逐步掌握复杂系统设计,最终形成对负责任的人工智能创造与部署的全面认知。
本课程提供对现代人工智能的严谨、综合理解,涵盖核心数据基础、大型语言模型(LLM)生成技术、自主智能体的架构,以及实现负责任部署所必需的关键伦理考量。
🎯 学习目标
- 掌握人工智能感知、数据表示(张量)及分类等基础监督学习任务的核心知识。
- 理解并控制大型语言模型(LLM)和生成式AI,通过序列预测、注意力机制以及高级提示工程技巧加以应用。
- 设计并分析智能体,将感知-决策-行动循环与基于种群的先进优化方法(如进化计算)相结合。
- 区分生成式与判别式人工智能,并解释文本到图像生成中扩散模型的机械工作原理。
- 评估当代人工智能固有的伦理挑战(数据偏见、模型幻觉、深度伪造),并提出促进人机共生的负责任策略。
🔹 第1课:机器的数字之眼
概述: 本基础课程探讨机器感知,从像素和RGB色彩模型入手。学生将学习原始视觉数据如何被量化,以及计算机视觉(CV) 如何运用特征提取。核心机制是卷积——一种用于检测边缘等低级特征的数字滤波器,将可见图像转化为后续人工智能处理所需的结构化数值矩阵。
学习成果:
- 定义像素、RGB值和分辨率在构建数字图像中的作用。
- 解释计算机视觉(CV)和特征提取在机器感知中的必要性。
- 将卷积概念化为一种“数字滤波器”,用于检测边缘、角点等低级特征。
- 理解所有视觉数据最终均以结构化数值矩阵形式呈现,供人工智能处理。
🔹 第2课:数据的基本单元(张量)
概述: 本重要课程从原始感知过渡到结构化的数学表达。我们对非结构化数据(文本、音频、图像)进行分类,并引入张量——作为所有人工智能计算通用语言的多维容器。我们将可视化不同数据类型如何以张量形式表示,并定义输入/输出(I/O)关系。关键内容是预处理(清洗、缩放、归一化)过程,这是有效模型训练的前提条件。
学习成果:
- 定义非结构化数据(文本、图像、音频)的主要特征,并解释为何需要转换。
- 数学上区分向量(1维)与张量(多维容器)。
- 解释张量如何作为所有神经网络的通用输入/输出结构。
- 概述数据预处理的关键步骤与目标(清洗与归一化),以确保模型训练的有效性。
🔹 第3课:分类大师
概述: 本课程聚焦于监督学习,解释人工智能如何利用结构化标注数据完成复杂任务。核心任务是分类,即模型通过绘制象征性的决策边界来对输入进行排序。我们使用准确率评估模型有效性,并探讨主要陷阱——过拟合,即模型无法将其知识泛化到新出现的未见过的数据。
学习成果:
- 定义监督学习,并识别训练数据与标签的作用。
- 解释分类的目标,并可视化模型如何建立决策边界。
- 使用准确率这一指标计算或解读模型性能。
- 分析并描述过拟合的概念及其对人工智能泛化能力的负面影响。
🔹 第4课:语言预测与注意力机制
概述: 本课程转向动态序列生成,解释大型语言模型(LLM)的核心机制。我们定义标记(Token) 及上下文窗口(LLM的短期记忆)的局限性。该过程依赖于序列预测(计算下一个标记的概率)和注意力机制,后者动态权衡标记的重要性。最后,学生将学习温度参数如何控制生成输出的随机性与创造性。
学习成果:
- 定义标记,并解释文本如何被转换为序列以供LLM处理。
- 描述上下文窗口的功能,并解释其作为人工智能短期记忆的局限性。
- 阐明注意力机制在预测过程中帮助LLM聚焦相关输入信息的作用。
- 解释序列预测是一种概率过程,并分析温度参数如何控制模型输出的创造力与随机性。
🔹 第5课:提示工程魔法
概述: 基于LLM预测的技术基础,本课程聚焦于通过结构化输入主动控制输出,将语言视为高级代码。我们建立核心提示架构(指令、上下文、格式)。涵盖的技术包括角色设定(人格化)、少样本学习(提供示例),以及思维链(CoT),后者通过要求逐步推理来提升逻辑准确性。
学习成果:
- 定义提示工程,并认识到自然语言是引导LLM的新编程范式。
- 实施角色设定(人格化)和少样本学习技术,以调整LLM的语气、重点及对特定输出格式的遵循。
- 应用思维链(CoT)技术解决多步推理问题,提升逻辑准确性。
- 练习迭代式提示优化,系统性地精炼并约束生成输出,以达成期望结果。
🔹 第6课:生成艺术与扩散模型
概述: 本课程从第5课的文本输入控制转向创作的机械过程。我们区分生成式AI与判别式AI。核心聚焦于扩散模型:每幅图像都始于随机噪声。该过程涉及数百步的迭代去噪,由详细提示精确控制,以确保文本到图像对齐在潜在空间中实现。
学习成果:
- 区分生成式与判别式人工智能模型。
- 解释扩散模型的核心原理——从随机噪声开始的迭代去噪过程。
- 描述文本提示在实现文本到图像对齐中的作用。
- 识别扩散模型的关键应用,例如风格迁移。
🔹 第7课:智能体的核心循环
概述: 本课程介绍智能体——一种由闭环感知-决策-行动(PDA)循环定义的自主系统。我们分解其组成部分:感知(通过传感器)、决策(内部大脑)和行动(通过执行器)。一个关键扩展是工具使用,即智能体调用外部工具(如搜索引擎)以扩展其能力,超越其核心模型本身。
学习成果:
- 定义智能体,并根据其与环境互动的能力,将其与静态生成式AI模型区分开来。
- 绘制并解释感知-决策-行动(PDA)闭环中各组件的作用。
- 识别并举例说明现实世界与纯数字智能体中的传感器(感知)与执行器(行动)。
- 理解“工具使用”在扩展智能体核心模型之外有效能力中的功能与意义。
🔹 第8课:进化的威力(香港理工大学特色)
概述: 本课程介绍进化计算(EC),一种受自然选择启发的优化范式,用于寻找最优的智能体决策。我们定义基因型(编码指令)和表型(表现行为)。深入探讨三大支柱:突变(随机变化)、交叉(特性组合)和选择,其中选择由适应度函数引导——即衡量解决方案质量、跨代际演化的客观标准。
学习成果:
- 定义进化计算(EC),并解释其源于生物自然选择的灵感。
- 区分演进解决方案的基因型(参数)与表型(行为)。
- 展示突变、交叉与基于适应度的选择在进化算法中的功能。
- 描述进化计算如何通过迭代周期,在多代之间优化一组解决方案。
- 识别那些进化算法相较于传统方法具有可行优势的优化问题。
🔹 第9课:多智能体协作与集群
概述: 从单个智能体优化(第8课)转向集体智能的动态。本课程探讨协作与竞争情景,聚焦群体智能。学生将学习涌现原则:复杂的全局行为(如蚂蚁路径)纯粹由简单的局部通信协议产生,强调当自主系统规模扩大时所产生的复杂性。
学习成果:
- 区分单智能体系统与多智能体系统(MAS)的目标与机制。
- 解释通信在协调多个智能体之间的协作与竞争中的作用。
- 定义“涌现”,并识别现实世界与计算领域的群体智能实例(如蚁群优化)。
- 分析简单、局部规则如何生成复杂的全局群体行为。
- 讨论多智能体系统的复杂性为何需要谨慎的伦理考量与控制。
🔹 第10课:伦理、偏见与人机共生
概述: 本课程作为收官之作,探讨先进自主性所需的责任伦理。我们审视系统性缺陷,如数据偏见和模型的固有局限,特别是模型幻觉。深入探讨高级生成带来的风险(如深度伪造),进而引出解决方案:人在回路(HITL) 监督的必要性。课程最终定义理想未来状态:人机共生,即人工智能作为强大的副驾驶,增强人类能力。
学习成果:
- 识别当代人工智能系统中数据偏见与模型幻觉的来源及其后果。
- 分析深度伪造技术带来的安全风险,以及内容验证的重要性。
- 解释人在回路(HITL)监督的概念及其在自主决策过程中的必要性。
- 评估人机共生的潜力,将人工智能主要视为“副驾驶”工具而非替代品。
- 初步形成对未来人工智能创造者伦理责任的看法。