AI004

AI魔法实验室

严谨的课程结构整合了四个主要部分:人工智能基础、大模型生成(GenAI与LLM)、智能体与进化计算(作为香港理工大学特色突出展示),以及伦理。课程逻辑按顺序推进:感知与数据(第1-3课时)、认知与生成(第4-6课时)、智能体与进化(第7-9课时),最后以伦理与未来(第10课时)收尾。

5.0 评分
512 学生

课程概述

📚 内容概要

“AI魔法实验室”是一门严谨且融合贯通的课程,旨在提供对现代人工智能的深度、递进式理解。课程分为四个逐步推进的模块:基础概念(感知与数据)、高级生成能力(通过大语言模型和扩散模型实现的认知与生成)、自主系统(智能体与进化计算)以及伦理治理(伦理与未来)。学生将从理解数据的原始数值表示开始,逐步掌握复杂系统设计,最终形成对负责任的人工智能创造与部署的全面认知。

本课程提供对现代人工智能的严谨、综合理解,涵盖核心数据基础、大型语言模型(LLM)生成技术、自主智能体的架构,以及实现负责任部署所必需的关键伦理考量。

🎯 学习目标

  1. 掌握人工智能感知、数据表示(张量)及分类等基础监督学习任务的核心知识。
  2. 理解并控制大型语言模型(LLM)和生成式AI,通过序列预测、注意力机制以及高级提示工程技巧加以应用。
  3. 设计并分析智能体,将感知-决策-行动循环与基于种群的先进优化方法(如进化计算)相结合。
  4. 区分生成式与判别式人工智能,并解释文本到图像生成中扩散模型的机械工作原理。
  5. 评估当代人工智能固有的伦理挑战(数据偏见、模型幻觉、深度伪造),并提出促进人机共生的负责任策略。

🔹 第1课:机器的数字之眼

概述: 本基础课程探讨机器感知,从像素RGB色彩模型入手。学生将学习原始视觉数据如何被量化,以及计算机视觉(CV) 如何运用特征提取。核心机制是卷积——一种用于检测边缘等低级特征的数字滤波器,将可见图像转化为后续人工智能处理所需的结构化数值矩阵。
学习成果:

  • 定义像素、RGB值和分辨率在构建数字图像中的作用。
  • 解释计算机视觉(CV)和特征提取在机器感知中的必要性。
  • 将卷积概念化为一种“数字滤波器”,用于检测边缘、角点等低级特征。
  • 理解所有视觉数据最终均以结构化数值矩阵形式呈现,供人工智能处理。

🔹 第2课:数据的基本单元(张量)

概述: 本重要课程从原始感知过渡到结构化的数学表达。我们对非结构化数据(文本、音频、图像)进行分类,并引入张量——作为所有人工智能计算通用语言的多维容器。我们将可视化不同数据类型如何以张量形式表示,并定义输入/输出(I/O)关系。关键内容是预处理(清洗、缩放、归一化)过程,这是有效模型训练的前提条件。
学习成果:

  • 定义非结构化数据(文本、图像、音频)的主要特征,并解释为何需要转换。
  • 数学上区分向量(1维)与张量(多维容器)。
  • 解释张量如何作为所有神经网络的通用输入/输出结构。
  • 概述数据预处理的关键步骤与目标(清洗与归一化),以确保模型训练的有效性。

🔹 第3课:分类大师

概述: 本课程聚焦于监督学习,解释人工智能如何利用结构化标注数据完成复杂任务。核心任务是分类,即模型通过绘制象征性的决策边界来对输入进行排序。我们使用准确率评估模型有效性,并探讨主要陷阱——过拟合,即模型无法将其知识泛化到新出现的未见过的数据。
学习成果:

  • 定义监督学习,并识别训练数据与标签的作用。
  • 解释分类的目标,并可视化模型如何建立决策边界。
  • 使用准确率这一指标计算或解读模型性能。
  • 分析并描述过拟合的概念及其对人工智能泛化能力的负面影响。

🔹 第4课:语言预测与注意力机制

概述: 本课程转向动态序列生成,解释大型语言模型(LLM)的核心机制。我们定义标记(Token)上下文窗口(LLM的短期记忆)的局限性。该过程依赖于序列预测(计算下一个标记的概率)和注意力机制,后者动态权衡标记的重要性。最后,学生将学习温度参数如何控制生成输出的随机性与创造性。
学习成果:

  • 定义标记,并解释文本如何被转换为序列以供LLM处理。
  • 描述上下文窗口的功能,并解释其作为人工智能短期记忆的局限性。
  • 阐明注意力机制在预测过程中帮助LLM聚焦相关输入信息的作用。
  • 解释序列预测是一种概率过程,并分析温度参数如何控制模型输出的创造力与随机性。

🔹 第5课:提示工程魔法

概述: 基于LLM预测的技术基础,本课程聚焦于通过结构化输入主动控制输出,将语言视为高级代码。我们建立核心提示架构(指令、上下文、格式)。涵盖的技术包括角色设定(人格化)少样本学习(提供示例),以及思维链(CoT),后者通过要求逐步推理来提升逻辑准确性。
学习成果:

  • 定义提示工程,并认识到自然语言是引导LLM的新编程范式。
  • 实施角色设定(人格化)和少样本学习技术,以调整LLM的语气、重点及对特定输出格式的遵循。
  • 应用思维链(CoT)技术解决多步推理问题,提升逻辑准确性。
  • 练习迭代式提示优化,系统性地精炼并约束生成输出,以达成期望结果。

🔹 第6课:生成艺术与扩散模型

概述: 本课程从第5课的文本输入控制转向创作的机械过程。我们区分生成式AI与判别式AI。核心聚焦于扩散模型:每幅图像都始于随机噪声。该过程涉及数百步的迭代去噪,由详细提示精确控制,以确保文本到图像对齐潜在空间中实现。
学习成果:

  • 区分生成式与判别式人工智能模型。
  • 解释扩散模型的核心原理——从随机噪声开始的迭代去噪过程。
  • 描述文本提示在实现文本到图像对齐中的作用。
  • 识别扩散模型的关键应用,例如风格迁移。

🔹 第7课:智能体的核心循环

概述: 本课程介绍智能体——一种由闭环感知-决策-行动(PDA)循环定义的自主系统。我们分解其组成部分:感知(通过传感器)、决策(内部大脑)和行动(通过执行器)。一个关键扩展是工具使用,即智能体调用外部工具(如搜索引擎)以扩展其能力,超越其核心模型本身。
学习成果:

  • 定义智能体,并根据其与环境互动的能力,将其与静态生成式AI模型区分开来。
  • 绘制并解释感知-决策-行动(PDA)闭环中各组件的作用。
  • 识别并举例说明现实世界与纯数字智能体中的传感器(感知)与执行器(行动)。
  • 理解“工具使用”在扩展智能体核心模型之外有效能力中的功能与意义。

🔹 第8课:进化的威力(香港理工大学特色)

概述: 本课程介绍进化计算(EC),一种受自然选择启发的优化范式,用于寻找最优的智能体决策。我们定义基因型(编码指令)和表型(表现行为)。深入探讨三大支柱:突变(随机变化)、交叉(特性组合)和选择,其中选择由适应度函数引导——即衡量解决方案质量、跨代际演化的客观标准。
学习成果:

  • 定义进化计算(EC),并解释其源于生物自然选择的灵感。
  • 区分演进解决方案的基因型(参数)与表型(行为)。
  • 展示突变、交叉与基于适应度的选择在进化算法中的功能。
  • 描述进化计算如何通过迭代周期,在多代之间优化一组解决方案。
  • 识别那些进化算法相较于传统方法具有可行优势的优化问题。

🔹 第9课:多智能体协作与集群

概述: 从单个智能体优化(第8课)转向集体智能的动态。本课程探讨协作与竞争情景,聚焦群体智能。学生将学习涌现原则:复杂的全局行为(如蚂蚁路径)纯粹由简单的局部通信协议产生,强调当自主系统规模扩大时所产生的复杂性。
学习成果:

  • 区分单智能体系统与多智能体系统(MAS)的目标与机制。
  • 解释通信在协调多个智能体之间的协作与竞争中的作用。
  • 定义“涌现”,并识别现实世界与计算领域的群体智能实例(如蚁群优化)。
  • 分析简单、局部规则如何生成复杂的全局群体行为。
  • 讨论多智能体系统的复杂性为何需要谨慎的伦理考量与控制。

🔹 第10课:伦理、偏见与人机共生

概述: 本课程作为收官之作,探讨先进自主性所需的责任伦理。我们审视系统性缺陷,如数据偏见和模型的固有局限,特别是模型幻觉。深入探讨高级生成带来的风险(如深度伪造),进而引出解决方案:人在回路(HITL) 监督的必要性。课程最终定义理想未来状态:人机共生,即人工智能作为强大的副驾驶,增强人类能力。
学习成果:

  • 识别当代人工智能系统中数据偏见与模型幻觉的来源及其后果。
  • 分析深度伪造技术带来的安全风险,以及内容验证的重要性。
  • 解释人在回路(HITL)监督的概念及其在自主决策过程中的必要性。
  • 评估人机共生的潜力,将人工智能主要视为“副驾驶”工具而非替代品。
  • 初步形成对未来人工智能创造者伦理责任的看法。