AI003

深度学习入门

深度学习是机器学习的一个子领域,专注于使用人工神经网络从原始数据中学习复杂的分层特征表示。本课程涵盖基本原理、基础数学、优化概念(梯度下降、反向传播)、网络模块(线性层、卷积层、池化层)以及常见架构(CNN、RNN)。应用实例包括计算机视觉、自然语言处理和强化学习。学生将使用 PyTorch 深度学习库进行实现,并完成一个针对真实场景的最终项目。

5.0 评分
512 学生

课程概述

📚 内容概要

深度学习是机器学习的一个子领域,专注于使用人工神经网络从原始数据中学习复杂的层次化特征表示。本课程涵盖基础原理、底层数学、优化概念(梯度下降、反向传播)、网络模块(线性层、卷积层、池化层)以及常见架构(CNN、RNN)。应用示例包括计算机视觉、自然语言处理和强化学习。学生将使用 PyTorch 深度学习库进行实现,并完成一个真实场景的最终项目。

核心目标简述:掌握深度学习理论,使用 PyTorch 实现模型,理解专用架构(如 CNN、RNN、Transformer),并将其应用于计算机视觉、自然语言处理和序列决策任务。

🎯 学习目标

  1. 解释训练深度神经网络所需的数学基础和核心优化技术(梯度下降、反向传播)。
  2. 利用 PyTorch 深度学习框架,高效地实现、训练和调试现代网络架构,结合 CUDA 加速和高效的数处理技术。
  3. 设计并分析专用架构,包括用于图像数据的卷积神经网络(CNN)和用于序列依赖关系的 Transformer 模型。
  4. 将深度学习技术应用于核心应用领域的实际问题:计算机视觉、自然语言处理和强化学习。
  5. 基于鲁棒性、可解释性和伦理公平性评估模型,比较不同先进范式(如生成模型、半监督学习)的优势。

🔹 第1课:深度学习基础与优化

概述: 本基础课程介绍深度学习的核心构建模块。我们首先考察线性分类器,重点关注 Softmax 函数以及使用交叉熵损失量化误差的方法。在此基础上,定义基本前馈神经网络(多层感知机)的结构,详细说明权重、偏置和非线性激活函数(如 ReLU)的作用。重点转向训练这些高度参数化的模型所需的优化过程。我们将引入梯度下降(GD)作为核心优化算法,对比其与随机梯度下降(SGD)和小批量梯度下降(Mini-batch GD)在计算需求上的差异。关键的是,课程以反向传播算法的详细解释收尾,展示如何通过计算图高效地运用微积分中的链式法则,计算出所有层权重更新所需的梯度。 学习成果:

  • 定义基本前馈神经网络的结构,并解释非线性激活函数(如 ReLU)的必要性。
  • 构建分类损失函数(如 Softmax 与交叉熵),并理解它们如何量化模型误差。
  • 解释梯度下降(GD)的机制,并在收敛性和计算效率方面区分其变体(SGD、Mini-batch GD)。
  • 使用链式法则推导反向传播算法,并通过计算图演示其梯度计算的实现。
  • 识别理解神经网络优化所需的关键数学前提(线性代数与多元微积分)。

🔹 第2课:实践实现与深度学习工具

概述: 本课程从理论概念过渡到使用 PyTorch 的生产级深度学习实现,这是本课程的核心库。我们从 PyTorch 的基础开始,详细讲解张量结构,利用 CUDA 进行 GPU 加速,并理解通过动态计算图实现的自动微分。重点将放在高效的数据处理上:介绍用于数据抽象的 PyTorch Dataset 类,以及用于管理大规模数据集的 DataLoader,支持批处理、打乱和多进程数据加载。最后,我们将探讨扩展训练的实际考虑因素,涵盖内存管理优化、梯度累积等技术,以及分布式训练(如数据并行)的核心概念,以应对超出单个 GPU 能力的模型。 学习成果:

  • 使用 PyTorch 张量实现核心深度学习操作,并利用其自动微分功能计算梯度。
  • 使用 PyTorch Dataset 与 DataLoader 抽象设计并实现高效的数据管道,以处理大规模批处理数据输入。
  • 配置模型与数据以在支持 CUDA 的 GPU 上训练,显著加速训练与推理过程。
  • 解释内存优化技术(如梯度累积)的作用,并理解分布式训练以实现可扩展性的基本概念。

🔹 第3课:卷积网络:层与架构

概述: 本课程介绍卷积神经网络(CNN),现代计算机视觉的基石。我们将深入探索基础模块:卷积层与池化层。对于卷积层,我们将讲解操作数学,包括核(滤波器)、步幅和填充的作用,并讨论局部连接与参数共享等关键概念,这些使 CNN 在高维图像数据中具有高效性。我们将区分最大池化与平均池化,并解释它们在下采样和实现平移不变性中的关键作用。最后,我们将这些层整合为完整的、基本的 CNN 架构,通过经典模型(如 LeNet-5)举例说明从原始像素数据经由层级特征提取堆栈到全连接层进行最终分类的典型顺序流程。 学习成果:

  • 解释二维卷积的数学运算,包括滤波器大小、步幅和填充如何影响输出特征图的尺寸。
  • 阐述局部连接与参数共享的概念,并说明它们如何使 CNN 相较于全连接网络在图像数据上更高效、更有效。
  • 区分最大池化与平均池化,并描述池化层在特征图下采样和实现平移不变性中的主要目的。
  • 设计并分析由交错的卷积、激活(ReLU)、池化和全连接层组成的简单序列式 CNN 架构。

🔹 第4课:计算机视觉:高级模型与可解释性

概述: 本课程超越基础的 CNN(如 AlexNet),深入研究用于前沿计算机视觉任务的复杂且极具影响力的深度学习架构。我们将分析关键模型的设计原则与创新,包括 VGG 网络的精简深度、Inception(GoogLeNet)的多尺度特征聚合,以及 ResNet 中残差连接的关键应用,以克服极深网络中的梯度消失问题。课程后半部分聚焦于模型可解释性与可解释人工智能(XAI)这一重要主题。学生将学习可视化技术,如检查特征图激活,并深入研究基于梯度的定位方法。具体而言,我们将讲解类别激活映射(CAM)及其基于梯度的泛化方法——Grad-CAM 的机制与实现,该方法通过突出输入图像中的显著区域来直观解释网络决策。 学习成果:

  • 对比并分析 VGG、GoogLeNet 与 ResNet 模型的核心架构创新(如残差连接、Inception 模块)。
  • 解释扩大网络深度的挑战,特别是退化问题,并说明 ResNet 如何缓解此问题。
  • 详述特征可视化的基础方法,包括检查中间层激活和学习到的滤波器。
  • 描述类别激活映射(CAM)与 Grad-CAM 的理论机制,阐述其基于梯度流生成视觉解释的过程。
  • 应用可解释性技术分析并诊断高级 CNN 在分类任务中的决策过程。

🔹 第5课:循环神经网络与序列建模

概述: 本课程介绍建模结构化数据(尤其是序列,如文本、时间序列)的挑战,这些数据违背了前馈网络常见的独立性假设。我们将定义序列建模任务,如机器翻译、语音识别和时间序列预测,强调维持状态信息的必要性。核心重点在于传统循环神经网络(RNN)的架构。涵盖的关键概念包括共享权重机制、跨时间步展开计算图、计算隐藏状态更新(h_t),以及处理可变长度输入序列的方法。我们还将审视基本 RNN 的主要局限,即由于在时间反向传播(BPTT)过程中遇到的梯度消失与爆炸问题,无法捕捉长期依赖关系。 学习成果:

  • 定义结构化数据(序列),并解释标准前馈网络(FNN)为何不适用于建模序列依赖关系。
  • 描述基本循环神经网络(RNN)的基本架构,识别隐藏状态和共享权重矩阵等组件。
  • 展示将 RNN 计算图在时间步上“展开”的过程,并讨论如何处理可变长度输入序列。
  • 解释时间反向传播(BPTT)的机制,并分析训练传统 RNN 时固有的梯度消失与爆炸问题。

🔹 第6课:注意力机制与 Transformer 架构

概述: 本课程深入探讨《Attention Is All You Need》论文所引发的范式转变,通过消除循环结构,仅依赖注意力机制来实现序列建模,从而超越传统的循环神经网络(RNN)。我们首先建立注意力机制的数学基础,特别关注使用查询(Q)、键(K)和值(V)向量的缩放点积注意力。随后将此概念扩展至多头注意力机制,解释其在捕捉多样化上下文依赖关系中的作用。核心重点在于完整的 Transformer 架构,分析编码器与解码器堆栈的结构,包括残差连接、层归一化以及对保持序列信息至关重要的位置编码。最后,我们探讨 Transformer 如何实现显著的并行化及其在神经机器翻译和预训练语言模型等领域的革命性影响。 学习成果:

  • 定义注意力机制的目的,并解释其如何解决循环神经网络的局限性(如长距离依赖、序列处理瓶颈)。
  • 详述缩放点积注意力的数学操作,准确识别查询、键和值向量的角色。
  • 描述 Transformer 模型的整体结构,区分编码器与解码器堆栈,并解释多头注意力与前馈网络的功能。
  • 解释位置编码在置换不变的 Transformer 架构中的必要性及其数学实现。
  • 分析 Transformer 架构在现代深度学习任务中的计算优势(并行化)及其广泛应用,参考 BERT 和 GPT 等模型。

🔹 第7课:自然语言处理应用与嵌入

概述: 本讲座深入探讨深度学习在自然语言处理(NLP)中的基础与应用方面。我们首先解决有效词表示的关键需求,从稀疏方法转向密集、可学习的词嵌入。我们将详细解释 Word2Vec(跳元模型与连续词袋)的核心机制,强调上下文如何生成蕴含语义意义的丰富向量表示。然后将这些基础概念应用于两个主要的 NLP 任务:神经机器翻译(NMT),利用序列到序列的编码器-解码器架构及注意力机制在处理长依赖和对齐中的关键作用;以及自动语音识别(ASR),探索深度模型如何处理声学数据的时间序列以生成文本输出。讨论将强调嵌入与序列深度学习架构如何构成现代商业 NLP 系统的支柱。 学习成果:

  • 解释稀疏词表示(如 one-hot 编码)的局限性,并论证密集词向量嵌入的必要性。
  • 描述 Word2Vec(跳元模型/连续词袋)等模型的基本原理与架构,用于学习分布式表示。
  • 概述现代神经机器翻译系统的核心组件(编码器、解码器、注意力),并与传统方法进行对比。
  • 分析神经机器翻译(NMT)与自动语音识别(ASR)等序列到序列任务中的内在挑战,特别是输入/输出长度可变的问题。
  • 识别神经架构如何在自动语音识别背景下处理音频输入。

🔹 第8课:生成模型:变分自编码器与生成对抗网络

概述: 本课程介绍两种现代深度生成模型的基石:变分自编码器(VAEs)与生成对抗网络(GANs)。我们首先介绍 VAE,详细讲解其架构——编码器将数据映射到参数化的潜在分布,解码器生成样本。重点强调其底层数学,特别是证据下界(ELBO)目标函数,剖析重构损失与 KL 散度项在正则化中的作用。关键的重参数化技巧(reparameterization trick)将被彻底解释,以确保采样过程中的梯度流动。随后转向 GAN,定义生成器(G)与判别器(D)之间的对抗性零和博弈。课程涵盖理论最小最大目标函数,探讨最优判别器如何最大化目标,并讨论训练中的主要实际挑战,如模式崩溃与训练不稳定性。最后,我们提供定性比较,对比 VAE 的可解释潜在空间与 GAN 通常更优的样本保真度。 学习成果:

  • 区分判别式建模与生成式建模,并解释学习复杂数据分布的数学目标。
  • 解释变分自编码器(VAE)的架构,并推导证据下界(ELBO)目标函数。
  • 分析重参数化技巧在 VAE 训练中的必要性与功能,以确保有效的反向传播。
  • 描述生成对抗网络(GAN)的训练过程,将其视为生成器与判别器之间的最小最大博弈。
  • 根据样本质量、潜在空间可解释性以及训练挑战(如模式崩溃)对比 VAE 与 GAN。

🔹 第9课:深度强化学习

概述: 本课程通过建立马尔可夫决策过程(MDP)这一基础决策框架,引入深度强化学习(DRL)。我们将定义智能体-环境循环、状态与动作空间,以及最大化期望折扣回报的目标。课程涵盖传统强化学习的核心概念,包括价值函数与贝尔曼最优方程。随后过渡到 DRL,探讨大状态空间的挑战,以及深度 Q 网络(DQN)如何通过使用神经网络近似 Q 函数来克服这一问题。我们将详细说明 DQN 所需的稳定性技术,如经验回放与目标网络。最后,我们将价值基方法与策略梯度技术进行对比,详细阐述 REINFORCE 算法的数学直觉以实现直接策略优化,并为更高级的演员-评论家架构铺平道路。 学习成果:

  • 使用马尔可夫决策过程(MDP)框架形式化序列决策问题,包括状态、动作、奖励与价值函数的定义。
  • 解释从表格 Q 学习到深度 Q 网络(DQN)的过渡,并识别稳定 DRL 训练的关键技术(经验回放、目标网络)。
  • 从根本上区分价值基方法(如 DQN)与策略基方法(如 REINFORCE)。
  • 描述策略梯度定理的目标函数与数学直觉,及其在 REINFORCE 算法中的实现。
  • 对比现代深度强化学习场景中价值基与策略基方法的应用。

🔹 第10课:高级学习范式与伦理人工智能

概述: 本课程介绍深度学习稳健部署所需的高级范式,并探讨关键的社会影响。我们首先探索无监督深度学习的理论基础与实际应用,重点关注自编码器与生成模型在表示学习与异常检测中的使用。随后深入探讨半监督学习(SSL)技术,如伪标签与一致性正则化(如 \Pi-模型、MixMatch),这些技术在利用大量未标记数据的同时,结合稀缺的已标记样本中至关重要。课程第二部分批判性地审视伦理人工智能,详细说明数据整理与架构选择如何引入算法偏见。我们定义并分析关键公平性度量(如平等机会差异、人口均等),并讨论有效的缓解策略,强调在高风险深度学习系统中可解释性(XAI)与问责制的重要性。 学习成果:

  • 区分无监督、半监督与标准监督学习,并识别每种范式适用的真实世界场景。
  • 描述关键无监督模型(如自编码器)的功能与架构,及其在降维或表示学习中的应用。
  • 解释现代半监督技术的方法,包括伪标签与一致性正则化的概念。
  • 识别并分类深度学习生命周期中引入算法偏见的主要来源(数据获取、建模、部署)。
  • 定义并比较常见的算法公平性度量(如均衡奇偶性),并讨论偏见缓解策略中的权衡。