TeamClass_MD/teach_Pytorch.md
2025-03-15 20:08:09 +08:00

17 KiB
Raw Blame History

深度学习的实现

在Pytorch中实现

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import transforms
from torchvision import datasets
from torch.utils.data import DataLoader
import warnings


# 数据加载与预处理
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.1307,), (0.3081,))
])

train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
test_dataset = datasets.MNIST(root='./data', train=False, transform=transform)

train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True, num_workers=4, pin_memory=True)
test_loader = DataLoader(test_dataset, batch_size=64, shuffle=False, num_workers=4, pin_memory=True)

class MNISTCNN(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv_layers = nn.Sequential(
            nn.Conv2d(1, 32, 3, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(2),
            nn.Conv2d(32, 64, 3, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(2),
        )
        self.fc_layers = nn.Sequential(
            nn.Linear(64 * 7 * 7, 128),
            nn.ReLU(inplace=True),
            nn.Dropout(0.5),
            nn.Linear(128, 10)
        )
    
    def forward(self, x):
        x = self.conv_layers(x)
        x = x.view(x.size(0), -1)
        return self.fc_layers(x)

model = MNISTCNN().to('cuda')

optimizer = optim.AdamW(model.parameters(), lr=0.001, weight_decay=0.0001)
loss_fn = nn.CrossEntropyLoss(reduction='mean')

num_epochs = 10

for epoch in range(num_epochs):
    model.train()
    train_loss = 0.0
    for images, labels in train_loader:
        images, labels = images.to('cuda'), labels.to('cuda')
        optimizer.zero_grad()
        outputs = model(images)
        loss = loss_fn(outputs, labels)
        loss.backward()
        optimizer.step()
        train_loss += loss.item() * images.size(0)
    
    avg_train_loss = train_loss / len(train_dataset)
    
    # 验证
    model.eval()
    correct = 0
    total = 0
    with torch.no_grad():
        for images, labels in test_loader:
            images, labels = images.to('cuda'), labels.to('cuda')
            outputs = model(images)
            _, predicted = torch.max(outputs, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    test_acc = 100 * correct / total
    
    print(f'Epoch {epoch+1}/{num_epochs} | Train Loss: {avg_train_loss:.4f} | Test Acc: {test_acc:.2f}%')

torch.save(model.state_dict(), 'mnist_cnn_model.pth')
print("Saved CNN model state!")

在Pytorch中实现深度学习需要以下步骤

数据准备->模型定义->定义优化器 & 损失函数->模型​训练(自动/自定义)->模型评估->保存 & 部署

模型定义

基础定义模板

import torch
import torch.nn as nn

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()  # 必须调用父类构造函数
        # 在这里定义网络层
        self.layer1 = nn.Linear(in_features=784, out_features=256)
        self.layer2 = nn.Linear(256, 10)
        self.relu = nn.ReLU()

    def forward(self, x):
        # 定义前向传播逻辑
        x = self.relu(self.layer1(x))
        x = self.layer2(x)
        return x
  • 他需要手动定义向前传播逻辑,即forward函数,并且需要手动调用父类的构造函数super(MyModel, self).__init__()
  • nn.Module是所有神经网络模块的基类,我们自己的模型需要继承这个类,并且实现forward函数
  • nn.Linear是全连接层,in_features是输入特征数,out_features是输出特征数
  • nn.ReLU是激活函数
  • self.layer1 = nn.Linear(in_features=784, out_features=256)表示定义一个全连接层输入特征数为784输出特征数为256
  • self.layer2 = nn.Linear(256, 10)表示定义一个全连接层输入特征数为256输出特征数为10
  • self.relu = nn.ReLU()表示定义一个激活函数
  • x = self.relu(self.layer1(x))表示先通过layer1层,再通过relu激活函数
  • x = self.layer2(x)表示通过layer2
  • return x表示返回输出

使用 nn.Sequential 简化模型定义

import torch
import torch.nn as nn

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.model = nn.Sequential(
            nn.Linear(in_features=784, out_features=256),
            nn.ReLU(),
            nn.Linear(256, 10)
        )

    def forward(self, x):
        return self.model(x)
  • nn.Sequential是一个容器可以将多个层按顺序组合在一起与tensorflow的tf.keras.Sequential类似
  • self.model = nn.Sequential(nn.Linear(in_features=784, out_features=256), nn.ReLU(), nn.Linear(256, 10))表示定义一个包含两个全连接层和一个激活函数的模型
  • return self.model(x)表示通过self.model模型进行前向传播

在torch中有超过50种类型的层可以参考官方文档使用方式都一样不断的在nn.Module中添加层即可

层类型 定义参数 作用 示例代码 典型用途
nn.Linear in_features (输入维度), out_features (输出维度) 全连接层:对输入数据进行线性变换。 self.fc = nn.Linear(784, 256) MLP、全连接网络
nn.Conv2d in_channels, out_channels, kernel_size, stride=1, padding=0 二维卷积层:提取局部特征(图像处理)。 self.conv1 = nn.Conv2d(3, 64, 3, padding=1) CNN、图像分类
nn.ReLU inplace=False (默认) 非线性激活函数:缓解梯度消失,引入非线性。 self.relu = nn.ReLU(inplace=True) 所有神经网络层后
nn.BatchNorm2d num_features (输出通道数) 批量归一化:加速训练,稳定梯度。 self.bn1 = nn.BatchNorm2d(64) CNN、ResNet
nn.MaxPool2d kernel_size, stride=1, padding=0 最大池化:下采样,减少计算量,增加平移不变性。 self.pool = nn.MaxPool2d(2, 2) 图像特征提取
nn.Dropout p=0.5 (丢弃概率默认0.5) 随机失活:防止过拟合。 self.dropout = nn.Dropout(0.5) MLP、RNN、CNN
nn.Embedding num_embeddings (嵌入维度), input_dim (词汇表大小) 嵌入层:将离散类别映射为稠密向量。 self.embedding = nn.Embedding(10000, 128) NLP、词嵌入
nn.LSTM input_size, hidden_size, num_layers, batch_first=True 长短期记忆网络:处理序列数据,捕捉长期依赖。 self.lstm = nn.LSTM(100, 64, 2, batch_first=True) 文本分类、时间序列预测
nn.GRU input_size, hidden_size, num_layers, batch_first=True 门控循环单元:简化版 LSTM计算更高效。 self.gru = nn.GRU(100, 64, 2, batch_first=True) 类似 LSTM 的应用场景
nn.TransformerEncoderLayer d_model, nhead, dim_k, dim_v Transformer 编码器层:自注意力机制,处理序列数据。 self.encoder_layer = nn.TransformerEncoderLayer(512, 8) NLP、机器翻译
nn.Upsample scale_factor (上采样倍数), mode='nearest' 上采样:图像超分辨率,扩大特征图尺寸。 self.up = nn.Upsample(scale_factor=2, mode='nearest') 图像分割、生成模型
nn.ConvTranspose2d in_channels, out_channels, kernel_size, stride=1, padding=0 转置卷积反卷积操作用于生成对抗网络GAN的输出。 self.deconv = nn.ConvTranspose2d(64, 3, 3, padding=1) GAN、图像修复
nn.Softmax dim=-1 (默认) 概率分布:将输出转换为分类概率。 self.softmax = nn.Softmax(dim=1) 分类任务最终层
nn.CrossEntropyLoss ignore_index=-1 (可选) 结合 Softmax 和 Cross-Entropy 的损失函数,用于分类任务。 criterion = nn.CrossEntropyLoss() 分类任务(无需手动加 Softmax
nn.MSELoss 均方误差损失:回归任务。 criterion = nn.MSELoss() 回归、坐标预测

定义优化器和损失函数

一、定义优化器 (Optimizer) 优化器用于更新模型的参数常见的算法包括SGD、Adam、RMSProp等。PyTorch的torch.optim模块提供了多种优化器。

  1. ​常用优化器示例
import torch.optim as optim

# 定义优化器
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)
optimizer = optim.Adam(model.parameters(), lr=0.001, betas=(0.9, 0.999))
optimizer = optim.RMSprop(model.parameters(), lr=0.01, alpha=0.99)
  1. ​常用参数说明
参数名 含义 默认值
params 需要优化的参数通常是model.parameters() 必须参数
lr 学习率Learning Rate 1e-3
momentum 动量项仅SGD系列有效 0
weight_decay 权重衰减L2正则化 0
betas Adam的β1和β2超参数平衡梯度指数衰减率 (0.9, 0.99)
eps Adam的极小值防止除零错误 1e-8默认为1e-7

二、定义损失函数 (Loss Function) 损失函数用于衡量模型的预测结果与真实标签之间的差异常见的损失函数包括均方误差损失、交叉熵损失等。PyTorch的torch.nn模块提供了多种损失函数。

  1. ​常用损失函数示例
import torch.nn as nn

# 分类任务(如图像分类)
criterion = nn.CrossEntropyLoss(
    reduction='mean'  # 可选'mean'或'sum'
)

# 回归任务(如房价预测)
criterion = nn.MSELoss(
    reduction='mse'   # 可选'mse', 'mae', 'sum', 'mean'
)
  1. ​常用参数说明
  • reduction指定损失函数的归约方式可选值包括none不聚合、sum求和、mean均值、mse均方误差。默认为'mean'。
  • weight指定每个类别的权重用于加权交叉熵损失。
  • ignore_index指定忽略的类别索引用于多分类任务。

模型训练

一、自动训练(标准流程)

这是最常见的模式,基于 DataLoader 和 torch.nn 模块的高层抽象实现。

  1. ​核心 API
API 作用 参数说明
torch.utils.data.DataLoader 数据加载器,封装 Dataset 并分批次加载数据 dataset: 自定义数据集对象, batch_size: 每次迭代的数据量
model.train() 将模型切换为训练模式(启用 Dropout/BatchNorm 等训练时行为) 无参数
optimizer.step() 执行参数更新(基于梯度) 无参数
optimizer.zero_grad() 清空梯度缓存,为下一次反向传播准备 无参数
loss.backward() 反向传播,计算梯度 retain_graph=True 可保留梯度用于多次反向传播
2. ​代码示例
# 定义模型、优化器、损失函数
model = MyModel().to(device)
optimizer = torch.optim.Adam(
    params=model.parameters(),
    lr=0.001,                # 学习率(核心超参数)
    betas=(0.9, 0.999),      # 动量参数
    eps=1e-8,                # 数值稳定性保护
    weight_decay=0.01         # 权重衰减(正则化)
)
criterion = nn.CrossEntropyLoss()

# 训练循环
for epoch in range(num_epochs):
    model.train()  # 设置训练模式
    for inputs, labels in dataloader:  ## 注意dataloader是迭代器每次迭代返回一个batch的数据
        inputs, labels = inputs.to(device), labels.to(device)
        
        # 前向传播
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        
        # 反向传播 + 参数更新
        optimizer.zero_grad()   # 清空梯度
        loss.backward()           # 计算梯度
        optimizer.step()         # 更新参数
        
        # 打印日志
        print(f"Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}")

二、自定义训练(灵活控制)

  • 适用于需要特殊逻辑的场景(如动态修改学习率、梯度裁剪、多任务学习等)。
  1. ​扩展功能 API
API 作用 参数说明
torch.optim.lr_scheduler 学习率调度器(如 StepLR、ReduceLROnPlateau optimizer: 优化器对象step_size调度步长
torch.nn.utils.clip_grad_norm_ 梯度裁剪,防止爆炸 parameters: 模型参数,max_norm 最大梯度范数
with torch.no_grad(): 禁用梯度计算,节省内存(常用于推理或评估) 无参数
2. ​代码示例
# 添加学习率调度器和梯度裁剪
scheduler = torch.optim.StepLR(optimizer, step_size=30, gamma=0.1)
gradient_clip = 5.0

for epoch in range(num_epochs):
    model.train()
    for inputs, labels in dataloader:
        inputs, labels = inputs.to(device), labels.to(device)
        
        # 前向传播
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        
        # 反向传播 + 梯度裁剪 + 参数更新
        optimizer.zero_grad()
        loss.backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), gradient_clip)
        optimizer.step()
        
        # 动态调整学习率
        scheduler.step()
        
        # 验证集评估(自定义逻辑)
        if batch_idx % 100 == 0:
            validate(model, val_dataloader, criterion)

关键的参数

  1. DataLoader 参数
DataLoader(
    dataset=MyDataset(),
    batch_size=64,           # 批量大小
    shuffle=True,           # 训练时打乱数据顺序
    num_workers=4,            # 多线程加载数据
    pin_memory=True          # GPU 数据传输加速
)

高级技巧

  1. 混合精度训练Mixed Precision Training
# 混合精度训练
scaler = torch.cuda.amp.GradScaler()
model, optimizer = amp.initialize(model, optimizer, opt_level="O1")

for epoch in range(num_epochs):
    model.train()
    for inputs, labels in dataloader:
        inputs, labels = inputs.to(device), labels.to(device)

        # 前向传播
        with torch.cuda.amp.autocast():
            outputs = model(inputs)
            loss = criterion(outputs, labels)

        # 反向传播和优化
        optimizer.zero_grad()
        scaler.scale(loss).backward()
        scaler.step(optimizer)
        scaler.update()
  1. 分布式训练Distributed Training
# 分布式训练
torch.distributed.init_process_group(backend='nccl')
model = model.to(device)
model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[device])

for epoch in range(num_epochs):
    model.train()
    for inputs, labels in dataloader:
        inputs, labels = inputs.to(device), labels.to(device)

        # 前向传播
        outputs = model(inputs)
        loss = criterion(outputs, labels)

        # 反向传播和优化
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
  1. 梯度检查点Gradient Checkpointing
# 梯度检查点
from torch.utils.checkpoint import checkpoint

for epoch in range(num_epochs):
    model.train()
    for inputs, labels in dataloader:
        inputs, labels = inputs.to(device), labels.to(device)

        # 前向传播
        def forward(inputs):
            return model(inputs)

        outputs = checkpoint(forward, inputs)

        # 反向传播和优化
        optimizer.zero_grad()
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

模型评估

import torch
from sklearn.metrics import classification_report

def run_evaluation(model, test_loader, class_names):
    model.eval()
    all_preds = []
    all_labels = []
    
    with torch.no_grad():
        for inputs, labels in test_loader:
            outputs = model(inputs)
            preds = torch.argmax(outputs, dim=1)
            
            all_preds.extend(preds.cpu().numpy())
            all_labels.extend(labels.cpu().numpy())
    
    # 打印报告
    print(classification_report(all_labels, all_preds, target_names=class_names))
    
    # 返回字典格式结果
    return {
        'accuracy': sum(p == l for p, l in zip(all_preds, all_labels)) / len(all_labels),
        'classification_report': classification_report(all_labels, all_preds, target_names=class_names)
    }

模型保存与加载

# 保存模型
torch.save(model.state_dict(), 'model.pth')

# 加载模型
model = YourModelClass()
model.load_state_dict(torch.load('model.pth'))
model.eval()