L23304 模型調整與優化
2學習率與批次大小 — 訓練流程兩個最關鍵超參數
超參數 = 開發者手動指定、不由資料自動學習得出的參數
2.1學習率(Learning Rate)
| 面向 | 內容 |
|---|---|
| 定義 | 控制模型在每一次反向傳播(Backpropagation)後,根據梯度方向更新參數的幅度;由訓練者事先指定的核心超參數,非模型內部自我調整 |
| 定位 | 所有深度學習流程中最敏感且最具關鍵性的設定之一 |
| 適用範圍 | 梯度下降及其變形(Mini-Batch SGD / Momentum / Adam 等);尤其 CNN / RNN / Transformer 等深度架構 |
| 學習率大 | 更新幅度大 → 快速接近最小值,但容易跳過最小點、震盪,甚至使損失無限上升(發散) |
| 學習率小 | 變化細緻、穩定收斂,但學習速度極慢,高維空間中難以跳脫局部極小值 |
| 實務技巧 | 訓練初期適度大快速降低誤差,後期降低有助收斂至更佳區域 → 搭配學習率退火(Annealing)或 Scheduler 調度器 |
2.2批次大小(Batch Size)
| 面向 | 內容 |
|---|---|
| 定義 | 每次參與梯度更新的訓練樣本數量;批次訓練將資料拆為小群組逐批輸入模型;決定單次反向傳播所見的樣本規模 |
| 適用範圍 | 深度學習模型訓練流程,尤其使用 GPU 加速時更為關鍵 |
| 小批次 | 較高隨機性 → 有助跳脫局部極小值;但梯度波動大,可能訓練不穩 |
| 大批次 | 提供較穩定的梯度估計,有利加速收斂;但可能降低泛化能力 |
| 影響面向 | ① 梯度估計穩定性 ② 模型更新頻率 ③ 訓練資源(GPU 記憶體)使用效率 |
3網路深度寬度 + 激活函數選用
結構決定容量 — 容量 = 深度 × 寬度
3.1網路深度與寬度
| 面向 | 內容 |
|---|---|
| 深度(Depth) | 神經網路所包含的層數,含輸入層、隱藏層與輸出層 |
| 寬度(Width) | 每層中神經元(或通道、單元)的數量 |
| 共同決定 | 模型容量(Capacity) — 結構複雜度與參數規模 |
| 適用範圍 | 深度學習(MLP / CNN / RNN / Transformer);傳統 ML(決策樹、SVM)多半無深度寬度概念 |
| 增加深度 | 提升非線性表達能力,能處理更複雜模式辨識任務 |
| 增加寬度 | 提供更豐富的特徵表示空間,捕捉多樣化輸入 |
3.2激活函數四大選用對照
| 函數 | 公式 | 輸出範圍 | 適用範圍 | 特點 |
|---|---|---|---|---|
| Softmax | Softmax(zᵢ) = eᶻⁱ / Σⱼeᶻʲ |
[0, 1],總和為 1 | 多類別單選(Multi-Class Single-Label)— 多分類問題輸出層 | 輸出為機率分佈/類別間相互排斥/用於輸出層 |
| ReLU | ReLU(x) = max(0, x) |
[0, ∞),非固定範圍 | 深度神經網路隱藏層(最常用) | 解決梯度消失/計算簡單快速/適合捕捉非線性特徵 |
| Sigmoid | σ(x) = 1 / (1 + e⁻ˣ) |
[0, 1] | 二元分類 / 標籤分類(每類別獨立二元判斷,不彼此排斥) | 每個輸出單獨表示機率/不保證輸出總和為 1/常用於輸出層 |
| Tanh | tanh(x) = (eˣ−e⁻ˣ) / (eˣ+e⁻ˣ) |
[-1, 1] | 深度神經網路隱藏層;資料需要正負輸出對稱時 | 較 Sigmoid 中心對稱/中心區域梯度大,學習較快 |
4優化器演進 — SGD → Momentum → Adagrad → Adam
依損失函數梯度資訊調整參數,最小化損失
4.1優化器基本概念
| 面向 | 內容 |
|---|---|
| 定義 | 深度學習中,用來更新模型參數(權重和偏差)的演算法;依損失函數梯度資訊,調整參數方向與步幅,以最小化損失值 |
| ① 計算梯度 | 根據損失函數對模型參數的偏導數,計算每個參數更新方向 |
| ② 決定更新步伐 | 根據學習率與演算法特性決定每次更新幅度 |
| ③ 控制收斂過程 | ① 是否考慮動量(Momentum) ② 是否採自適應學習率(Adaptive LR) ③ 是否累積梯度歷史修正方向 |
4.2四大常見優化器對照
| 優化器 | 核心機制 | 適用範圍 | 特點 |
|---|---|---|---|
| ① SGD Stochastic Gradient Descent |
最基本梯度下降,每次僅用一筆或一小批 mini-batch資料計算梯度更新θₜ₊₁ = θₜ − η·∇L(θₜ) |
小型模型/淺層神經網路、記憶體有限環境、資料量小 | 計算簡單、記憶體需求低/更新快且頻繁/易受噪聲影響、收斂慢/高度依賴學習率 |
| ② Momentum | SGD 基礎上加上過去梯度累積產生「慣性」,更新更平滑vₜ₊₁ = γ·vₜ + η·∇L(θₜ)γ:動量係數,常 0.5~0.9 |
深度神經網路、梯度震盪大的情況、希望加快收斂 | 減少梯度震盪/幫助跳脫局部最小值/收斂較快/需額外調動量係數 |
| ③ Adagrad | 自動為每個參數調整不同學習率,更新幅度隨參數過往累積梯度大小變化Gₜ = Gₜ₋₁ + ∇L(θₜ)²θₜ₊₁ = θₜ − η/√(Gₜ+ε)·∇L(θₜ) |
稀疏特徵場景(文字、NLP)/特徵分佈不均 | 為每個參數分配不同學習率/特別適合稀疏特徵/缺點:學習率會持續衰減到非常小,可能導致模型停止學習 |
| ④ Adam Adaptive Moment Estimation |
結合 Momentum + RMSprop,同時計算一階動量(平均梯度)+ 二階動量(梯度平方),並進行偏差修正 β₁、β₂ 控制衰減;ε 防除零 |
幾乎所有深度學習模型/資料噪聲大或梯度稀疏/初學者「萬用優化器」 | 收斂快且穩定/自動調整學習率/記憶體需求較高/部分情境泛化能力略輸 SGD |
5正則化技術與模型穩定化
限制模型複雜度 + 引導學習更具泛化能力的特徵
5.1正則化係數(λ)
| 面向 | 內容 |
|---|---|
| 定義 | 控制模型複雜度的超參數,決定正則化項在損失函數中的影響力,避免過擬合 |
| 適用範圍 | ML:線性迴歸、邏輯迴歸、SVM、Lasso/Ridge DL:CNN/RNN/Transformer 各類神經網路 |
| λ 變大 | 強化限制 → 權重壓縮得更小 → 模型變簡單,但可能欠擬合 |
| λ 變小 | 放鬆限制 → 權重可變大 → 模型更靈活,但容易過擬合 |
Loss = 原始損失 + λ × Regularization Term
5.2L1 vs L2 vs Elastic Net 三大正則化
| 技術 | 公式 | 機制 | 特點 |
|---|---|---|---|
| ① L1(Lasso) | Loss = 原始損失 + λ·Σ|θᵢ| |
對所有參數絕對值總和限制 → 部分權重變為零 | 可自動特徵選擇,模型更簡化 常用於高維/特徵數多場景 λ 過大可能過度刪除重要特徵 → 欠擬合 |
| ② L2(Ridge) | Loss = 原始損失 + λ·Σθᵢ² |
對所有參數平方和限制 → 權重縮小,但不會直接變 0 | 穩定權重大小,防止過擬合 能處理多重共線性(特徵高度相關) λ 過大可能造成欠擬合 |
| ③ Elastic Net | Loss = 原始損失 + λ₁·Σ|θᵢ| + λ₂·Σθᵢ² |
結合 L1 與 L2 — 同時施加稀疏 + 穩定化限制 | 保留 L1 的特徵選擇能力,又利用 L2 防止過度稀疏 對多重共線性問題特別有效 需同時調 λ₁、λ₂,調參較複雜 |
5.3Dropout
| 面向 | 內容 |
|---|---|
| 定義 | 訓練過程中隨機將部分神經元暫時關閉,減少神經元彼此依賴,讓模型學到多種路徑特徵,減少過擬合 |
| 公式 | output = dropout(x, p);p = 保留機率(常見 0.5) |
| 訓練階段 | 隨機將部分神經元輸出設為 0;讓模型學習不同「子網路」結構 |
| 測試階段 | 不再丟棄神經元,把權重按保留率縮放,保持輸出期望值一致 |
| 特點 | 能降低過擬合風險/不需修改網路架構,僅訓練階段生效/常用於深度神經網路 |
| 常見問題 | 機率設定過高可能讓模型無法有效學習/測試時須關閉 Dropout 並調整輸出權重 |
5.4Early Stopping 早停法
| 面向 | 內容 |
|---|---|
| 定義 | 訓練過程中,若驗證集損失在連續多次迭代後不再改善,便提前終止訓練 |
| 關鍵參數 | patience — 可容忍多少次不進步 |
| 特點 | 防止過擬合、節省訓練時間/無需修改模型架構,是一種訓練策略 |
| 常見問題 | patience 過短 → 提早停止 → 欠擬合/patience 過長 → 仍可能過擬合 |
6資料增強與重取樣策略
解決資料量不足、類別不平衡、資料偏差三大挑戰
6.1資料增強(Data Augmentation)
| 面向 | 內容 |
|---|---|
| 定義 | 利用各種隨機變換手段,人工擴增訓練資料,製造更多樣本,提升模型對多變環境的適應力,降低過擬合風險 |
| 影像 | 旋轉、平移、翻轉、縮放、裁切、添加雜訊、變更亮度等 |
| 文字 | 同義字替換、隨機刪詞、分詞打亂、句子順序調整等 |
| 音訊 | 改變播放速度、音量變化、加背景噪音、隨機靜音片段等 |
| 優點 | ① 增加資料多樣性 ② 降低對特定樣式的過擬合 ③ 學習更具泛化能力的特徵 ④ 不需額外收集昂貴的實際數據 |
| 常見問題 | 不當變換可能改變原始語意或標註,導致學錯/大規模增強提高計算成本/需依場景謹慎選擇 |
6.2重取樣三大方法
| 方法 | 原理 | 優點 | 缺點 |
|---|---|---|---|
| ① 過採樣 Oversampling |
增加少數類別樣本數,使各類別樣本數趨於平衡 方法:複製少數樣本/SMOTE(Synthetic Minority Over-sampling Technique)等演算法合成新樣本 |
平衡類別分佈/提升少數類別預測能力/不會損失原始資料 | 單純複製易過擬合/SMOTE 合成樣本可能不自然 |
| ② 欠採樣 Undersampling |
減少多數類別樣本數,達到類別平衡 | 降低計算成本/簡單易行、實作快速 | 可能丟失有價值的資料,模型準確度↓/少數類別本就稀少時不適用 |
| ③ 類別權重調整 Class Weighting |
在損失函數中對不同類別賦予不同權重,使少數類別貢獻度提高 ※ 不改變樣本數量 |
保留原始資料完整性/適用於資料量有限或無法生成新樣本/計算資源消耗較低 | 權重過大造成過度補償/過小無法解決不平衡 |
7模型壓縮與加速四大技術
部署至行動裝置 / IoT / 邊緣運算 — 解儲存、推論延遲、能源消耗三大挑戰
7.1知識蒸餾(Knowledge Distillation)
| 面向 | 內容 |
|---|---|
| 定義 | 將大型、高準確度的「教師模型(Teacher)」知識,傳遞給較小、較輕量的「學生模型(Student)」的技術 |
| 目標 | 讓學生模型在體積更小、運算更快的情況下,仍能接近教師模型的預測表現 |
| 應用場景 | 部署至硬體資源有限的設備(行動裝置、邊緣運算節點)/降低運算延遲、提升即時應用 |
| 優點 | 學生體積更小、推論更快/準確度接近原大型模型/適用於壓縮 + 加速雙重目標 |
| 常見問題 | 蒸餾過程需要額外訓練時間與運算資源/教師若有偏誤可能傳遞給學生 |
7.2模型剪枝(Pruning)
| 類型 | 做什麼 | 特點 |
|---|---|---|
| 結構化剪枝 Structured Pruning |
移除整個神經元、卷積通道或層級 | 較容易與硬體加速器整合 |
| 非結構化剪枝 Unstructured Pruning |
移除零散的單一權重參數 | 模型稀疏化,但硬體支援較差 |
| 面向 | 內容 |
|---|---|
| 定義 | 移除神經網路中影響較小、貢獻度低的權重或神經元,減少模型大小、提升計算效率 |
| 優點 | 減少參數數量、降低儲存需求/提升運算效率、降低推論延遲/可與其他壓縮技術結合 |
| 常見問題 | 剪枝過度導致準確度明顯下降/部分硬體對非結構化稀疏矩陣支援有限,實際效益有限 |
7.3量化(Quantization)
| 面向 | 內容 |
|---|---|
| 定義 | 將模型中高精度的參數(如 32-bit 浮點數)轉換為較低精度的格式(如 8-bit 整數),以減少模型大小並加快運算速度 |
| 優點 | 大幅降低儲存空間與記憶體需求/減少運算負擔,特別適合硬體加速器(Edge TPU / NPU)/部分硬體平台已針對低精度運算最佳化 |
| 常見問題 | 直接量化可能導致準確度下降/常需搭配 量化感知訓練(Quantization Aware Training, QAT),讓模型學習適應量化誤差/不同層級量化影響不一 |
7.4混合精度訓練(Mixed Precision Training)
| 面向 | 內容 |
|---|---|
| 定義 | 訓練過程中同時使用不同數值精度(如 FP16 與 FP32),兼顧運算速度與模型精度 |
| 優點 | 加速訓練/減少記憶體佔用,允許更大批次或更深層模型/現代 GPU(NVIDIA Tensor Cores)已提供良好支援 |
| 常見問題 | 需硬體支援否則效益有限/低精度運算可能數值不穩定,需特別處理梯度縮放(Gradient Scaling)/並非所有演算法都能無痛適用 |
7.5四大壓縮技術定位對照
| 技術 | 核心動作 | 關鍵字 | 主場景 |
|---|---|---|---|
| 知識蒸餾 Knowledge Distillation | 大模型(Teacher)→ 小模型(Student)知識傳遞 | 軟標籤、Teacher-Student | 邊緣裝置部署、即時推論 |
| 剪枝 Pruning | 移除低貢獻權重/神經元 | 結構化 vs 非結構化 | 減少參數數量、提升效率 |
| 量化 Quantization | 降低數值精度(FP32→INT8) | QAT / Edge TPU / NPU | 邊緣 AI 推論、節省記憶體 |
| 混合精度訓練 Mixed Precision Training | 訓練時混用 FP16 + FP32 | Tensor Cores / Gradient Scaling | 加速訓練、節省訓練時記憶體 |
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23304 模型調整與優化 · v1.0(2026-05 表格化精簡版)