L23304模型調整與優化
0%

L23304 模型調整與優化

2學習率與批次大小 — 訓練流程兩個最關鍵超參數
超參數 = 開發者手動指定、不由資料自動學習得出的參數

2.1學習率(Learning Rate)

面向內容
定義控制模型在每一次反向傳播(Backpropagation)後,根據梯度方向更新參數的幅度;由訓練者事先指定的核心超參數,模型內部自我調整
定位所有深度學習流程中最敏感且最具關鍵性的設定之一
適用範圍梯度下降及其變形(Mini-Batch SGD / Momentum / Adam 等);尤其 CNN / RNN / Transformer 等深度架構
學習率大更新幅度大 → 快速接近最小值,但容易跳過最小點、震盪,甚至使損失無限上升(發散)
學習率小變化細緻、穩定收斂,但學習速度極慢,高維空間中難以跳脫局部極小值
實務技巧訓練初期適度大快速降低誤差,後期降低有助收斂至更佳區域 → 搭配學習率退火(Annealing)Scheduler 調度器

2.2批次大小(Batch Size)

面向內容
定義每次參與梯度更新的訓練樣本數量;批次訓練將資料拆為小群組逐批輸入模型;決定單次反向傳播所見的樣本規模
適用範圍深度學習模型訓練流程,尤其使用 GPU 加速時更為關鍵
小批次較高隨機性 → 有助跳脫局部極小值;但梯度波動大,可能訓練不穩
大批次提供較穩定的梯度估計,有利加速收斂;但可能降低泛化能力
影響面向① 梯度估計穩定性 ② 模型更新頻率 ③ 訓練資源(GPU 記憶體)使用效率
3網路深度寬度 + 激活函數選用
結構決定容量 — 容量 = 深度 × 寬度

3.1網路深度與寬度

面向內容
深度(Depth)神經網路所包含的層數,含輸入層、隱藏層與輸出層
寬度(Width)每層中神經元(或通道、單元)的數量
共同決定模型容量(Capacity) — 結構複雜度與參數規模
適用範圍深度學習(MLP / CNN / RNN / Transformer);傳統 ML(決策樹、SVM)多半無深度寬度概念
增加深度提升非線性表達能力,能處理更複雜模式辨識任務
增加寬度提供更豐富的特徵表示空間,捕捉多樣化輸入

3.2激活函數四大選用對照

函數公式輸出範圍適用範圍特點
Softmax Softmax(zᵢ) = eᶻⁱ / Σⱼeᶻʲ [0, 1],總和為 1 多類別單選(Multi-Class Single-Label)— 多分類問題輸出層 輸出為機率分佈/類別間相互排斥/用於輸出層
ReLU ReLU(x) = max(0, x) [0, ∞),非固定範圍 深度神經網路隱藏層(最常用) 解決梯度消失/計算簡單快速/適合捕捉非線性特徵
Sigmoid σ(x) = 1 / (1 + e⁻ˣ) [0, 1] 二元分類 / 標籤分類(每類別獨立二元判斷,不彼此排斥 每個輸出單獨表示機率/不保證輸出總和為 1/常用於輸出層
Tanh tanh(x) = (eˣ−e⁻ˣ) / (eˣ+e⁻ˣ) [-1, 1] 深度神經網路隱藏層;資料需要正負輸出對稱 較 Sigmoid 中心對稱/中心區域梯度大,學習較快
4優化器演進 — SGD → Momentum → Adagrad → Adam
依損失函數梯度資訊調整參數,最小化損失

4.1優化器基本概念

面向內容
定義深度學習中,用來更新模型參數(權重和偏差)的演算法;依損失函數梯度資訊,調整參數方向與步幅,以最小化損失值
① 計算梯度根據損失函數對模型參數的偏導數,計算每個參數更新方向
② 決定更新步伐根據學習率與演算法特性決定每次更新幅度
③ 控制收斂過程① 是否考慮動量(Momentum) ② 是否採自適應學習率(Adaptive LR) ③ 是否累積梯度歷史修正方向

4.2四大常見優化器對照

優化器核心機制適用範圍特點
① SGD
Stochastic Gradient Descent
最基本梯度下降,每次僅用一筆或一小批 mini-batch資料計算梯度更新
θₜ₊₁ = θₜ − η·∇L(θₜ)
小型模型/淺層神經網路、記憶體有限環境、資料量小 計算簡單、記憶體需求低/更新快且頻繁/易受噪聲影響、收斂慢/高度依賴學習率
② Momentum SGD 基礎上加上過去梯度累積產生「慣性」,更新更平滑
vₜ₊₁ = γ·vₜ + η·∇L(θₜ)
γ:動量係數,常 0.5~0.9
深度神經網路、梯度震盪大的情況、希望加快收斂 減少梯度震盪/幫助跳脫局部最小值/收斂較快/需額外調動量係數
③ Adagrad 自動為每個參數調整不同學習率,更新幅度隨參數過往累積梯度大小變化
Gₜ = Gₜ₋₁ + ∇L(θₜ)²
θₜ₊₁ = θₜ − η/√(Gₜ+ε)·∇L(θₜ)
稀疏特徵場景(文字、NLP)/特徵分佈不均 為每個參數分配不同學習率/特別適合稀疏特徵/缺點:學習率會持續衰減到非常小,可能導致模型停止學習
④ Adam
Adaptive Moment Estimation
結合 Momentum + RMSprop,同時計算一階動量(平均梯度)+ 二階動量(梯度平方),並進行偏差修正
β₁、β₂ 控制衰減;ε 防除零
幾乎所有深度學習模型/資料噪聲大或梯度稀疏/初學者「萬用優化器」 收斂快且穩定/自動調整學習率/記憶體需求較高/部分情境泛化能力略輸 SGD
5正則化技術與模型穩定化
限制模型複雜度 + 引導學習更具泛化能力的特徵

5.1正則化係數(λ)

面向內容
定義控制模型複雜度的超參數,決定正則化項在損失函數中的影響力,避免過擬合
適用範圍ML:線性迴歸、邏輯迴歸、SVM、Lasso/Ridge
DL:CNN/RNN/Transformer 各類神經網路
λ 變大強化限制 → 權重壓縮得更小 → 模型變簡單,但可能欠擬合
λ 變小放鬆限制 → 權重可變大 → 模型更靈活,但容易過擬合
Loss = 原始損失 + λ × Regularization Term

5.2L1 vs L2 vs Elastic Net 三大正則化

技術公式機制特點
① L1(Lasso) Loss = 原始損失 + λ·Σ|θᵢ| 對所有參數絕對值總和限制 → 部分權重變為零 自動特徵選擇,模型更簡化
常用於高維/特徵數多場景
λ 過大可能過度刪除重要特徵 → 欠擬合
② L2(Ridge) Loss = 原始損失 + λ·Σθᵢ² 對所有參數平方和限制 → 權重縮小,但不會直接變 0 穩定權重大小,防止過擬合
能處理多重共線性(特徵高度相關)
λ 過大可能造成欠擬合
③ Elastic Net Loss = 原始損失 + λ₁·Σ|θᵢ| + λ₂·Σθᵢ² 結合 L1 與 L2 — 同時施加稀疏 + 穩定化限制 保留 L1 的特徵選擇能力,又利用 L2 防止過度稀疏
多重共線性問題特別有效
需同時調 λ₁、λ₂,調參較複雜

5.3Dropout

面向內容
定義訓練過程中隨機將部分神經元暫時關閉,減少神經元彼此依賴,讓模型學到多種路徑特徵,減少過擬合
公式output = dropout(x, p);p = 保留機率(常見 0.5)
訓練階段隨機將部分神經元輸出設為 0;讓模型學習不同「子網路」結構
測試階段不再丟棄神經元,把權重按保留率縮放,保持輸出期望值一致
特點能降低過擬合風險/不需修改網路架構,僅訓練階段生效/常用於深度神經網路
常見問題機率設定過高可能讓模型無法有效學習/測試時須關閉 Dropout 並調整輸出權重

5.4Early Stopping 早停法

面向內容
定義訓練過程中,若驗證集損失在連續多次迭代後不再改善,便提前終止訓練
關鍵參數patience — 可容忍多少次不進步
特點防止過擬合、節省訓練時間/無需修改模型架構,是一種訓練策略
常見問題patience 過短 → 提早停止 → 欠擬合/patience 過長 → 仍可能過擬合
6資料增強與重取樣策略
解決資料量不足、類別不平衡、資料偏差三大挑戰

6.1資料增強(Data Augmentation)

面向內容
定義利用各種隨機變換手段,人工擴增訓練資料,製造更多樣本,提升模型對多變環境的適應力,降低過擬合風險
影像旋轉、平移、翻轉、縮放、裁切、添加雜訊、變更亮度
文字同義字替換、隨機刪詞、分詞打亂、句子順序調整
音訊改變播放速度、音量變化、加背景噪音、隨機靜音片段等
優點① 增加資料多樣性 ② 降低對特定樣式的過擬合 ③ 學習更具泛化能力的特徵 ④ 不需額外收集昂貴的實際數據
常見問題不當變換可能改變原始語意或標註,導致學錯/大規模增強提高計算成本/需依場景謹慎選擇

6.2重取樣三大方法

方法原理優點缺點
① 過採樣
Oversampling
增加少數類別樣本數,使各類別樣本數趨於平衡
方法:複製少數樣本/SMOTE(Synthetic Minority Over-sampling Technique)等演算法合成新樣本
平衡類別分佈/提升少數類別預測能力/不會損失原始資料 單純複製易過擬合SMOTE 合成樣本可能不自然
② 欠採樣
Undersampling
減少多數類別樣本數,達到類別平衡 降低計算成本/簡單易行、實作快速 可能丟失有價值的資料,模型準確度↓/少數類別本就稀少時不適用
③ 類別權重調整
Class Weighting
損失函數中對不同類別賦予不同權重,使少數類別貢獻度提高
不改變樣本數量
保留原始資料完整性/適用於資料量有限或無法生成新樣本/計算資源消耗較低 權重過大造成過度補償過小無法解決不平衡
7模型壓縮與加速四大技術
部署至行動裝置 / IoT / 邊緣運算 — 解儲存、推論延遲、能源消耗三大挑戰

7.1知識蒸餾(Knowledge Distillation)

面向內容
定義大型、高準確度的「教師模型(Teacher)」知識,傳遞給較小、較輕量的「學生模型(Student)」的技術
目標讓學生模型在體積更小、運算更快的情況下,仍能接近教師模型的預測表現
應用場景部署至硬體資源有限的設備(行動裝置、邊緣運算節點)/降低運算延遲、提升即時應用
優點學生體積更小、推論更快/準確度接近原大型模型/適用於壓縮 + 加速雙重目標
常見問題蒸餾過程需要額外訓練時間與運算資源教師若有偏誤可能傳遞給學生

7.2模型剪枝(Pruning)

類型做什麼特點
結構化剪枝
Structured Pruning
移除整個神經元、卷積通道或層級 較容易與硬體加速器整合
非結構化剪枝
Unstructured Pruning
移除零散的單一權重參數 模型稀疏化,但硬體支援較差
面向內容
定義移除神經網路中影響較小、貢獻度低的權重或神經元,減少模型大小、提升計算效率
優點減少參數數量、降低儲存需求/提升運算效率、降低推論延遲/可與其他壓縮技術結合
常見問題剪枝過度導致準確度明顯下降/部分硬體對非結構化稀疏矩陣支援有限,實際效益有限

7.3量化(Quantization)

面向內容
定義將模型中高精度的參數(如 32-bit 浮點數)轉換為較低精度的格式(如 8-bit 整數),以減少模型大小並加快運算速度
優點大幅降低儲存空間與記憶體需求/減少運算負擔,特別適合硬體加速器(Edge TPU / NPU)/部分硬體平台已針對低精度運算最佳化
常見問題直接量化可能導致準確度下降/常需搭配 量化感知訓練(Quantization Aware Training, QAT),讓模型學習適應量化誤差/不同層級量化影響不一

7.4混合精度訓練(Mixed Precision Training)

面向內容
定義訓練過程中同時使用不同數值精度(如 FP16 與 FP32),兼顧運算速度與模型精度
優點加速訓練減少記憶體佔用,允許更大批次或更深層模型/現代 GPU(NVIDIA Tensor Cores)已提供良好支援
常見問題硬體支援否則效益有限/低精度運算可能數值不穩定,需特別處理梯度縮放(Gradient Scaling)/並非所有演算法都能無痛適用

7.5四大壓縮技術定位對照

技術核心動作關鍵字主場景
知識蒸餾
Knowledge Distillation
大模型(Teacher)→ 小模型(Student)知識傳遞軟標籤、Teacher-Student邊緣裝置部署、即時推論
剪枝
Pruning
移除低貢獻權重/神經元結構化 vs 非結構化減少參數數量、提升效率
量化
Quantization
降低數值精度(FP32→INT8)QAT / Edge TPU / NPU邊緣 AI 推論、節省記憶體
混合精度訓練
Mixed Precision Training
訓練時混用 FP16 + FP32Tensor Cores / Gradient Scaling加速訓練、節省訓練時記憶體
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23304 模型調整與優化 · v1.0(2026-05 表格化精簡版)