L23304模型調整與優化

L23304 模型調整與優化

2學習率與批次大小 — 訓練流程兩個最關鍵超參數

超參數 = 開發者手動指定、不由資料自動學習得出的參數

2.1學習率（Learning Rate）

面向	內容
定義	控制模型在每一次反向傳播（Backpropagation）後，根據梯度方向更新參數的幅度；由訓練者事先指定的核心超參數，非模型內部自我調整
定位	所有深度學習流程中最敏感且最具關鍵性的設定之一
適用範圍	梯度下降及其變形（Mini-Batch SGD / Momentum / Adam 等）；尤其 CNN / RNN / Transformer 等深度架構
學習率大	更新幅度大 → 快速接近最小值，但容易跳過最小點、震盪，甚至使損失無限上升（發散）
學習率小	變化細緻、穩定收斂，但學習速度極慢，高維空間中難以跳脫局部極小值
實務技巧	訓練初期適度大快速降低誤差，後期降低有助收斂至更佳區域 → 搭配學習率退火（Annealing）或 Scheduler 調度器

2.2批次大小（Batch Size）

面向	內容
定義	每次參與梯度更新的訓練樣本數量；批次訓練將資料拆為小群組逐批輸入模型；決定單次反向傳播所見的樣本規模
適用範圍	深度學習模型訓練流程，尤其使用 GPU 加速時更為關鍵
小批次	較高隨機性 → 有助跳脫局部極小值；但梯度波動大，可能訓練不穩
大批次	提供較穩定的梯度估計，有利加速收斂；但可能降低泛化能力
影響面向	① 梯度估計穩定性 ② 模型更新頻率 ③ 訓練資源（GPU 記憶體）使用效率

3網路深度寬度 + 激活函數選用

結構決定容量 — 容量 = 深度 × 寬度

3.1網路深度與寬度

面向	內容
深度（Depth）	神經網路所包含的層數，含輸入層、隱藏層與輸出層
寬度（Width）	每層中神經元（或通道、單元）的數量
共同決定	模型容量（Capacity） — 結構複雜度與參數規模
適用範圍	深度學習（MLP / CNN / RNN / Transformer）；傳統 ML（決策樹、SVM）多半無深度寬度概念
增加深度	提升非線性表達能力，能處理更複雜模式辨識任務
增加寬度	提供更豐富的特徵表示空間，捕捉多樣化輸入

3.2激活函數四大選用對照

函數	公式	輸出範圍	適用範圍	特點
Softmax	`Softmax(zᵢ) = eᶻⁱ / Σⱼeᶻʲ`	[0, 1]，總和為 1	多類別單選（Multi-Class Single-Label）— 多分類問題輸出層	輸出為機率分佈／類別間相互排斥／用於輸出層
ReLU	`ReLU(x) = max(0, x)`	[0, ∞)，非固定範圍	深度神經網路隱藏層（最常用）	解決梯度消失／計算簡單快速／適合捕捉非線性特徵
Sigmoid	`σ(x) = 1 / (1 + e⁻ˣ)`	[0, 1]	二元分類 / 標籤分類（每類別獨立二元判斷，不彼此排斥）	每個輸出單獨表示機率／不保證輸出總和為 1／常用於輸出層
Tanh	`tanh(x) = (eˣ−e⁻ˣ) / (eˣ+e⁻ˣ)`	[-1, 1]	深度神經網路隱藏層；資料需要正負輸出對稱時	較 Sigmoid 中心對稱／中心區域梯度大，學習較快

4優化器演進 — SGD → Momentum → Adagrad → Adam

依損失函數梯度資訊調整參數，最小化損失

4.1優化器基本概念

面向	內容
定義	深度學習中，用來更新模型參數（權重和偏差）的演算法；依損失函數梯度資訊，調整參數方向與步幅，以最小化損失值
① 計算梯度	根據損失函數對模型參數的偏導數，計算每個參數更新方向
② 決定更新步伐	根據學習率與演算法特性決定每次更新幅度
③ 控制收斂過程	① 是否考慮動量（Momentum） ② 是否採自適應學習率（Adaptive LR） ③ 是否累積梯度歷史修正方向

4.2四大常見優化器對照

優化器	核心機制	適用範圍	特點
① SGD Stochastic Gradient Descent	最基本梯度下降，每次僅用一筆或一小批 mini-batch資料計算梯度更新 `θₜ₊₁ = θₜ − η·∇L(θₜ)`	小型模型/淺層神經網路、記憶體有限環境、資料量小	計算簡單、記憶體需求低／更新快且頻繁／易受噪聲影響、收斂慢／高度依賴學習率
② Momentum	SGD 基礎上加上過去梯度累積產生「慣性」，更新更平滑 `vₜ₊₁ = γ·vₜ + η·∇L(θₜ)` γ：動量係數，常 0.5~0.9	深度神經網路、梯度震盪大的情況、希望加快收斂	減少梯度震盪／幫助跳脫局部最小值／收斂較快／需額外調動量係數
③ Adagrad	自動為每個參數調整不同學習率，更新幅度隨參數過往累積梯度大小變化 `Gₜ = Gₜ₋₁ + ∇L(θₜ)²` `θₜ₊₁ = θₜ − η/√(Gₜ+ε)·∇L(θₜ)`	稀疏特徵場景（文字、NLP）／特徵分佈不均	為每個參數分配不同學習率／特別適合稀疏特徵／缺點：學習率會持續衰減到非常小，可能導致模型停止學習
④ Adam Adaptive Moment Estimation	結合 Momentum + RMSprop，同時計算一階動量（平均梯度）+ 二階動量（梯度平方），並進行偏差修正 β₁、β₂ 控制衰減；ε 防除零	幾乎所有深度學習模型／資料噪聲大或梯度稀疏／初學者「萬用優化器」	收斂快且穩定／自動調整學習率／記憶體需求較高／部分情境泛化能力略輸 SGD

5正則化技術與模型穩定化

限制模型複雜度 + 引導學習更具泛化能力的特徵

5.1正則化係數（λ）

面向	內容
定義	控制模型複雜度的超參數，決定正則化項在損失函數中的影響力，避免過擬合
適用範圍	ML：線性迴歸、邏輯迴歸、SVM、Lasso/Ridge DL：CNN/RNN/Transformer 各類神經網路
λ 變大	強化限制 → 權重壓縮得更小 → 模型變簡單，但可能欠擬合
λ 變小	放鬆限制 → 權重可變大 → 模型更靈活，但容易過擬合

Loss = 原始損失 + λ × Regularization Term

5.2L1 vs L2 vs Elastic Net 三大正則化

技術	公式	機制	特點
① L1（Lasso）	`Loss = 原始損失 + λ·Σ\|θᵢ\|`	對所有參數絕對值總和限制 → 部分權重變為零	可自動特徵選擇，模型更簡化常用於高維/特徵數多場景 λ 過大可能過度刪除重要特徵 → 欠擬合
② L2（Ridge）	`Loss = 原始損失 + λ·Σθᵢ²`	對所有參數平方和限制 → 權重縮小，但不會直接變 0	穩定權重大小，防止過擬合能處理多重共線性（特徵高度相關） λ 過大可能造成欠擬合
③ Elastic Net	`Loss = 原始損失 + λ₁·Σ\|θᵢ\| + λ₂·Σθᵢ²`	結合 L1 與 L2 — 同時施加稀疏 + 穩定化限制	保留 L1 的特徵選擇能力，又利用 L2 防止過度稀疏對多重共線性問題特別有效需同時調 λ₁、λ₂，調參較複雜

5.3Dropout

面向	內容
定義	訓練過程中隨機將部分神經元暫時關閉，減少神經元彼此依賴，讓模型學到多種路徑特徵，減少過擬合
公式	`output = dropout(x, p)`；p = 保留機率（常見 0.5）
訓練階段	隨機將部分神經元輸出設為 0；讓模型學習不同「子網路」結構
測試階段	不再丟棄神經元，把權重按保留率縮放，保持輸出期望值一致
特點	能降低過擬合風險／不需修改網路架構，僅訓練階段生效／常用於深度神經網路
常見問題	機率設定過高可能讓模型無法有效學習／測試時須關閉 Dropout 並調整輸出權重

5.4Early Stopping 早停法

面向	內容
定義	訓練過程中，若驗證集損失在連續多次迭代後不再改善，便提前終止訓練
關鍵參數	patience — 可容忍多少次不進步
特點	防止過擬合、節省訓練時間／無需修改模型架構，是一種訓練策略
常見問題	patience 過短 → 提早停止 → 欠擬合／patience 過長 → 仍可能過擬合

6資料增強與重取樣策略

解決資料量不足、類別不平衡、資料偏差三大挑戰

6.1資料增強（Data Augmentation）

面向	內容
定義	利用各種隨機變換手段，人工擴增訓練資料，製造更多樣本，提升模型對多變環境的適應力，降低過擬合風險
影像	旋轉、平移、翻轉、縮放、裁切、添加雜訊、變更亮度等
文字	同義字替換、隨機刪詞、分詞打亂、句子順序調整等
音訊	改變播放速度、音量變化、加背景噪音、隨機靜音片段等
優點	① 增加資料多樣性 ② 降低對特定樣式的過擬合 ③ 學習更具泛化能力的特徵 ④ 不需額外收集昂貴的實際數據
常見問題	不當變換可能改變原始語意或標註，導致學錯／大規模增強提高計算成本／需依場景謹慎選擇

6.2重取樣三大方法

方法	原理	優點	缺點
① 過採樣 Oversampling	增加少數類別樣本數，使各類別樣本數趨於平衡方法：複製少數樣本／SMOTE（Synthetic Minority Over-sampling Technique）等演算法合成新樣本	平衡類別分佈／提升少數類別預測能力／不會損失原始資料	單純複製易過擬合／SMOTE 合成樣本可能不自然
② 欠採樣 Undersampling	減少多數類別樣本數，達到類別平衡	降低計算成本／簡單易行、實作快速	可能丟失有價值的資料，模型準確度↓／少數類別本就稀少時不適用
③ 類別權重調整 Class Weighting	在損失函數中對不同類別賦予不同權重，使少數類別貢獻度提高 ※ 不改變樣本數量	保留原始資料完整性／適用於資料量有限或無法生成新樣本／計算資源消耗較低	權重過大造成過度補償／過小無法解決不平衡

7模型壓縮與加速四大技術

部署至行動裝置 / IoT / 邊緣運算 — 解儲存、推論延遲、能源消耗三大挑戰

7.1知識蒸餾（Knowledge Distillation）

面向	內容
定義	將大型、高準確度的「教師模型（Teacher）」知識，傳遞給較小、較輕量的「學生模型（Student）」的技術
目標	讓學生模型在體積更小、運算更快的情況下，仍能接近教師模型的預測表現
應用場景	部署至硬體資源有限的設備（行動裝置、邊緣運算節點）／降低運算延遲、提升即時應用
優點	學生體積更小、推論更快／準確度接近原大型模型／適用於壓縮 + 加速雙重目標
常見問題	蒸餾過程需要額外訓練時間與運算資源／教師若有偏誤可能傳遞給學生

7.2模型剪枝（Pruning）

類型	做什麼	特點
結構化剪枝 Structured Pruning	移除整個神經元、卷積通道或層級	較容易與硬體加速器整合
非結構化剪枝 Unstructured Pruning	移除零散的單一權重參數	模型稀疏化，但硬體支援較差

面向	內容
定義	移除神經網路中影響較小、貢獻度低的權重或神經元，減少模型大小、提升計算效率
優點	減少參數數量、降低儲存需求／提升運算效率、降低推論延遲／可與其他壓縮技術結合
常見問題	剪枝過度導致準確度明顯下降／部分硬體對非結構化稀疏矩陣支援有限，實際效益有限

7.3量化（Quantization）

面向	內容
定義	將模型中高精度的參數（如 32-bit 浮點數）轉換為較低精度的格式（如 8-bit 整數），以減少模型大小並加快運算速度
優點	大幅降低儲存空間與記憶體需求／減少運算負擔，特別適合硬體加速器（Edge TPU / NPU）／部分硬體平台已針對低精度運算最佳化
常見問題	直接量化可能導致準確度下降／常需搭配量化感知訓練（Quantization Aware Training, QAT），讓模型學習適應量化誤差／不同層級量化影響不一

7.4混合精度訓練（Mixed Precision Training）

面向	內容
定義	訓練過程中同時使用不同數值精度（如 FP16 與 FP32），兼顧運算速度與模型精度
優點	加速訓練／減少記憶體佔用，允許更大批次或更深層模型／現代 GPU（NVIDIA Tensor Cores）已提供良好支援
常見問題	需硬體支援否則效益有限／低精度運算可能數值不穩定，需特別處理梯度縮放（Gradient Scaling）／並非所有演算法都能無痛適用

7.5四大壓縮技術定位對照

技術	核心動作	關鍵字	主場景
知識蒸餾 Knowledge Distillation	大模型（Teacher）→ 小模型（Student）知識傳遞	軟標籤、Teacher-Student	邊緣裝置部署、即時推論
剪枝 Pruning	移除低貢獻權重/神經元	結構化 vs 非結構化	減少參數數量、提升效率
量化 Quantization	降低數值精度（FP32→INT8）	QAT / Edge TPU / NPU	邊緣 AI 推論、節省記憶體
混合精度訓練 Mixed Precision Training	訓練時混用 FP16 + FP32	Tensor Cores / Gradient Scaling	加速訓練、節省訓練時記憶體

AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23304 模型調整與優化 · v1.0（2026-05 表格化精簡版）