L23303模型訓練、評估與驗證

L23303 模型訓練、評估與驗證

2模型訓練流程與策略（5 子節）

資料分割 → 批次設計 → 學習率 → 早停 → 監控

2.1資料分割與準備（Train / Validation / Test）

資料子集	使用時機	用途（教材原文鎖死）
訓練集 Training Set	訓練過程中	用於模型參數的學習與內部結構調整，是整個學習流程的基礎
驗證集 Validation Set	訓練過程中（監控）	作為調整超參數（如學習率、正則化係數）與監控訓練過程的依據，用以觀察模型的泛化能力
測試集 Test Set	僅在訓練完成後	進行最終效能評估，模擬模型實際部署時對未知資料的表現

2.2批次訓練設計與更新策略

策略	更新單位	優點	缺點 / 限制
全量訓練 Batch Gradient Descent	全部資料	方向穩定、收斂路徑平滑	記憶體要求高、不易應用於大規模資料
隨機梯度下降 SGD（Stochastic）	每次 1 筆樣本	適合線上學習與資料流架構	更新震盪較大、收斂速率不穩
小批次訓練 Mini-batch SGD	固定筆數樣本	兼具全量與隨機優點；深度學習最常用	Batch 大小需依 GPU 記憶體與任務特性調整

2.3學習率調整（4 種策略）

策略	機制	適用情境
固定學習率 Constant Rate	設定單一值	簡單任務；收斂後期難以進一步提升效能
遞減學習率 Step Decay / Exponential Decay	根據訓練次數或驗證集表現，定期降低	有助於穩定收斂
動態調整	驗證效能停滯時自動調降學習率如 PyTorch 的 `ReduceLROnPlateau`	可精細控制學習節奏
預熱策略 Warmup	訓練初期使用較低學習率，逐漸升高	避免初期梯度爆炸；Transformer 類模型常見

2.4早停策略與訓練終止準則（Early Stopping）

機制	定義（教材原文鎖死）
監控對象	透過監控驗證集效能，判斷訓練何時應中止（過久訓練 → 過擬合）
容忍次數 Patience	驗證指標若在連續 N 次迭代內無明顯改善，則終止訓練
最小改善幅度 Minimum Delta	效能提升若小於閾值，亦可視為無效進步
搭配使用	配合學習率調整共同使用，能取得穩定且泛化良好的模型

2.5訓練過程的記錄與監控（Reproducibility）

監控項目	工具 / 內容
訓練指標視覺化	`TensorBoard` / `WandB` / `MLflow` 觀察損失曲線與指標趨勢
超參數與版本管理	記錄每次訓練的超參數設定、模型結構、權重版本，便於複製與回溯
資源使用狀況	追蹤 GPU / CPU / 記憶體使用率，評估效能瓶頸與部署可行性

3評估指標與模型效果衡量

分類 5 指標 + 迴歸 4 指標 + 模型比較策略

3.1混淆矩陣（Confusion Matrix）— 二元分類核心

二元分類混淆矩陣 （教材原文：行 = Predicted、列 = Actual）

		實際（Actual）
		實際為正類 (Positive)	實際為負類 (Negative)
預測 Predicted	預測為正類	TP True Positive 真正	FP False Positive 假正
預測 Predicted	預測為負類	FN False Negative 假負	TN True Negative 真負

P = 實際為正類的樣本數 N = 實際為負類的樣本數 P = TP + FN N = FP + TN

3.2分類任務 5 大評估指標（公式 + 適用情境）

Accuracy 準確率

(TP + TN) / (TP + TN + FP + FN)

正確預測樣本數佔總樣本數的比例。適用：類別分佈相對均衡時。限制：嚴重類別不平衡時容易誤導（如 95% 為負類，全猜負類也有 95% 準確率）。

Precision 精確率

TP / (TP + FP)

被預測為正類的樣本中，實際為正的比例。衡量「預測為正的可信度」。適用：「誤報正類」代價高時 — 垃圾郵件分類、醫療誤診。

Recall 召回率

TP / (TP + FN)

實際正類樣本中，被正確預測為正類的比例。衡量「模型能抓住多少實際正類」。適用：「漏報正類」代價高時 — 癌症偵測、詐騙偵測。

F1-Score

2 · (Precision · Recall) / (Precision + Recall)

Precision 與 Recall 的調和平均。適用：需在精確率與召回率間取得平衡，且類別不平衡嚴重時。

ROC-AUC

ROC 曲線下面積（Area Under Curve）

ROC 曲線（Receiver Operating Characteristic）— 橫軸：假正率 FPR、縱軸：真正率 TPR。AUC 值越接近 1，模型越好。適用：需綜觀整體預測能力 / 調整分類閾值的應用。

3.3迴歸任務 4 大評估指標

MSE 均方誤差

MSE = (1/n) · Σ(yᵢ − ŷᵢ)²

所有預測誤差平方的平均值。對大誤差高度敏感，會放大極端偏差的影響。適用：需強調大誤差懲罰 — 金融風險預測、製程品質監控。

MAE 平均絕對誤差

MAE = (1/n) · Σ|yᵢ − ŷᵢ|

所有預測誤差絕對值的平均。對異常值較不敏感，提供穩定的誤差估計。適用：資料具偏態分佈或含少量極端值時。

RMSE 均方根誤差

RMSE = √[(1/n) · Σ(yᵢ − ŷᵢ)²]

MSE 的平方根。保有 MSE 的懲罰特性，同時回到與預測變數相同的單位。適用：作為模型精度的整體衡量，廣泛用於報告與模型比較。

R² 決定係數

R² = 1 − (RSS / TSS)

衡量模型對目標變數變異解釋能力。RSS = 殘差平方和 Σ(yᵢ−ŷᵢ)²；TSS = 總變異平方和 Σ(yᵢ−ȳ)²。適用：線性迴歸模型；不適用於非線性或未標準化資料；不同任務 / 資料集間無法直接比較。

R² 判別	意義（教材鎖死）
`R² = 1`	模型能完全解釋資料變異，預測完美
`R² = 0`	模型僅與常數模型同等表現（如直接預測平均值）
`R² < 0`	模型比常數模型還差，可能嚴重偏離資料趨勢或過度擬合

3.4模型比較與綜合評估策略

策略面向	內容（教材原文鎖死）
① 指標組合與多角度觀察	分類任務：結合 `Accuracy` + `F1` + `ROC-AUC` + 混淆矩陣，避免單一指標掩蓋類別偏誤。迴歸任務：綜合 `MAE` + `RMSE` + `R²`，觀察誤差分佈與擬合能力。
② 類別不平衡處理	A. 類別重加權（Class Weights）：訓練時對少數類別賦予更高權重，常用於邏輯迴歸 / 樹模型 / 神經網路（損失函數加權）。 B. 過採樣（SMOTE）：Synthetic Minority Over-sampling Technique — 合成新樣本平衡資料分佈，保留原始樣本空間結構，降低過度複製產生的過擬合風險。 C. 異常值建模：`Isolation Forest` / `One-Class SVM` — 將不平衡視為異常偵測任務，僅學習正常類別行為。適用於極端不平衡場景（欺詐偵測、設備故障）。
③ 業務導向自定義指標	風險導向（醫療）：可自定義誤判成本矩陣，強化高代價錯誤（如漏診）的懲罰。商業任務（推薦 / 行銷）：使用領域專屬指標 — NDCG（排序任務）、Profit Score（收益導向）。
④ 多輪驗證與穩定性觀察	K-fold CV → 減少偶然性偏誤；Repeated K-fold CV → 多次重複隨機切分，衡量隨機條件下的穩定性與泛化能力，適合小樣本或高變異任務；穩定性視覺化 — `Boxplot` / `Mean Rank Plot` 觀察多輪驗證的表現分佈與變異程度。

4交叉驗證（Cross-Validation, 4 法）

K-fold / Stratified K-fold / LOOCV / Repeated K-fold

4.1K-fold 交叉驗證（最常見的通用型）

面向	內容（教材鎖死）
定義	將原始資料集平均劃分為 K 個不重疊的子集（folds），每次選定其中 1 折（fold）作為驗證集，其餘 K−1 折作為訓練集
流程	a. 平均劃分 K 折 b. 每次留 1 折驗證、其餘 K−1 折訓練 c. 重複 K 次，每折都當過一次驗證集 d. 計算 K 次驗證結果的平均作為整體表現
特點	① 減少資料切分偏差，適用性廣 ② 有效評估模型在不同樣本上的穩定性 ③ 計算成本為 K 倍（每次需重新訓練模型） ④ 常見設定 K = 5 或 10，在精確度與運算效率間取得平衡
適用情境	① 中大型資料集（數千筆以上） ② 模型選擇與效能比較的標準方法 ③ 迴歸與分類任務的泛化能力驗證

Iteration 1

Fold 1
驗證

Fold 2
訓練

Fold 3
訓練

Fold 4
訓練

Fold 5
訓練

Iteration 2

Fold 1
訓練

Fold 2
驗證

Fold 3
訓練

Fold 4
訓練

Fold 5
訓練

Iteration 3

Fold 1
訓練

Fold 2
訓練

Fold 3
驗證

Fold 4
訓練

Fold 5
訓練

Iteration 4

Fold 1
訓練

Fold 2
訓練

Fold 3
訓練

Fold 4
驗證

Fold 5
訓練

Iteration 5

Fold 1
訓練

Fold 2
訓練

Fold 3
訓練

Fold 4
訓練

Fold 5
驗證

K = 5 示意：5 次驗證取平均 → 模型整體表現

4.2Stratified K-fold（分層 K 折）— 分類問題改良版

面向	內容
定義	針對分類問題的改良版本，劃分時確保每一折中各類別的比例與整體資料集相符，特別適用於類別分佈不均的資料
過程	依照類別比例進行分層抽樣，使每一折的類別比例與整體資料集相近
特點	① 有效解決類別不均所導致的模型評估失真 ② 提升對小樣本類別的穩定性與預測準確度 ③ 與傳統 K-fold 相比，分佈一致性更高
適用情境	① 分類資料中存在不均衡現象（正負樣本比例懸殊） ② 用於詐騙偵測、醫療診斷、異常事件預測等高風險分類問題 ③ 可作為分類任務交叉驗證的預設方式

4.3LOOCV（Leave-One-Out Cross-Validation）— K-fold 極端形式

面向	內容
定義	LOOCV 是 K-fold 的極端形式。K 等於樣本數 n，每次僅留下一筆樣本作為驗證、其餘 n−1 筆資料訓練模型，總共進行 n 次評估
過程	資料集中每次僅留下 1 筆作為驗證集，其餘所有資料用於訓練，重複進行 n 次（n = 樣本數）
特點	① 評估偏差最小，適合樣本珍貴或不可浪費的情境 ② 因需訓練 n 次模型，計算成本極高，對模型複雜度與硬體要求較高 ③ 敏感於訓練集的微小變動，模型表現波動較大
適用情境	① 樣本數極小但資料珍貴（臨床研究、稀有病資料） ② 學術研究中需最大化資料利用與精準驗證 ③ 適用於須個別樣本可信度高的模型精度檢查

4.4Repeated K-fold（重複 K 折）

面向	內容
定義	在標準 K-fold 基礎上多次隨機重劃，反覆交叉驗證以取得多組評估結果，再計算平均與變異數，提升模型穩定性觀察
過程	執行多輪 K-fold 驗證（如 `10-fold × 5 次`），每輪隨機重分 fold，計算所有輪的平均與變異
特點	① 評估結果更加穩定與具代表性 ② 可觀察模型在不同劃分下的表現波動與可信區間 ③ 相較標準 K-fold，計算成本更高
適用情境	① 調參流程中模型比較與效能穩定性評估 ② 學術研究或論文發表需報告標準差與置信範圍 ③ 需重現性高的產業建模流程，如金融風控、醫療 AI

4.5四種交叉驗證選用對照

方法	K 設定	核心特點	適用情境
K-fold	K = 5 或 10	平均劃分 K 折，輪流驗證；標準方法	中大型資料集；通用方法
Stratified K-fold	K = 5 或 10	每折類別比例 = 整體比例	分類 + 類別不平衡（詐騙 / 醫療診斷）
LOOCV	K = n（樣本數）	每次留 1 筆驗證；偏差最小但成本極高	樣本珍貴（臨床研究、稀有病）
Repeated K-fold	K-fold × R 次	多次隨機重劃 + 變異數觀察	需報告穩定性（金融風控、醫療 AI、學術）

5跨章關鍵對照

高頻混淆題型 — 一表壓平

5.1Precision vs Recall — 何時看哪個？

面向	Precision 精確率	Recall 召回率
公式	`TP / (TP + FP)`	`TP / (TP + FN)`
看什麼	「說是正的，有多少真的是正的」	「真正是正的，有多少被抓出來」
怕什麼	誤報（FP）多	漏報（FN）多
適用情境	誤報代價高 — 垃圾郵件分類、醫療誤診	漏報代價高 — 癌症偵測、詐騙偵測
分母含	FP（你說正但其實是負）	FN（你說負但其實是正）

5.2MSE vs MAE vs RMSE — 三大迴歸誤差差異

面向	MSE	MAE	RMSE
計算	(yᵢ−ŷᵢ)² 平均	\|yᵢ−ŷᵢ\| 平均	MSE 開根號
對離群值	高度敏感（放大）	不敏感（穩定）	敏感（沿襲 MSE）
單位	原單位的平方	同原單位	同原單位，易解讀
適用	強調大誤差懲罰（金融、製程）	偏態資料、含異常值	報告 + 模型比較通用

5.3K-fold 家族選用速查

場景	建議方法	關鍵差異
中大型資料、通用	K-fold（K=5/10）	標準方法、計算成本 K 倍
分類 + 類別不均	Stratified K-fold	每折類別比例 = 整體比例
樣本極少（臨床、稀有病）	LOOCV	K = n、偏差最小但成本極高
需報告穩定性 / 變異	Repeated K-fold	多次重劃、平均 + 變異數

5.4分類 vs 迴歸 — 評估指標總覽

任務類型	核心結構	5 / 4 大指標
分類（Classification）	混淆矩陣（行=Predicted、列=Actual） TP / FP / FN / TN 四格	Accuracy / Precision / Recall / F1 / ROC-AUC
迴歸（Regression）	連續變數誤差 (y − ŷ) 平方 / 絕對值 / 解釋變異	MSE / MAE / RMSE / R²

5.5類別不平衡 3 大解法

解法	機制	代表演算法 / 適用
① 類別重加權 Class Weights	少數類別賦予更高權重，損失函數加權	邏輯迴歸 / 樹模型 / 神經網路
② 過採樣 SMOTE	合成新樣本平衡資料分佈；保留原始空間結構	Synthetic Minority Over-sampling Technique（資料量不足的少數類別）
③ 異常值建模	視為異常偵測任務，只學習正常類別	Isolation Forest / One-Class SVM；欺詐偵測、設備故障預測

AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23303 考前複習筆記 · v1.0（2026-05 表格化精簡版）