L23303模型訓練、評估與驗證
0%

L23303 模型訓練、評估與驗證

2模型訓練流程與策略(5 子節)
資料分割 → 批次設計 → 學習率 → 早停 → 監控

2.1資料分割與準備(Train / Validation / Test)

資料子集使用時機用途(教材原文鎖死)
訓練集
Training Set
訓練過程中用於模型參數的學習與內部結構調整,是整個學習流程的基礎
驗證集
Validation Set
訓練過程中(監控)作為調整超參數(如學習率、正則化係數)與監控訓練過程的依據,用以觀察模型的泛化能力
測試集
Test Set
僅在訓練完成後進行最終效能評估,模擬模型實際部署時對未知資料的表現

2.2批次訓練設計與更新策略

策略更新單位優點缺點 / 限制
全量訓練
Batch Gradient Descent
全部資料方向穩定、收斂路徑平滑記憶體要求高、不易應用於大規模資料
隨機梯度下降
SGD(Stochastic)
每次 1 筆樣本適合線上學習與資料流架構更新震盪較大、收斂速率不穩
小批次訓練
Mini-batch SGD
固定筆數樣本兼具全量與隨機優點;深度學習最常用Batch 大小需依 GPU 記憶體與任務特性調整

2.3學習率調整(4 種策略)

策略機制適用情境
固定學習率
Constant Rate
設定單一值簡單任務;收斂後期難以進一步提升效能
遞減學習率
Step Decay / Exponential Decay
根據訓練次數或驗證集表現,定期降低有助於穩定收斂
動態調整驗證效能停滯時自動調降學習率
如 PyTorch 的 ReduceLROnPlateau
精細控制學習節奏
預熱策略
Warmup
訓練初期使用較低學習率,逐漸升高避免初期梯度爆炸Transformer 類模型常見

2.4早停策略與訓練終止準則(Early Stopping)

機制定義(教材原文鎖死)
監控對象透過監控驗證集效能,判斷訓練何時應中止(過久訓練 → 過擬合)
容忍次數
Patience
驗證指標若在連續 N 次迭代內無明顯改善,則終止訓練
最小改善幅度
Minimum Delta
效能提升若小於閾值,亦可視為無效進步
搭配使用配合學習率調整共同使用,能取得穩定且泛化良好的模型

2.5訓練過程的記錄與監控(Reproducibility)

監控項目工具 / 內容
訓練指標視覺化TensorBoard / WandB / MLflow 觀察損失曲線與指標趨勢
超參數與版本管理記錄每次訓練的超參數設定、模型結構、權重版本,便於複製與回溯
資源使用狀況追蹤 GPU / CPU / 記憶體使用率,評估效能瓶頸與部署可行性
3評估指標與模型效果衡量
分類 5 指標 + 迴歸 4 指標 + 模型比較策略

3.1混淆矩陣(Confusion Matrix)— 二元分類核心

二元分類混淆矩陣 (教材原文:行 = Predicted、列 = Actual)
實際(Actual)
實際為正類 (Positive) 實際為負類 (Negative)
預測 Predicted 預測為正類 TP True Positive 真正 FP False Positive 假正
預測為負類 FN False Negative 假負 TN True Negative 真負
P = 實際為正類的樣本數 N = 實際為負類的樣本數 P = TP + FN N = FP + TN

3.2分類任務 5 大評估指標(公式 + 適用情境)

Accuracy 準確率
(TP + TN) / (TP + TN + FP + FN)
正確預測樣本數佔總樣本數的比例。適用:類別分佈相對均衡時。限制:嚴重類別不平衡時容易誤導(如 95% 為負類,全猜負類也有 95% 準確率)。
Precision 精確率
TP / (TP + FP)
被預測為正類的樣本中,實際為正的比例。衡量「預測為正的可信度」。適用:「誤報正類」代價高時 — 垃圾郵件分類、醫療誤診。
Recall 召回率
TP / (TP + FN)
實際正類樣本中,被正確預測為正類的比例。衡量「模型能抓住多少實際正類」。適用:「漏報正類」代價高時 — 癌症偵測、詐騙偵測。
F1-Score
2 · (Precision · Recall) / (Precision + Recall)
Precision 與 Recall 的調和平均。適用:需在精確率與召回率間取得平衡,且類別不平衡嚴重時。
ROC-AUC
ROC 曲線下面積(Area Under Curve)
ROC 曲線(Receiver Operating Characteristic)— 橫軸:假正率 FPR、縱軸:真正率 TPRAUC 值越接近 1,模型越好。適用:需綜觀整體預測能力 / 調整分類閾值的應用。

3.3迴歸任務 4 大評估指標

MSE 均方誤差
MSE = (1/n) · Σ(yᵢ − ŷᵢ)²
所有預測誤差平方的平均值對大誤差高度敏感,會放大極端偏差的影響。適用:需強調大誤差懲罰 — 金融風險預測、製程品質監控
MAE 平均絕對誤差
MAE = (1/n) · Σ|yᵢ − ŷᵢ|
所有預測誤差絕對值的平均對異常值較不敏感,提供穩定的誤差估計。適用:資料具偏態分佈或含少量極端值時。
RMSE 均方根誤差
RMSE = √[(1/n) · Σ(yᵢ − ŷᵢ)²]
MSE 的平方根。保有 MSE 的懲罰特性,同時回到與預測變數相同的單位適用:作為模型精度的整體衡量,廣泛用於報告與模型比較
R² 決定係數
R² = 1 − (RSS / TSS)
衡量模型對目標變數變異解釋能力RSS = 殘差平方和 Σ(yᵢ−ŷᵢ)²;TSS = 總變異平方和 Σ(yᵢ−ȳ)²。適用:線性迴歸模型;不適用於非線性或未標準化資料;不同任務 / 資料集間無法直接比較
R² 判別意義(教材鎖死)
R² = 1模型能完全解釋資料變異,預測完美
R² = 0模型僅與常數模型同等表現(如直接預測平均值)
R² < 0模型比常數模型還差,可能嚴重偏離資料趨勢過度擬合

3.4模型比較與綜合評估策略

策略面向內容(教材原文鎖死)
① 指標組合與
多角度觀察
分類任務:結合 Accuracy + F1 + ROC-AUC + 混淆矩陣,避免單一指標掩蓋類別偏誤。
迴歸任務:綜合 MAE + RMSE + ,觀察誤差分佈與擬合能力。
② 類別不平衡
處理
A. 類別重加權(Class Weights):訓練時對少數類別賦予更高權重,常用於邏輯迴歸 / 樹模型 / 神經網路(損失函數加權)。
B. 過採樣(SMOTE)Synthetic Minority Over-sampling Technique — 合成新樣本平衡資料分佈,保留原始樣本空間結構,降低過度複製產生的過擬合風險。
C. 異常值建模Isolation Forest / One-Class SVM — 將不平衡視為異常偵測任務,僅學習正常類別行為。適用於極端不平衡場景(欺詐偵測、設備故障)。
③ 業務導向
自定義指標
風險導向(醫療):可自定義誤判成本矩陣,強化高代價錯誤(如漏診)的懲罰。
商業任務(推薦 / 行銷):使用領域專屬指標 — NDCG(排序任務)Profit Score(收益導向)
④ 多輪驗證與
穩定性觀察
K-fold CV → 減少偶然性偏誤;Repeated K-fold CV → 多次重複隨機切分,衡量隨機條件下的穩定性與泛化能力,適合小樣本或高變異任務;穩定性視覺化Boxplot / Mean Rank Plot 觀察多輪驗證的表現分佈與變異程度
4交叉驗證(Cross-Validation, 4 法)
K-fold / Stratified K-fold / LOOCV / Repeated K-fold

4.1K-fold 交叉驗證(最常見的通用型)

面向內容(教材鎖死)
定義將原始資料集平均劃分為 K 個不重疊的子集(folds),每次選定其中 1 折(fold)作為驗證集,其餘 K−1 折作為訓練集
流程a. 平均劃分 K 折
b. 每次留 1 折驗證、其餘 K−1 折訓練
c. 重複 K 次,每折都當過一次驗證集
d. 計算 K 次驗證結果的平均作為整體表現
特點① 減少資料切分偏差,適用性廣
② 有效評估模型在不同樣本上的穩定性
計算成本為 K 倍(每次需重新訓練模型)
④ 常見設定 K = 5 或 10,在精確度與運算效率間取得平衡
適用情境① 中大型資料集(數千筆以上
② 模型選擇與效能比較的標準方法
③ 迴歸與分類任務的泛化能力驗證
Iteration 1
Fold 1
驗證
Fold 2
訓練
Fold 3
訓練
Fold 4
訓練
Fold 5
訓練
Iteration 2
Fold 1
訓練
Fold 2
驗證
Fold 3
訓練
Fold 4
訓練
Fold 5
訓練
Iteration 3
Fold 1
訓練
Fold 2
訓練
Fold 3
驗證
Fold 4
訓練
Fold 5
訓練
Iteration 4
Fold 1
訓練
Fold 2
訓練
Fold 3
訓練
Fold 4
驗證
Fold 5
訓練
Iteration 5
Fold 1
訓練
Fold 2
訓練
Fold 3
訓練
Fold 4
訓練
Fold 5
驗證
K = 5 示意:5 次驗證取平均 → 模型整體表現

4.2Stratified K-fold(分層 K 折)— 分類問題改良版

面向內容
定義針對分類問題的改良版本,劃分時確保每一折中各類別的比例與整體資料集相符,特別適用於類別分佈不均的資料
過程依照類別比例進行分層抽樣,使每一折的類別比例與整體資料集相近
特點有效解決類別不均所導致的模型評估失真
提升對小樣本類別的穩定性與預測準確度
③ 與傳統 K-fold 相比,分佈一致性更高
適用情境① 分類資料中存在不均衡現象(正負樣本比例懸殊)
② 用於詐騙偵測、醫療診斷、異常事件預測等高風險分類問題
可作為分類任務交叉驗證的預設方式

4.3LOOCV(Leave-One-Out Cross-Validation)— K-fold 極端形式

面向內容
定義LOOCV 是 K-fold 的極端形式K 等於樣本數 n,每次僅留下一筆樣本作為驗證、其餘 n−1 筆資料訓練模型,總共進行 n 次評估
過程資料集中每次僅留下 1 筆作為驗證集,其餘所有資料用於訓練,重複進行 n 次(n = 樣本數)
特點評估偏差最小,適合樣本珍貴或不可浪費的情境
② 因需訓練 n 次模型,計算成本極高,對模型複雜度與硬體要求較高
敏感於訓練集的微小變動,模型表現波動較大
適用情境① 樣本數極小但資料珍貴(臨床研究、稀有病資料)
學術研究中需最大化資料利用與精準驗證
③ 適用於須個別樣本可信度高的模型精度檢查

4.4Repeated K-fold(重複 K 折)

面向內容
定義標準 K-fold 基礎上多次隨機重劃,反覆交叉驗證以取得多組評估結果,再計算平均與變異數,提升模型穩定性觀察
過程執行多輪 K-fold 驗證(如 10-fold × 5 次),每輪隨機重分 fold,計算所有輪的平均與變異
特點① 評估結果更加穩定與具代表性
② 可觀察模型在不同劃分下的表現波動與可信區間
③ 相較標準 K-fold,計算成本更高
適用情境① 調參流程中模型比較與效能穩定性評估
學術研究或論文發表需報告標準差與置信範圍
需重現性高的產業建模流程,如金融風控、醫療 AI

4.5四種交叉驗證選用對照

方法K 設定核心特點適用情境
K-foldK = 5 或 10平均劃分 K 折,輪流驗證;標準方法中大型資料集;通用方法
Stratified K-foldK = 5 或 10每折類別比例 = 整體比例分類 + 類別不平衡(詐騙 / 醫療診斷)
LOOCVK = n(樣本數)每次留 1 筆驗證;偏差最小但成本極高樣本珍貴(臨床研究、稀有病)
Repeated K-foldK-fold × R 次多次隨機重劃 + 變異數觀察需報告穩定性(金融風控、醫療 AI、學術)
5跨章關鍵對照
高頻混淆題型 — 一表壓平

5.1Precision vs Recall — 何時看哪個?

面向Precision 精確率Recall 召回率
公式TP / (TP + FP)TP / (TP + FN)
看什麼說是正的,有多少真的是正的真正是正的,有多少被抓出來
怕什麼誤報(FP)漏報(FN)
適用情境誤報代價高 — 垃圾郵件分類、醫療誤診漏報代價高 — 癌症偵測、詐騙偵測
分母含FP(你說正但其實是負)FN(你說負但其實是正)

5.2MSE vs MAE vs RMSE — 三大迴歸誤差差異

面向MSEMAERMSE
計算(yᵢ−ŷᵢ)² 平均|yᵢ−ŷᵢ| 平均MSE 開根號
對離群值高度敏感(放大)不敏感(穩定)敏感(沿襲 MSE)
單位原單位的平方同原單位同原單位,易解讀
適用強調大誤差懲罰(金融、製程)偏態資料、含異常值報告 + 模型比較通用

5.3K-fold 家族選用速查

場景建議方法關鍵差異
中大型資料、通用K-fold(K=5/10)標準方法、計算成本 K 倍
分類 + 類別不均Stratified K-fold每折類別比例 = 整體比例
樣本極少(臨床、稀有病)LOOCVK = n、偏差最小但成本極高
需報告穩定性 / 變異Repeated K-fold多次重劃、平均 + 變異數

5.4分類 vs 迴歸 — 評估指標總覽

任務類型核心結構5 / 4 大指標
分類(Classification)混淆矩陣(行=Predicted、列=Actual)
TP / FP / FN / TN 四格
Accuracy / Precision / Recall / F1 / ROC-AUC
迴歸(Regression)連續變數誤差
(y − ŷ) 平方 / 絕對值 / 解釋變異
MSE / MAE / RMSE / R²

5.5類別不平衡 3 大解法

解法機制代表演算法 / 適用
① 類別重加權
Class Weights
少數類別賦予更高權重,損失函數加權邏輯迴歸 / 樹模型 / 神經網路
② 過採樣
SMOTE
合成新樣本平衡資料分佈;保留原始空間結構Synthetic Minority Over-sampling Technique(資料量不足的少數類別)
③ 異常值建模視為異常偵測任務,只學習正常類別Isolation Forest / One-Class SVM;欺詐偵測、設備故障預測
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23303 考前複習筆記 · v1.0(2026-05 表格化精簡版)