L23303 模型訓練、評估與驗證
2模型訓練流程與策略(5 子節)
資料分割 → 批次設計 → 學習率 → 早停 → 監控
2.1資料分割與準備(Train / Validation / Test)
| 資料子集 | 使用時機 | 用途(教材原文鎖死) |
|---|---|---|
| 訓練集 Training Set | 訓練過程中 | 用於模型參數的學習與內部結構調整,是整個學習流程的基礎 |
| 驗證集 Validation Set | 訓練過程中(監控) | 作為調整超參數(如學習率、正則化係數)與監控訓練過程的依據,用以觀察模型的泛化能力 |
| 測試集 Test Set | 僅在訓練完成後 | 進行最終效能評估,模擬模型實際部署時對未知資料的表現 |
2.2批次訓練設計與更新策略
| 策略 | 更新單位 | 優點 | 缺點 / 限制 |
|---|---|---|---|
| 全量訓練 Batch Gradient Descent | 全部資料 | 方向穩定、收斂路徑平滑 | 記憶體要求高、不易應用於大規模資料 |
| 隨機梯度下降 SGD(Stochastic) | 每次 1 筆樣本 | 適合線上學習與資料流架構 | 更新震盪較大、收斂速率不穩 |
| 小批次訓練 Mini-batch SGD | 固定筆數樣本 | 兼具全量與隨機優點;深度學習最常用 | Batch 大小需依 GPU 記憶體與任務特性調整 |
2.3學習率調整(4 種策略)
| 策略 | 機制 | 適用情境 |
|---|---|---|
| 固定學習率 Constant Rate | 設定單一值 | 簡單任務;收斂後期難以進一步提升效能 |
| 遞減學習率 Step Decay / Exponential Decay | 根據訓練次數或驗證集表現,定期降低 | 有助於穩定收斂 |
| 動態調整 | 驗證效能停滯時自動調降學習率 如 PyTorch 的 ReduceLROnPlateau | 可精細控制學習節奏 |
| 預熱策略 Warmup | 訓練初期使用較低學習率,逐漸升高 | 避免初期梯度爆炸;Transformer 類模型常見 |
2.4早停策略與訓練終止準則(Early Stopping)
| 機制 | 定義(教材原文鎖死) |
|---|---|
| 監控對象 | 透過監控驗證集效能,判斷訓練何時應中止(過久訓練 → 過擬合) |
| 容忍次數 Patience | 驗證指標若在連續 N 次迭代內無明顯改善,則終止訓練 |
| 最小改善幅度 Minimum Delta | 效能提升若小於閾值,亦可視為無效進步 |
| 搭配使用 | 配合學習率調整共同使用,能取得穩定且泛化良好的模型 |
2.5訓練過程的記錄與監控(Reproducibility)
| 監控項目 | 工具 / 內容 |
|---|---|
| 訓練指標視覺化 | TensorBoard / WandB / MLflow 觀察損失曲線與指標趨勢 |
| 超參數與版本管理 | 記錄每次訓練的超參數設定、模型結構、權重版本,便於複製與回溯 |
| 資源使用狀況 | 追蹤 GPU / CPU / 記憶體使用率,評估效能瓶頸與部署可行性 |
3評估指標與模型效果衡量
分類 5 指標 + 迴歸 4 指標 + 模型比較策略
3.1混淆矩陣(Confusion Matrix)— 二元分類核心
二元分類混淆矩陣 (教材原文:行 = Predicted、列 = Actual)
| 實際(Actual) | |||
| 實際為正類 (Positive) | 實際為負類 (Negative) | ||
| 預測 Predicted | 預測為正類 | TP True Positive 真正 | FP False Positive 假正 |
| 預測為負類 | FN False Negative 假負 | TN True Negative 真負 | |
P = 實際為正類的樣本數
N = 實際為負類的樣本數
P = TP + FN
N = FP + TN
3.2分類任務 5 大評估指標(公式 + 適用情境)
Accuracy 準確率
(TP + TN) / (TP + TN + FP + FN)
正確預測樣本數佔總樣本數的比例。適用:類別分佈相對均衡時。限制:嚴重類別不平衡時容易誤導(如 95% 為負類,全猜負類也有 95% 準確率)。
Precision 精確率
TP / (TP + FP)
被預測為正類的樣本中,實際為正的比例。衡量「預測為正的可信度」。適用:「誤報正類」代價高時 — 垃圾郵件分類、醫療誤診。
Recall 召回率
TP / (TP + FN)
實際正類樣本中,被正確預測為正類的比例。衡量「模型能抓住多少實際正類」。適用:「漏報正類」代價高時 — 癌症偵測、詐騙偵測。
F1-Score
2 · (Precision · Recall) / (Precision + Recall)
Precision 與 Recall 的調和平均。適用:需在精確率與召回率間取得平衡,且類別不平衡嚴重時。
ROC-AUC
ROC 曲線下面積(Area Under Curve)
ROC 曲線(Receiver Operating Characteristic)— 橫軸:假正率 FPR、縱軸:真正率 TPR。AUC 值越接近 1,模型越好。適用:需綜觀整體預測能力 / 調整分類閾值的應用。
3.3迴歸任務 4 大評估指標
MSE 均方誤差
MSE = (1/n) · Σ(yᵢ − ŷᵢ)²
所有預測誤差平方的平均值。對大誤差高度敏感,會放大極端偏差的影響。適用:需強調大誤差懲罰 — 金融風險預測、製程品質監控。
MAE 平均絕對誤差
MAE = (1/n) · Σ|yᵢ − ŷᵢ|
所有預測誤差絕對值的平均。對異常值較不敏感,提供穩定的誤差估計。適用:資料具偏態分佈或含少量極端值時。
RMSE 均方根誤差
RMSE = √[(1/n) · Σ(yᵢ − ŷᵢ)²]
MSE 的平方根。保有 MSE 的懲罰特性,同時回到與預測變數相同的單位。適用:作為模型精度的整體衡量,廣泛用於報告與模型比較。
R² 決定係數
R² = 1 − (RSS / TSS)
衡量模型對目標變數變異解釋能力。RSS = 殘差平方和 Σ(yᵢ−ŷᵢ)²;TSS = 總變異平方和 Σ(yᵢ−ȳ)²。適用:線性迴歸模型;不適用於非線性或未標準化資料;不同任務 / 資料集間無法直接比較。
| R² 判別 | 意義(教材鎖死) |
|---|---|
R² = 1 | 模型能完全解釋資料變異,預測完美 |
R² = 0 | 模型僅與常數模型同等表現(如直接預測平均值) |
R² < 0 | 模型比常數模型還差,可能嚴重偏離資料趨勢或過度擬合 |
3.4模型比較與綜合評估策略
| 策略面向 | 內容(教材原文鎖死) |
|---|---|
| ① 指標組合與 多角度觀察 | 分類任務:結合 Accuracy + F1 + ROC-AUC + 混淆矩陣,避免單一指標掩蓋類別偏誤。迴歸任務:綜合 MAE + RMSE + R²,觀察誤差分佈與擬合能力。 |
| ② 類別不平衡 處理 | A. 類別重加權(Class Weights):訓練時對少數類別賦予更高權重,常用於邏輯迴歸 / 樹模型 / 神經網路(損失函數加權)。 B. 過採樣(SMOTE):Synthetic Minority Over-sampling Technique — 合成新樣本平衡資料分佈,保留原始樣本空間結構,降低過度複製產生的過擬合風險。 C. 異常值建模: Isolation Forest / One-Class SVM — 將不平衡視為異常偵測任務,僅學習正常類別行為。適用於極端不平衡場景(欺詐偵測、設備故障)。 |
| ③ 業務導向 自定義指標 | 風險導向(醫療):可自定義誤判成本矩陣,強化高代價錯誤(如漏診)的懲罰。 商業任務(推薦 / 行銷):使用領域專屬指標 — NDCG(排序任務)、Profit Score(收益導向)。 |
| ④ 多輪驗證與 穩定性觀察 | K-fold CV → 減少偶然性偏誤;Repeated K-fold CV → 多次重複隨機切分,衡量隨機條件下的穩定性與泛化能力,適合小樣本或高變異任務;穩定性視覺化 — Boxplot / Mean Rank Plot 觀察多輪驗證的表現分佈與變異程度。 |
4交叉驗證(Cross-Validation, 4 法)
K-fold / Stratified K-fold / LOOCV / Repeated K-fold
4.1K-fold 交叉驗證(最常見的通用型)
| 面向 | 內容(教材鎖死) |
|---|---|
| 定義 | 將原始資料集平均劃分為 K 個不重疊的子集(folds),每次選定其中 1 折(fold)作為驗證集,其餘 K−1 折作為訓練集 |
| 流程 | a. 平均劃分 K 折 b. 每次留 1 折驗證、其餘 K−1 折訓練 c. 重複 K 次,每折都當過一次驗證集 d. 計算 K 次驗證結果的平均作為整體表現 |
| 特點 | ① 減少資料切分偏差,適用性廣 ② 有效評估模型在不同樣本上的穩定性 ③ 計算成本為 K 倍(每次需重新訓練模型) ④ 常見設定 K = 5 或 10,在精確度與運算效率間取得平衡 |
| 適用情境 | ① 中大型資料集(數千筆以上) ② 模型選擇與效能比較的標準方法 ③ 迴歸與分類任務的泛化能力驗證 |
Iteration 1
Fold 1
驗證
驗證
Fold 2
訓練
訓練
Fold 3
訓練
訓練
Fold 4
訓練
訓練
Fold 5
訓練
訓練
Iteration 2
Fold 1
訓練
訓練
Fold 2
驗證
驗證
Fold 3
訓練
訓練
Fold 4
訓練
訓練
Fold 5
訓練
訓練
Iteration 3
Fold 1
訓練
訓練
Fold 2
訓練
訓練
Fold 3
驗證
驗證
Fold 4
訓練
訓練
Fold 5
訓練
訓練
Iteration 4
Fold 1
訓練
訓練
Fold 2
訓練
訓練
Fold 3
訓練
訓練
Fold 4
驗證
驗證
Fold 5
訓練
訓練
Iteration 5
Fold 1
訓練
訓練
Fold 2
訓練
訓練
Fold 3
訓練
訓練
Fold 4
訓練
訓練
Fold 5
驗證
驗證
K = 5 示意:5 次驗證取平均 → 模型整體表現
4.2Stratified K-fold(分層 K 折)— 分類問題改良版
| 面向 | 內容 |
|---|---|
| 定義 | 針對分類問題的改良版本,劃分時確保每一折中各類別的比例與整體資料集相符,特別適用於類別分佈不均的資料 |
| 過程 | 依照類別比例進行分層抽樣,使每一折的類別比例與整體資料集相近 |
| 特點 | ① 有效解決類別不均所導致的模型評估失真 ② 提升對小樣本類別的穩定性與預測準確度 ③ 與傳統 K-fold 相比,分佈一致性更高 |
| 適用情境 | ① 分類資料中存在不均衡現象(正負樣本比例懸殊) ② 用於詐騙偵測、醫療診斷、異常事件預測等高風險分類問題 ③ 可作為分類任務交叉驗證的預設方式 |
4.3LOOCV(Leave-One-Out Cross-Validation)— K-fold 極端形式
| 面向 | 內容 |
|---|---|
| 定義 | LOOCV 是 K-fold 的極端形式。K 等於樣本數 n,每次僅留下一筆樣本作為驗證、其餘 n−1 筆資料訓練模型,總共進行 n 次評估 |
| 過程 | 資料集中每次僅留下 1 筆作為驗證集,其餘所有資料用於訓練,重複進行 n 次(n = 樣本數) |
| 特點 | ① 評估偏差最小,適合樣本珍貴或不可浪費的情境 ② 因需訓練 n 次模型,計算成本極高,對模型複雜度與硬體要求較高 ③ 敏感於訓練集的微小變動,模型表現波動較大 |
| 適用情境 | ① 樣本數極小但資料珍貴(臨床研究、稀有病資料) ② 學術研究中需最大化資料利用與精準驗證 ③ 適用於須個別樣本可信度高的模型精度檢查 |
4.4Repeated K-fold(重複 K 折)
| 面向 | 內容 |
|---|---|
| 定義 | 在標準 K-fold 基礎上多次隨機重劃,反覆交叉驗證以取得多組評估結果,再計算平均與變異數,提升模型穩定性觀察 |
| 過程 | 執行多輪 K-fold 驗證(如 10-fold × 5 次),每輪隨機重分 fold,計算所有輪的平均與變異 |
| 特點 | ① 評估結果更加穩定與具代表性 ② 可觀察模型在不同劃分下的表現波動與可信區間 ③ 相較標準 K-fold,計算成本更高 |
| 適用情境 | ① 調參流程中模型比較與效能穩定性評估 ② 學術研究或論文發表需報告標準差與置信範圍 ③ 需重現性高的產業建模流程,如金融風控、醫療 AI |
4.5四種交叉驗證選用對照
| 方法 | K 設定 | 核心特點 | 適用情境 |
|---|---|---|---|
| K-fold | K = 5 或 10 | 平均劃分 K 折,輪流驗證;標準方法 | 中大型資料集;通用方法 |
| Stratified K-fold | K = 5 或 10 | 每折類別比例 = 整體比例 | 分類 + 類別不平衡(詐騙 / 醫療診斷) |
| LOOCV | K = n(樣本數) | 每次留 1 筆驗證;偏差最小但成本極高 | 樣本珍貴(臨床研究、稀有病) |
| Repeated K-fold | K-fold × R 次 | 多次隨機重劃 + 變異數觀察 | 需報告穩定性(金融風控、醫療 AI、學術) |
5跨章關鍵對照
高頻混淆題型 — 一表壓平
5.1Precision vs Recall — 何時看哪個?
| 面向 | Precision 精確率 | Recall 召回率 |
|---|---|---|
| 公式 | TP / (TP + FP) | TP / (TP + FN) |
| 看什麼 | 「說是正的,有多少真的是正的」 | 「真正是正的,有多少被抓出來」 |
| 怕什麼 | 誤報(FP)多 | 漏報(FN)多 |
| 適用情境 | 誤報代價高 — 垃圾郵件分類、醫療誤診 | 漏報代價高 — 癌症偵測、詐騙偵測 |
| 分母含 | FP(你說正但其實是負) | FN(你說負但其實是正) |
5.2MSE vs MAE vs RMSE — 三大迴歸誤差差異
| 面向 | MSE | MAE | RMSE |
|---|---|---|---|
| 計算 | (yᵢ−ŷᵢ)² 平均 | |yᵢ−ŷᵢ| 平均 | MSE 開根號 |
| 對離群值 | 高度敏感(放大) | 不敏感(穩定) | 敏感(沿襲 MSE) |
| 單位 | 原單位的平方 | 同原單位 | 同原單位,易解讀 |
| 適用 | 強調大誤差懲罰(金融、製程) | 偏態資料、含異常值 | 報告 + 模型比較通用 |
5.3K-fold 家族選用速查
| 場景 | 建議方法 | 關鍵差異 |
|---|---|---|
| 中大型資料、通用 | K-fold(K=5/10) | 標準方法、計算成本 K 倍 |
| 分類 + 類別不均 | Stratified K-fold | 每折類別比例 = 整體比例 |
| 樣本極少(臨床、稀有病) | LOOCV | K = n、偏差最小但成本極高 |
| 需報告穩定性 / 變異 | Repeated K-fold | 多次重劃、平均 + 變異數 |
5.4分類 vs 迴歸 — 評估指標總覽
| 任務類型 | 核心結構 | 5 / 4 大指標 |
|---|---|---|
| 分類(Classification) | 混淆矩陣(行=Predicted、列=Actual) TP / FP / FN / TN 四格 | Accuracy / Precision / Recall / F1 / ROC-AUC |
| 迴歸(Regression) | 連續變數誤差 (y − ŷ) 平方 / 絕對值 / 解釋變異 | MSE / MAE / RMSE / R² |
5.5類別不平衡 3 大解法
| 解法 | 機制 | 代表演算法 / 適用 |
|---|---|---|
| ① 類別重加權 Class Weights | 少數類別賦予更高權重,損失函數加權 | 邏輯迴歸 / 樹模型 / 神經網路 |
| ② 過採樣 SMOTE | 合成新樣本平衡資料分佈;保留原始空間結構 | Synthetic Minority Over-sampling Technique(資料量不足的少數類別) |
| ③ 異常值建模 | 視為異常偵測任務,只學習正常類別 | Isolation Forest / One-Class SVM;欺詐偵測、設備故障預測 |
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23303 考前複習筆記 · v1.0(2026-05 表格化精簡版)