L23301 數據準備與特徵工程
2資料清理(5 個子節)
建模前的必要步驟 — 確保資料具備正確性 / 一致性 / 完整性
2.1缺失值處理(Missing Value)
| 來源 | 資料缺失(Missing Value)三大來源 | |
|---|---|---|
| 三大來源 | 感測失效 / 人工遺漏 / 系統錯誤 | |
| 處理方式 | 適用情境 / 子方法 | 備註 |
|---|---|---|
| 刪除法(Deletion) | 當缺失比例極低、樣本數充足、且缺失分佈無偏時,直接刪除含缺值的欄位或列 | 避免導入不確定性 |
| 填補法(Imputation) | ① 均值 / 中位數 / 眾數填補 | 數值或類別型欄位通用;方法簡單但可能降低變異性或產生偏差 |
| ② 相似樣本填補(Hot Deck、K 最近鄰(KNN)填補) | 依特徵相似度補全遺失值 | |
| ③ 預測模型填補(迴歸 / 分類模型) | 適用於特徵間具有高度相關性時 | |
| ④ 缺失指標編碼 | 新增欄位標示是否缺失,有助模型學習隱含資訊,常見於樹模型 |
2.2異常值偵測與處理(Outlier Detection & Handling)
| 來源 | 輸入錯誤 / 資料錯置 / 極端觀測 → 對模型參數與分佈估計有顯著影響 | |
|---|---|---|
| 偵測方法(3 類) | 說明 | 關鍵詞 |
|---|---|---|
| 統計方法 | 界定明顯偏離的觀測值 | Z 分數(Z-score)、四分位距(IQR) |
| 視覺化分析 | 輔助觀察極端點或非典型趨勢 | 箱型圖、散佈圖、時間序列圖 |
| 機器學習方法 | 偵測高維資料中的異常 | Isolation Forest、Local Outlier Factor(LOF) |
| 處理策略(3 類) | 說明 |
|---|---|
| 移除 | 在可確認錯誤輸入時直接刪除 |
| 截尾與轉換 | 將值限制於上下邊界內;或進行對數、Box-Cox 等轉換 |
| 標記保留 | 在異常值本身具有預測價值(如欺詐偵測)時保留,並作為特徵輸入 |
2.3重複樣本與資料一致性檢查
| 情境 | 內容 |
|---|---|
| 三大來源 | 系統重複寫入 / 資料整合錯誤 / 缺少唯一辨識碼 → 同一觀察單位在資料集中多次出現 |
| 重複資料偵測 | 透過主鍵比對或欄位相似度判斷;目的是避免訓練集被特定樣本主導 |
| 單位與格式標準化 | 統一數據單位(如公克 ↔ 公斤)、時間格式、類別值(如「male」「男」)→ 確保欄位一致性 |
2.4資料型別轉換與欄位格式調整
| 操作 | 說明 |
|---|---|
| 類型轉換 | 確保數值型與類別型資料正確標示,以利後續特徵工程與模型處理(類別編碼、標準化等) |
| 時間資料解析 | 將日期時間轉換為:① 時間戳 ② 週期性變數(星期幾、月份)③ 時間差計算 → 有助時間序列建模 |
2.5清理流程的策略考量
| 面向 | 內容 | |
|---|---|---|
| 模型對資料品質的敏感度差異 | 樹模型(XGBoost、Random Forest) | 對缺值與異常值容忍度高,能自動處理部分遺失資訊 |
| 線性模型 / 神經網路 | 對輸入較為敏感,需特別注意缺值補全與特徵正規化,否則容易訓練不穩或結果偏誤 | |
| 建立資料處理紀錄與流程可追溯性 (Data Lineage) | 所有清理動作應具備明確記錄 | 欄位處理邏輯 → 填補方法 → 異常值調整依據 |
| 確保資料處理流程 | 可被還原、驗證與持續維護 | |
| 有助 / 符合 | 模型開發過程的透明度與重現性;資料治理與法規合規的最佳實務 | |
3特徵選擇與降維方法
3 類選擇法 + 4 大降維法 — 選擇不創造新特徵 vs 降維轉換到新空間
3.1特徵選擇 3 大方法(Filter / Wrapper / Embedded)
| 方法 | 原理 / 代表手段 | 優點 | 限制 |
|---|---|---|---|
| Filter 方法 (過濾法) |
透過統計量或相關係數,獨立於模型之外快速篩選;常用:皮爾森相關係數、卡方檢定(Chi-square Test)、ANOVA 檢定 | 速度快、不依賴特定模型 | 無法考慮特徵間交互作用 |
| Wrapper 方法 (包裝法) |
使用模型表現(準確率 / F1-score)作為標準;採遞迴特徵消除(Recursive Feature Elimination, RFE)或前向 / 後向選擇 | 精確考量特徵互動效果 | 計算成本高,可能過度擬合 |
| Embedded 方法 (嵌入法) |
在模型訓練過程中內建特徵選擇機制;例如決策樹模型的重要性分析、Lasso、Ridge 等正則化方法 | 建模過程中同時完成特徵選擇 | 需特定模型或算法支援,結果可能受模型超參數影響 |
3.2降維 4 大方法(PCA / LDA / t-SNE·UMAP / SVD)
| 方法 | 類型 / 目標 | 應用 |
|---|---|---|
| 主成分分析 (Principal Component Analysis, PCA) |
線性變換,找出能最大化資料變異的方向,並以這些主成分重構資料 | 廣泛用於視覺化、雜訊過濾與建模加速 |
| 線性判別分析 (Linear Discriminant Analysis, LDA) |
同為線性降維,但以最大化類間差異、最小化類內變異為目標 | 適用於分類問題 |
| t-SNE、UMAP 等 非線性降維方法 |
可保留高維資料在低維空間中的鄰近關係 | 常用於視覺化探索;不適合直接用於預測建模 |
| 奇異值分解 (Singular Value Decomposition, SVD) |
矩陣分解 | 廣泛應用於文字分析(如 LSA)、推薦系統等任務 |
4特徵轉換與資料標準化
4 子節 — 尺度 / 分佈 / 類別 / 時間週期 四個面向
4.1資料尺度調整(Scaling)— Min-Max / Z-score / Robust
| 方法 | 計算邏輯 / 目標分佈 | 優點 | 限制 |
|---|---|---|---|
| Min-Max Normalization (最小 - 最大正規化) |
將數值線性縮放至 0~1 區間 | 保留原始變數的分佈比例,易於解釋與視覺化 | 對極端值敏感,異常值會壓縮其他數值的縮放範圍 |
| Z-score Standardization (Z 分數標準化) |
將數值轉換為平均值為 0、標準差為 1 的常態分佈 | 適用於符合常態分佈的資料,保留原始形狀與相對位置 | 對極端值仍具敏感性;若分佈偏態則標準化結果偏移 |
| Robust Scaling (穩健標準化) |
使用中位數與四分位距(IQR)進行縮放 | 對極端值具高度抵抗性;適用於偏態或含離群值的情境 | 轉換後資料不保證符合任何標準分佈,可能影響部分建模假設 |
4.2分佈轉換(Transformation)— Log / Sqrt / Box-Cox·Yeo-Johnson
| 方法 | 適用情境 | 備註 |
|---|---|---|
| 對數轉換 (Log Transform) | 常用於處理右偏分佈,降低極端值影響 | 典型應用:收入、銷售額 |
| 平方根 / 立方根轉換 | 溫和壓縮變異性,適用中度偏態資料 | — |
| Box-Cox / Yeo-Johnson 轉換 | 自動尋找最適指數轉換參數(λ),將資料近似常態化 | 線性迴歸等假設常態分佈的模型受益最大 |
4.3類別資料處理(Categorical Encoding)— Label / One-hot / Target
| 編碼方法 | 規則 / 範例 | 適用情境 | 優點 | 風險 / 限制 |
|---|---|---|---|---|
| Label Encoding (標籤編碼) |
每個類別對應一個整數編號。例:「小學」→ 0、「高中」→ 1、「大學」→ 2 | 類別具明確順序關係(Ordinal Variables),如教育程度、服務等級(Basic / Premium / VIP) | 轉換快速、佔用空間小 | 若誤用於無序類別(Nominal Variables),模型可能誤解為數值之間具有數學意義 |
| One-hot Encoding (獨熱編碼) |
為每個類別新增一個欄位,該類別為 1、其餘為 0。例:「紅 / 藍 / 綠」→ is_red、is_blue、is_green |
無序類別變數(城市名稱、產品類型) | 保留類別的完整資訊,不引入順序誤解 | High Cardinality(高基數)時大幅增加特徵維度,造成記憶體消耗與模型訓練延遲 |
| Target Encoding (目標編碼 / 平均編碼) |
以類別在目標變數上的統計量(平均值、中位數、轉換率)取代。例:每個「廣告來源」用該來源的平均轉換率作為新特徵 | 高基數類別變數,且類別與目標變數具高度關聯 | 保留目標相關資訊,不造成維度爆炸 | 有目標洩漏與過擬合風險,需交叉驗證或平滑化 |
4.4時間與週期性資料轉換
| 手法 | 說明 |
|---|---|
| 拆解時間欄位為 結構化特徵 |
原始時間戳記可分解為「年、月、日、星期幾、時段」等,這些元素往往與目標變數具有潛在關聯(例如銷售高峰常出現在假日或下班時段) |
| 建構週期性特徵表示 (sin / cos 編碼) |
為保留時間的「週期性結構」(如一週七天的循環),對週期性欄位(如星期幾、月份)使用三角函數 sin / cos 轉換,保留相鄰關係(例:星期日 ↔ 星期一、五月 ↔ 六月 距離相近) |
5資料增強(Data Augmentation)
4 種資料型態 × 對應增強方法 + 應用案例
| 資料型態 | 增強方法 | 應用案例 |
|---|---|---|
| 圖像資料增強 (Image Augmentation) |
隨機翻轉、旋轉、裁剪、縮放、色彩變換 | 影像辨識模型訓練(人臉辨識、醫學影像分析) |
| 文字資料增強 (Text Augmentation) |
同義字替換、隨機插入、隨機刪除、隨機交換字詞位置 | 情感分析、主題分類、對話模型訓練 |
| 時序資料增強 (Time-series Augmentation) |
增加噪聲、局部時段調整(Scaling, Jittering)、窗口裁切 | 設備故障預測、股市趨勢分析 |
| 表格式資料增強 (Tabular Data Augmentation) |
SMOTE(Synthetic Minority Oversampling Technique)增加稀少樣本 | 不平衡資料分類問題(詐欺偵測、疾病診斷) |
6特徵工程策略
不是套工具 — 是結合資料理解、領域知識與建模目標的決策過程
| 策略脈絡 | 具體做法 |
|---|---|
| ① 依任務類型設計特徵 | 分類任務偏好具離散分群能力的特徵(類別指標、區間編碼); 迴歸任務偏好與數值趨勢密切相關的連續特徵 |
| ② 依模型性質調整特徵處理 | 線性模型需特別注意尺度與共線性; 樹模型對類別編碼敏感,避免使用標籤編碼造成誤解; 距離式模型(如 KNN)需保證特徵間單位一致性 |
| ③ 探索資料中的隱含結構 | 合成:將原始欄位進行合成(如「單價 × 數量」生成總價); 統計聚合:生成群體行為特徵(如「使用者在過去 7 天的點擊次數」) |
| ④ 考慮時間性與序列關聯 | 提取滯後值(lag)、移動平均(rolling mean)等序列特徵; 加入時間間隔、事件次數等動態指標 |
7跨章關鍵對照
高頻混淆題型 — 一表壓平
7.1缺失值四子方法 vs 異常值三策略
| 面向 | 缺失值(4 子方法) | 異常值(3 處理策略) |
|---|---|---|
| 定義 | 資料缺失(Missing Value) | Outlier Detection & Handling |
| 子方法 | ① 均值/中位數/眾數 ② 相似樣本(Hot Deck / KNN)③ 預測模型 ④ 缺失指標編碼 | ① 移除 ② 截尾與轉換(對數 / Box-Cox)③ 標記保留(欺詐偵測) |
| 進階偵測 | — | Z-score / IQR / Isolation Forest / LOF |
7.2三大 Scaling 對極端值反應
| 面向 | Min-Max | Z-score | Robust |
|---|---|---|---|
| 目標 | 0~1 區間 | 平均 0、標準差 1 | 中位數 + IQR |
| 對極端值 | 敏感 | 仍敏感 | 抵抗性高 |
| 常態分佈 | 不保證 | 保留原形狀 | 不保證(可能影響建模假設) |
7.3三大編碼方法選用
| 類別性質 | 建議編碼 | 關鍵理由 / 風險 |
|---|---|---|
| Ordinal Variables(有序,教育程度 / VIP 等級) | Label Encoding | 整數保留順序資訊;空間小 |
| Nominal Variables(無序,城市 / 顏色) | One-hot Encoding | 不引入順序誤解;但 High Cardinality 維度爆炸 |
| High Cardinality + 與目標高相關(廣告來源 / 商品 ID) | Target Encoding | 保留目標相關性、不爆維;需防目標洩漏 / 過擬合(交叉驗證) |
7.4特徵選擇 vs 降維
| 面向 | 特徵選擇(Feature Selection) | 降維(Dimensionality Reduction) |
|---|---|---|
| 操作對象 | 從原始特徵中篩選子集 | 把高維特徵空間轉換為低維空間 |
| 是否創造新特徵 | 不創造,只「選擇」 | 會產生新的低維表示(主成分 / embedding) |
| 代表方法 | Filter / Wrapper / Embedded(RFE、Lasso、Ridge) | PCA / LDA / t-SNE·UMAP / SVD |
| 解釋性 | 原欄位意義保留 | 主成分是線性組合,可解釋性下降 |
7.5四大降維法對照
| 方法 | 類型 | 目標 / 原理 | 主用途 |
|---|---|---|---|
| PCA | 線性 / 無監督 | 最大化資料變異方向 | 視覺化、雜訊過濾、建模加速 |
| LDA | 線性 / 有監督(用類別) | 最大化類間差異、最小化類內變異 | 分類問題 |
| t-SNE / UMAP | 非線性 | 保留鄰近關係 | 視覺化探索;不適合做下游預測建模 |
| SVD | 矩陣分解 | 分解為奇異值 + 奇異向量 | 文字分析(LSA)、推薦系統 |
7.6四型態資料增強對照
| 型態 | 方法關鍵詞 | 案例 |
|---|---|---|
| Image | 翻轉 / 旋轉 / 裁剪 / 縮放 / 色彩 | 人臉辨識、醫學影像 |
| Text | 同義字替換 / 隨機插入 / 刪除 / 交換 | 情感分析、主題分類、對話模型 |
| Time-series | 噪聲 / Scaling, Jittering / 窗口裁切 | 設備故障預測、股市趨勢 |
| Tabular | SMOTE(合成少數類過採樣) | 詐欺偵測、疾病診斷(不平衡) |
7.7模型對資料品質敏感度
| 模型 | 缺值 / 異常值容忍 | 需要 Scaling | 類別編碼陷阱 |
|---|---|---|---|
| 樹模型(XGBoost / RF) | 高(自動處理) | 不需要 | 對標籤編碼敏感(Nominal 誤用會被誤導順序) |
| 線性模型 | 敏感 | 需要 | 注意尺度與共線性 |
| SVM | 敏感 | 需要 | 核函數需特徵尺度一致 |
| KNN(距離式) | 敏感 | 需要(單位一致性) | 維度詛咒問題 |
| 神經網路 | 敏感(容易訓練不穩) | 需要 | — |
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23301 考前複習筆記 · v1.0(2026-05 表格化精簡版)