L23301數據準備與特徵工程
0%

L23301 數據準備與特徵工程

2資料清理(5 個子節)
建模前的必要步驟 — 確保資料具備正確性 / 一致性 / 完整性

2.1缺失值處理(Missing Value)

來源資料缺失(Missing Value)三大來源
三大來源感測失效 / 人工遺漏 / 系統錯誤
處理方式適用情境 / 子方法備註
刪除法(Deletion)缺失比例極低樣本數充足、且缺失分佈無偏時,直接刪除含缺值的欄位或列避免導入不確定性
填補法(Imputation)均值 / 中位數 / 眾數填補數值或類別型欄位通用;方法簡單但可能降低變異性或產生偏差
相似樣本填補Hot DeckK 最近鄰(KNN)填補特徵相似度補全遺失值
預測模型填補(迴歸 / 分類模型)適用於特徵間具有高度相關性
缺失指標編碼新增欄位標示是否缺失,有助模型學習隱含資訊,常見於樹模型

2.2異常值偵測與處理(Outlier Detection & Handling)

來源輸入錯誤 / 資料錯置 / 極端觀測 → 對模型參數與分佈估計有顯著影響
偵測方法(3 類)說明關鍵詞
統計方法界定明顯偏離的觀測值Z 分數(Z-score)四分位距(IQR)
視覺化分析輔助觀察極端點或非典型趨勢箱型圖散佈圖時間序列圖
機器學習方法偵測高維資料中的異常Isolation ForestLocal Outlier Factor(LOF)
處理策略(3 類)說明
移除可確認錯誤輸入時直接刪除
截尾與轉換將值限制於上下邊界內;或進行對數、Box-Cox 等轉換
標記保留在異常值本身具有預測價值(如欺詐偵測)時保留,並作為特徵輸入

2.3重複樣本與資料一致性檢查

情境內容
三大來源系統重複寫入 / 資料整合錯誤 / 缺少唯一辨識碼 → 同一觀察單位在資料集中多次出現
重複資料偵測透過主鍵比對欄位相似度判斷;目的是避免訓練集被特定樣本主導
單位與格式標準化統一數據單位(如公克公斤)、時間格式類別值(如「male」「」)→ 確保欄位一致性

2.4資料型別轉換與欄位格式調整

操作說明
類型轉換確保數值型類別型資料正確標示,以利後續特徵工程與模型處理(類別編碼、標準化等)
時間資料解析日期時間轉換為:① 時間戳週期性變數星期幾、月份)③ 時間差計算 → 有助時間序列建模

2.5清理流程的策略考量

面向內容
模型對資料品質的敏感度差異樹模型XGBoostRandom Forest缺值與異常值容忍度高,能自動處理部分遺失資訊
線性模型 / 神經網路對輸入較為敏感,需特別注意缺值補全與特徵正規化,否則容易訓練不穩或結果偏誤
建立資料處理紀錄與流程可追溯性
(Data Lineage)
所有清理動作應具備明確記錄欄位處理邏輯 → 填補方法 → 異常值調整依據
確保資料處理流程可被還原、驗證與持續維護
有助 / 符合模型開發過程的透明度與重現性資料治理法規合規的最佳實務
3特徵選擇與降維方法
3 類選擇法 + 4 大降維法 — 選擇不創造新特徵 vs 降維轉換到新空間

3.1特徵選擇 3 大方法(Filter / Wrapper / Embedded)

方法原理 / 代表手段優點限制
Filter 方法
(過濾法)
透過統計量或相關係數獨立於模型之外快速篩選;常用:皮爾森相關係數卡方檢定(Chi-square Test)ANOVA 檢定 速度快、不依賴特定模型 無法考慮特徵間交互作用
Wrapper 方法
(包裝法)
使用模型表現準確率 / F1-score)作為標準;採遞迴特徵消除(Recursive Feature Elimination, RFE)前向 / 後向選擇 精確考量特徵互動效果 計算成本高,可能過度擬合
Embedded 方法
(嵌入法)
模型訓練過程中內建特徵選擇機制;例如決策樹模型的重要性分析Lasso、Ridge 等正則化方法 建模過程中同時完成特徵選擇 需特定模型或算法支援,結果可能受模型超參數影響

3.2降維 4 大方法(PCA / LDA / t-SNE·UMAP / SVD)

方法類型 / 目標應用
主成分分析
(Principal Component Analysis, PCA)
線性變換,找出能最大化資料變異的方向,並以這些主成分重構資料 廣泛用於視覺化、雜訊過濾與建模加速
線性判別分析
(Linear Discriminant Analysis, LDA)
同為線性降維,但以最大化類間差異、最小化類內變異為目標 適用於分類問題
t-SNE、UMAP 等
非線性降維方法
保留高維資料在低維空間中的鄰近關係 常用於視覺化探索不適合直接用於預測建模
奇異值分解
(Singular Value Decomposition, SVD)
矩陣分解 廣泛應用於文字分析(如 LSA)推薦系統等任務
4特徵轉換與資料標準化
4 子節 — 尺度 / 分佈 / 類別 / 時間週期 四個面向

4.1資料尺度調整(Scaling)— Min-Max / Z-score / Robust

方法計算邏輯 / 目標分佈優點限制
Min-Max Normalization
(最小 - 最大正規化)
將數值線性縮放至 0~1 區間 保留原始變數的分佈比例易於解釋與視覺化 對極端值敏感,異常值會壓縮其他數值的縮放範圍
Z-score Standardization
(Z 分數標準化)
將數值轉換為平均值為 0、標準差為 1 的常態分佈 適用於符合常態分佈的資料,保留原始形狀與相對位置 對極端值仍具敏感性;若分佈偏態則標準化結果偏移
Robust Scaling
(穩健標準化)
使用中位數四分位距(IQR)進行縮放 對極端值具高度抵抗性;適用於偏態或含離群值的情境 轉換後資料不保證符合任何標準分佈,可能影響部分建模假設

4.2分佈轉換(Transformation)— Log / Sqrt / Box-Cox·Yeo-Johnson

方法適用情境備註
對數轉換
(Log Transform)
常用於處理右偏分佈,降低極端值影響典型應用:收入、銷售額
平方根 / 立方根轉換溫和壓縮變異性,適用中度偏態資料
Box-Cox / Yeo-Johnson 轉換自動尋找最適指數轉換參數(λ),將資料近似常態化線性迴歸等假設常態分佈的模型受益最大

4.3類別資料處理(Categorical Encoding)— Label / One-hot / Target

編碼方法規則 / 範例適用情境優點風險 / 限制
Label Encoding
(標籤編碼)
每個類別對應一個整數編號。例:「小學」→ 0、「高中」→ 1、「大學」→ 2 類別具明確順序關係(Ordinal Variables),如教育程度、服務等級(Basic / Premium / VIP) 轉換快速、佔用空間小 誤用於無序類別(Nominal Variables),模型可能誤解為數值之間具有數學意義
One-hot Encoding
(獨熱編碼)
為每個類別新增一個欄位,該類別為 1、其餘為 0。例:「紅 / 藍 / 綠」→ is_redis_blueis_green 無序類別變數城市名稱、產品類型 保留類別的完整資訊不引入順序誤解 High Cardinality(高基數)時大幅增加特徵維度,造成記憶體消耗與模型訓練延遲
Target Encoding
(目標編碼 / 平均編碼)
以類別在目標變數上的統計量平均值、中位數、轉換率)取代。例:每個「廣告來源」用該來源的平均轉換率作為新特徵 高基數類別變數,且類別與目標變數具高度關聯 保留目標相關資訊不造成維度爆炸 目標洩漏與過擬合風險,需交叉驗證平滑化

4.4時間與週期性資料轉換

手法說明
拆解時間欄位為
結構化特徵
原始時間戳記可分解為「年、月、日、星期幾、時段」等,這些元素往往與目標變數具有潛在關聯(例如銷售高峰常出現在假日或下班時段
建構週期性特徵表示
(sin / cos 編碼)
為保留時間的「週期性結構」(如一週七天的循環),對週期性欄位(如星期幾、月份)使用三角函數 sin / cos 轉換保留相鄰關係(例:星期日 ↔ 星期一、五月 ↔ 六月 距離相近)
5資料增強(Data Augmentation)
4 種資料型態 × 對應增強方法 + 應用案例
資料型態增強方法應用案例
圖像資料增強
(Image Augmentation)
隨機翻轉、旋轉、裁剪、縮放、色彩變換 影像辨識模型訓練(人臉辨識、醫學影像分析
文字資料增強
(Text Augmentation)
同義字替換、隨機插入、隨機刪除、隨機交換字詞位置 情感分析、主題分類、對話模型訓練
時序資料增強
(Time-series Augmentation)
增加噪聲、局部時段調整(Scaling, Jittering)、窗口裁切 設備故障預測、股市趨勢分析
表格式資料增強
(Tabular Data Augmentation)
SMOTE(Synthetic Minority Oversampling Technique)增加稀少樣本 不平衡資料分類問題(詐欺偵測、疾病診斷
6特徵工程策略
不是套工具 — 是結合資料理解、領域知識與建模目標的決策過程
策略脈絡具體做法
① 依任務類型設計特徵 分類任務偏好具離散分群能力的特徵(類別指標、區間編碼);
迴歸任務偏好與數值趨勢密切相關的連續特徵
② 依模型性質調整特徵處理 線性模型需特別注意尺度與共線性
樹模型類別編碼敏感避免使用標籤編碼造成誤解
距離式模型(如 KNN)需保證特徵間單位一致性
③ 探索資料中的隱含結構 合成:將原始欄位進行合成(如「單價 × 數量」生成總價);
統計聚合:生成群體行為特徵(如「使用者在過去 7 天的點擊次數」)
④ 考慮時間性與序列關聯 提取滯後值(lag)移動平均(rolling mean)序列特徵
加入時間間隔、事件次數動態指標
7跨章關鍵對照
高頻混淆題型 — 一表壓平

7.1缺失值四子方法 vs 異常值三策略

面向缺失值(4 子方法)異常值(3 處理策略)
定義資料缺失(Missing Value)Outlier Detection & Handling
子方法① 均值/中位數/眾數 ② 相似樣本(Hot Deck / KNN)③ 預測模型 ④ 缺失指標編碼① 移除 ② 截尾與轉換(對數 / Box-Cox)③ 標記保留(欺詐偵測)
進階偵測Z-score / IQR / Isolation Forest / LOF

7.2三大 Scaling 對極端值反應

面向Min-MaxZ-scoreRobust
目標0~1 區間平均 0、標準差 1中位數 + IQR
對極端值敏感仍敏感抵抗性高
常態分佈不保證保留原形狀不保證(可能影響建模假設)

7.3三大編碼方法選用

類別性質建議編碼關鍵理由 / 風險
Ordinal Variables(有序,教育程度 / VIP 等級)Label Encoding整數保留順序資訊;空間小
Nominal Variables(無序,城市 / 顏色)One-hot Encoding不引入順序誤解;但 High Cardinality 維度爆炸
High Cardinality + 與目標高相關(廣告來源 / 商品 ID)Target Encoding保留目標相關性、不爆維;需防目標洩漏 / 過擬合(交叉驗證)

7.4特徵選擇 vs 降維

面向特徵選擇(Feature Selection)降維(Dimensionality Reduction)
操作對象原始特徵中篩選子集高維特徵空間轉換為低維空間
是否創造新特徵不創造,只「選擇」會產生新的低維表示(主成分 / embedding)
代表方法Filter / Wrapper / Embedded(RFE、Lasso、Ridge)PCA / LDA / t-SNE·UMAP / SVD
解釋性原欄位意義保留主成分是線性組合,可解釋性下降

7.5四大降維法對照

方法類型目標 / 原理主用途
PCA線性 / 無監督最大化資料變異方向視覺化、雜訊過濾、建模加速
LDA線性 / 有監督(用類別)最大化類間差異、最小化類內變異分類問題
t-SNE / UMAP非線性保留鄰近關係視覺化探索;不適合做下游預測建模
SVD矩陣分解分解為奇異值 + 奇異向量文字分析(LSA)、推薦系統

7.6四型態資料增強對照

型態方法關鍵詞案例
Image翻轉 / 旋轉 / 裁剪 / 縮放 / 色彩人臉辨識、醫學影像
Text同義字替換 / 隨機插入 / 刪除 / 交換情感分析、主題分類、對話模型
Time-series噪聲 / Scaling, Jittering / 窗口裁切設備故障預測、股市趨勢
TabularSMOTE(合成少數類過採樣)詐欺偵測、疾病診斷(不平衡)

7.7模型對資料品質敏感度

模型缺值 / 異常值容忍需要 Scaling類別編碼陷阱
樹模型(XGBoost / RF)高(自動處理)不需要對標籤編碼敏感(Nominal 誤用會被誤導順序)
線性模型敏感需要注意尺度與共線性
SVM敏感需要核函數需特徵尺度一致
KNN(距離式)敏感需要(單位一致性)維度詛咒問題
神經網路敏感(容易訓練不穩)需要
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23301 考前複習筆記 · v1.0(2026-05 表格化精簡版)