L23301數據準備與特徵工程

L23301 數據準備與特徵工程

2資料清理（5 個子節）

建模前的必要步驟 — 確保資料具備正確性 / 一致性 / 完整性

2.1缺失值處理（Missing Value）

來源	資料缺失（Missing Value）三大來源
三大來源	感測失效 / 人工遺漏 / 系統錯誤

處理方式	適用情境 / 子方法	備註
刪除法（Deletion）	當缺失比例極低、樣本數充足、且缺失分佈無偏時，直接刪除含缺值的欄位或列	避免導入不確定性
填補法（Imputation）	① 均值 / 中位數 / 眾數填補	數值或類別型欄位通用；方法簡單但可能降低變異性或產生偏差
	② 相似樣本填補（Hot Deck、K 最近鄰（KNN）填補）	依特徵相似度補全遺失值
	③ 預測模型填補（迴歸 / 分類模型）	適用於特徵間具有高度相關性時
	④ 缺失指標編碼	新增欄位標示是否缺失，有助模型學習隱含資訊，常見於樹模型

2.2異常值偵測與處理（Outlier Detection & Handling）

來源	輸入錯誤 / 資料錯置 / 極端觀測 → 對模型參數與分佈估計有顯著影響

偵測方法（3 類）	說明	關鍵詞
統計方法	界定明顯偏離的觀測值	Z 分數（Z-score）、四分位距（IQR）
視覺化分析	輔助觀察極端點或非典型趨勢	箱型圖、散佈圖、時間序列圖
機器學習方法	偵測高維資料中的異常	Isolation Forest、Local Outlier Factor（LOF）

處理策略（3 類）	說明
移除	在可確認錯誤輸入時直接刪除
截尾與轉換	將值限制於上下邊界內；或進行對數、Box-Cox 等轉換
標記保留	在異常值本身具有預測價值（如欺詐偵測）時保留，並作為特徵輸入

2.3重複樣本與資料一致性檢查

情境	內容
三大來源	系統重複寫入 / 資料整合錯誤 / 缺少唯一辨識碼 → 同一觀察單位在資料集中多次出現
重複資料偵測	透過主鍵比對或欄位相似度判斷；目的是避免訓練集被特定樣本主導
單位與格式標準化	統一數據單位（如公克 ↔ 公斤）、時間格式、類別值（如「male」「男」）→ 確保欄位一致性

2.4資料型別轉換與欄位格式調整

操作	說明
類型轉換	確保數值型與類別型資料正確標示，以利後續特徵工程與模型處理（類別編碼、標準化等）
時間資料解析	將日期時間轉換為：① 時間戳 ② 週期性變數（星期幾、月份）③ 時間差計算 → 有助時間序列建模

2.5清理流程的策略考量

面向	內容
模型對資料品質的敏感度差異	樹模型（XGBoost、Random Forest）	對缺值與異常值容忍度高，能自動處理部分遺失資訊
模型對資料品質的敏感度差異	線性模型 / 神經網路	對輸入較為敏感，需特別注意缺值補全與特徵正規化，否則容易訓練不穩或結果偏誤
建立資料處理紀錄與流程可追溯性（Data Lineage）	所有清理動作應具備明確記錄	欄位處理邏輯 → 填補方法 → 異常值調整依據
	確保資料處理流程	可被還原、驗證與持續維護
	有助 / 符合	模型開發過程的透明度與重現性；資料治理與法規合規的最佳實務

3特徵選擇與降維方法

3 類選擇法 + 4 大降維法 — 選擇不創造新特徵 vs 降維轉換到新空間

3.1特徵選擇 3 大方法（Filter / Wrapper / Embedded）

方法	原理 / 代表手段	優點	限制
Filter 方法（過濾法）	透過統計量或相關係數，獨立於模型之外快速篩選；常用：皮爾森相關係數、卡方檢定（Chi-square Test）、ANOVA 檢定	速度快、不依賴特定模型	無法考慮特徵間交互作用
Wrapper 方法（包裝法）	使用模型表現（準確率 / F1-score）作為標準；採遞迴特徵消除（Recursive Feature Elimination, RFE）或前向 / 後向選擇	精確考量特徵互動效果	計算成本高，可能過度擬合
Embedded 方法（嵌入法）	在模型訓練過程中內建特徵選擇機制；例如決策樹模型的重要性分析、Lasso、Ridge 等正則化方法	建模過程中同時完成特徵選擇	需特定模型或算法支援，結果可能受模型超參數影響

3.2降維 4 大方法（PCA / LDA / t-SNE·UMAP / SVD）

方法	類型 / 目標	應用
主成分分析（Principal Component Analysis, PCA）	線性變換，找出能最大化資料變異的方向，並以這些主成分重構資料	廣泛用於視覺化、雜訊過濾與建模加速
線性判別分析（Linear Discriminant Analysis, LDA）	同為線性降維，但以最大化類間差異、最小化類內變異為目標	適用於分類問題
t-SNE、UMAP 等非線性降維方法	可保留高維資料在低維空間中的鄰近關係	常用於視覺化探索；不適合直接用於預測建模
奇異值分解（Singular Value Decomposition, SVD）	矩陣分解	廣泛應用於文字分析（如 LSA）、推薦系統等任務

4特徵轉換與資料標準化

4 子節 — 尺度 / 分佈 / 類別 / 時間週期四個面向

4.1資料尺度調整（Scaling）— Min-Max / Z-score / Robust

方法	計算邏輯 / 目標分佈	優點	限制
Min-Max Normalization （最小 - 最大正規化）	將數值線性縮放至 0～1 區間	保留原始變數的分佈比例，易於解釋與視覺化	對極端值敏感，異常值會壓縮其他數值的縮放範圍
Z-score Standardization （Z 分數標準化）	將數值轉換為平均值為 0、標準差為 1 的常態分佈	適用於符合常態分佈的資料，保留原始形狀與相對位置	對極端值仍具敏感性；若分佈偏態則標準化結果偏移
Robust Scaling （穩健標準化）	使用中位數與四分位距（IQR）進行縮放	對極端值具高度抵抗性；適用於偏態或含離群值的情境	轉換後資料不保證符合任何標準分佈，可能影響部分建模假設

4.2分佈轉換（Transformation）— Log / Sqrt / Box-Cox·Yeo-Johnson

方法	適用情境	備註
對數轉換（Log Transform）	常用於處理右偏分佈，降低極端值影響	典型應用：收入、銷售額
平方根 / 立方根轉換	溫和壓縮變異性，適用中度偏態資料	—
Box-Cox / Yeo-Johnson 轉換	自動尋找最適指數轉換參數（λ），將資料近似常態化	線性迴歸等假設常態分佈的模型受益最大

4.3類別資料處理（Categorical Encoding）— Label / One-hot / Target

編碼方法	規則 / 範例	適用情境	優點	風險 / 限制
Label Encoding （標籤編碼）	每個類別對應一個整數編號。例：「小學」→ 0、「高中」→ 1、「大學」→ 2	類別具明確順序關係（Ordinal Variables），如教育程度、服務等級（Basic / Premium / VIP）	轉換快速、佔用空間小	若誤用於無序類別（Nominal Variables），模型可能誤解為數值之間具有數學意義
One-hot Encoding （獨熱編碼）	為每個類別新增一個欄位，該類別為 1、其餘為 0。例：「紅 / 藍 / 綠」→ `is_red`、`is_blue`、`is_green`	無序類別變數（城市名稱、產品類型）	保留類別的完整資訊，不引入順序誤解	High Cardinality（高基數）時大幅增加特徵維度，造成記憶體消耗與模型訓練延遲
Target Encoding （目標編碼 / 平均編碼）	以類別在目標變數上的統計量（平均值、中位數、轉換率）取代。例：每個「廣告來源」用該來源的平均轉換率作為新特徵	高基數類別變數，且類別與目標變數具高度關聯	保留目標相關資訊，不造成維度爆炸	有目標洩漏與過擬合風險，需交叉驗證或平滑化

4.4時間與週期性資料轉換

手法	說明
拆解時間欄位為結構化特徵	原始時間戳記可分解為「年、月、日、星期幾、時段」等，這些元素往往與目標變數具有潛在關聯（例如銷售高峰常出現在假日或下班時段）
建構週期性特徵表示（sin / cos 編碼）	為保留時間的「週期性結構」（如一週七天的循環），對週期性欄位（如星期幾、月份）使用三角函數 sin / cos 轉換，保留相鄰關係（例：星期日 ↔ 星期一、五月 ↔ 六月距離相近）

5資料增強（Data Augmentation）

4 種資料型態 × 對應增強方法 + 應用案例

資料型態	增強方法	應用案例
圖像資料增強（Image Augmentation）	隨機翻轉、旋轉、裁剪、縮放、色彩變換	影像辨識模型訓練（人臉辨識、醫學影像分析）
文字資料增強（Text Augmentation）	同義字替換、隨機插入、隨機刪除、隨機交換字詞位置	情感分析、主題分類、對話模型訓練
時序資料增強（Time-series Augmentation）	增加噪聲、局部時段調整（Scaling, Jittering）、窗口裁切	設備故障預測、股市趨勢分析
表格式資料增強（Tabular Data Augmentation）	SMOTE（Synthetic Minority Oversampling Technique）增加稀少樣本	不平衡資料分類問題（詐欺偵測、疾病診斷）

6特徵工程策略

不是套工具 — 是結合資料理解、領域知識與建模目標的決策過程

策略脈絡	具體做法
① 依任務類型設計特徵	分類任務偏好具離散分群能力的特徵（類別指標、區間編碼）；迴歸任務偏好與數值趨勢密切相關的連續特徵
② 依模型性質調整特徵處理	線性模型需特別注意尺度與共線性；樹模型對類別編碼敏感，避免使用標籤編碼造成誤解；距離式模型（如 KNN）需保證特徵間單位一致性
③ 探索資料中的隱含結構	合成：將原始欄位進行合成（如「單價 × 數量」生成總價）；統計聚合：生成群體行為特徵（如「使用者在過去 7 天的點擊次數」）
④ 考慮時間性與序列關聯	提取滯後值（lag）、移動平均（rolling mean）等序列特徵；加入時間間隔、事件次數等動態指標

7跨章關鍵對照

高頻混淆題型 — 一表壓平

7.1缺失值四子方法 vs 異常值三策略

面向	缺失值（4 子方法）	異常值（3 處理策略）
定義	資料缺失（Missing Value）	Outlier Detection & Handling
子方法	① 均值/中位數/眾數 ② 相似樣本（Hot Deck / KNN）③ 預測模型 ④ 缺失指標編碼	① 移除 ② 截尾與轉換（對數 / Box-Cox）③ 標記保留（欺詐偵測）
進階偵測	—	Z-score / IQR / Isolation Forest / LOF

7.2三大 Scaling 對極端值反應

面向	Min-Max	Z-score	Robust
目標	0～1 區間	平均 0、標準差 1	中位數 + IQR
對極端值	敏感	仍敏感	抵抗性高
常態分佈	不保證	保留原形狀	不保證（可能影響建模假設）

7.3三大編碼方法選用

類別性質	建議編碼	關鍵理由 / 風險
Ordinal Variables（有序，教育程度 / VIP 等級）	Label Encoding	整數保留順序資訊；空間小
Nominal Variables（無序，城市 / 顏色）	One-hot Encoding	不引入順序誤解；但 High Cardinality 維度爆炸
High Cardinality + 與目標高相關（廣告來源 / 商品 ID）	Target Encoding	保留目標相關性、不爆維；需防目標洩漏 / 過擬合（交叉驗證）

7.4特徵選擇 vs 降維

面向	特徵選擇（Feature Selection）	降維（Dimensionality Reduction）
操作對象	從原始特徵中篩選子集	把高維特徵空間轉換為低維空間
是否創造新特徵	不創造，只「選擇」	會產生新的低維表示（主成分 / embedding）
代表方法	Filter / Wrapper / Embedded（RFE、Lasso、Ridge）	PCA / LDA / t-SNE·UMAP / SVD
解釋性	原欄位意義保留	主成分是線性組合，可解釋性下降

7.5四大降維法對照

方法	類型	目標 / 原理	主用途
PCA	線性 / 無監督	最大化資料變異方向	視覺化、雜訊過濾、建模加速
LDA	線性 / 有監督（用類別）	最大化類間差異、最小化類內變異	分類問題
t-SNE / UMAP	非線性	保留鄰近關係	視覺化探索；不適合做下游預測建模
SVD	矩陣分解	分解為奇異值 + 奇異向量	文字分析（LSA）、推薦系統

7.6四型態資料增強對照

型態	方法關鍵詞	案例
Image	翻轉 / 旋轉 / 裁剪 / 縮放 / 色彩	人臉辨識、醫學影像
Text	同義字替換 / 隨機插入 / 刪除 / 交換	情感分析、主題分類、對話模型
Time-series	噪聲 / Scaling, Jittering / 窗口裁切	設備故障預測、股市趨勢
Tabular	SMOTE（合成少數類過採樣）	詐欺偵測、疾病診斷（不平衡）

7.7模型對資料品質敏感度

模型	缺值 / 異常值容忍	需要 Scaling	類別編碼陷阱
樹模型（XGBoost / RF）	高（自動處理）	不需要	對標籤編碼敏感（Nominal 誤用會被誤導順序）
線性模型	敏感	需要	注意尺度與共線性
SVM	敏感	需要	核函數需特徵尺度一致
KNN（距離式）	敏感	需要（單位一致性）	維度詛咒問題
神經網路	敏感（容易訓練不穩）	需要	—

AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23301 考前複習筆記 · v1.0（2026-05 表格化精簡版）