L21301數據準備與模型選擇

0%

L21301 數據準備與模型選擇

2資料收集與清理

資料來源（內部 + 外部）+ 清理 + 品質檢核

2.A.1內部資料來源（5 類）

類型	內容	用途
① ERP Enterprise Resource Planning	銷售、庫存、採購、財務等企業內部核心業務系統	公司營運的基礎資料來源
② CRM Customer Relationship Management	顧客互動紀錄、服務歷程與回饋	客戶分群與行為預測
③ 機台資料 Machine Data	生產機台、設備、工廠自動化系統 — 運轉狀態、操作參數、故障紀錄、維護歷程	製造業 — 生產排程優化、異常偵測、良率分析、預測保養；智慧製造（Smart Manufacturing）的關鍵資產
④ 使用者使用行為資料	POS / Web/App 紀錄 / IoT 裝置 — 軟體使用路徑、功能點擊熱區、登入與停留時間	SaaS 業者追蹤產品黏著度與使用效率；消費型產品做功能優化與升級設計
⑤ 內部報表與流程紀錄	作業流程、內部稽核、法遵紀錄	金融、醫療、政府等高度管制產業的風險管理與合規審查

2.A.2外部資料來源（3 類）

類型	內容	用途 / 注意
① 開放資料	政府開放資料平台、社群媒體 API、氣象機構、商業資料平台	以程式介面自動擷取最新資料；應用於政策分析、市場研究、風險預測
② Web Scraping 網頁爬蟲	從網站自動擷取網頁內容 — 價格資訊、評論資料、新聞文章	市場競爭分析、輿情監測、文本探勘；需特別注意網站條款與資料使用合規性
③ 商業資料庫與數據供應商	如 Refinitiv、Statista、Experian 等專業資料平台	授權購買的市場資料、財務資料、信用評等；金融投資、企業徵信、產業趨勢分析

2.B.1三大清理任務

任務	常見方法 / 工具	備註
① 缺失值 Missing Values	平均數 / 中位數填補（Mean/Median Imputation）前後值填補（Forward/Backward Fill）插值法（Interpolation）	若缺失比例過高，則應考慮刪除該欄位或使用模型推估填補
② 重複值 Duplicate Values	針對主鍵欄位（如顧客編號、交易編號）檢查；使用 pandas / Spark DataFrame 的 `.drop_duplicates()` 方法	去重處理
③ 異常值 Outliers	統計方法：Z-score、IQR（Interquartile Range）機器學習模型：Isolation Forest、LOF（Local Outlier Factor）	異常值檢測與處理

2.B.2五大資料品質評估指標

指標	定義	檢核要點
① 完整性 Completeness	資料是否完整	是否缺少關鍵欄位
② 一致性 Consistency	資料欄位間邏輯是否一致	像是年齡欄位不應為負數
③ 準確性 Accuracy	資料值是否準確	反映真實世界的狀況
④ 即時性 Timeliness	資料是否是最新的	尤其是動態變化的數據
⑤ 唯一性 Uniqueness	資料是否有重複或衝突	特別是主鍵欄位

3資料標注與特徵工程

特徵處理流程 / 特徵選擇與降維 / 自動特徵工程

3.A.1數值特徵轉換

方法	定義	適用場景
正規化 Normalization	將數值轉換至 0 到 1 之間；常見方法是將最小值轉換為 0、最大值轉換為 1	避免由於不同特徵的單位差異造成模型學習偏誤
標準化 Standardization	將數值轉換為平均數為 0、標準差為 1 的分布；通常使用 Z-score	需要計算梯度的模型（如線性迴歸、SVM 支持向量機）特別有效

3.A.2類別特徵處理

方法	做什麼	適用
獨熱編碼 One-hot Encoding	將類別轉為二進位欄位	無序分類變數（如紅 / 黃 / 藍）
標籤編碼 Label Encoding	將類別轉為整數	有序類別（如高中 → 學士 → 碩士）

3.A.3時間與文字特徵

類型	做什麼	方法
時間戳處理	從時間戳中擷取週期性特徵	星期幾 / 上午-下午 / 工作日-週末
文字處理	從文字欄位抽取關鍵詞，或轉換為數值形式	TF-IDF（Term Frequency-Inverse Document Frequency）詞向量（Word Embeddings）

3.B.1特徵選擇三法

方法	原理	用途
資訊增益 Information Gain	衡量特徵在預測中帶來的資訊量	挑出對預測最有用的特徵
皮爾森相關係數 Pearson Correlation Coefficient	衡量數值特徵之間的線性相關性	剔除高度相關的冗餘特徵
L1 正則化 Lasso	透過懲罰模型複雜度來選擇最具影響力的特徵	常用於線性模型中

3.B.2降維三方法

方法	原理	用途
PCA 主成分分析	找到資料中方差最大的方向來減少維度，保留大部分資料訊息	適用於高維資料 — 減少計算負擔、提高模型效能
t-SNE	非線性降維	常用於視覺化資料分佈，便於人為觀察特徵空間的分類趨勢
UMAP	非線性降維（流形學習）	同上 — 視覺化高維資料分佈

3.C.1AutoML 平台與五大核心功能

核心功能	說明
① 自動特徵創建	透過資料轉換、組合等方式生成新特徵 — 將日期拆分為年/月/日/星期、基於現有特徵做加法/乘法/對數轉換、多項式特徵、時間序列滯後特徵
② 自動篩選有用特徵	透過隨機森林（Random Forest）或 L1 正則化（Lasso）評估特徵貢獻，自動刪除冗餘或低貢獻特徵
③ 特徵組合與互動作用檢測	自動測試各特徵組合（Interaction）對預測結果的影響，發現隱藏關聯
④ 適應不同資料集	類別型自動選編碼方法（One-hot 或 Target Encoding）；缺失資料自動選填補方式（均值 / 預測填補）
⑤ 基於模型的反饋進行特徵選擇	不斷訓練和驗證多個模型，根據反饋自動調整特徵集

3.C.2AutoML 三大優勢

優勢	說明
① 加速資料科學流程	大幅縮短從原始資料到模型訓練的時間，資料科學家可專注於分析與優化模型本身
② 降低技術門檻	對機器學習知識較少的使用者也能完成高效的特徵工程與模型建構，促進更多業界 AI 應用
③ 高模型效能	快速評估大量特徵組合，找到最有助於提高模型性能的特徵，提升預測準確性

4模型選擇策略（六大模型類別）

A. 迴歸 / B. 分類 / C. 非監督 / D. 深度學習 / E. 強化式 / F. 生成式

4.A監督式學習 — 迴歸任務（Regression）

演算法	原理	特性
① 線性迴歸 Linear Regression	建立自變量與因變量之間的線性關係	最簡單；適用於資料具有線性關係的情況
② 決策樹迴歸 Decision Tree Regression	基於樹狀結構進行迴歸預測	適用於非線性；解釋性強；可能過度擬合
③ 隨機森林迴歸 Random Forest Regression	多棵決策樹的平均預測結果	提高準確度、減少過度擬合的風險
④ 梯度提升樹 Gradient Boosting Regression	集成學習，多次迭代提升模型準確度	對複雜資料集表現良好

4.B監督式學習 — 分類任務（Classification）

演算法	原理	特性
① 邏輯迴歸 Logistic Regression	透過 Sigmoid 函數將預測值轉為機率	二元或多元分類；特徵與類別之間線性可分的情況
② 決策樹分類 Decision Tree	以條件分支的方式進行分類	解釋性良好；非線性與混合型特徵；容易過度擬合
③ 隨機森林分類 Random Forest	結合多棵決策樹進行分類投票	提升準確度、降低過擬合；適合高維度與複雜結構資料
④ 支持向量機 SVM	尋找最佳超平面以分隔不同類別	高維資料或邊界清晰表現良好；核函數可處理非線性
⑤ K 最近鄰 KNN（K-Nearest Neighbors）	根據鄰近資料的類別進行預測	簡單直觀；對資料量與維度敏感；適合小型資料集
⑥ 梯度提升樹分類 Gradient Boosting	集成學習，逐步修正錯誤	多數分類問題中表現穩定優異

4.C非監督式學習（Unsupervised Learning）

演算法	原理	特性
① K-means K-means Clustering	將資料點分配至最接近的中心點（Cluster Centroid），劃分出 K 個群集	簡單高效；須事先給定 K 值；對初始點與異常值敏感
② DBSCAN Density-Based Spatial Clustering of Applications with Noise	基於密度的分群，能發現任意形狀的群集，自動標離群點為雜訊（Noise）	不需預先給定群集數；適合含雜訊或密度變化明顯的資料
③ 階層式分群 Hierarchical Clustering	建立樹狀層級關係（Dendrogram），自上而下或自下而上逐層劃分	無需指定群集數；適合探索資料分群層級結構
④ PCA Principal Component Analysis	常見的降維方法，將原始變數轉換成若干主成分以保留最大變異	用於資料視覺化與特徵壓縮

4.D深度學習（Deep Learning）

架構	處理 / 機制	常用於
① CNN 卷積神經網路（Convolutional Neural Network）	處理圖像資料與空間特徵萃取；多層卷積 + 池化 + 非線性激活函數；自動辨識局部特徵並保留位置不變性	人臉辨識、工業檢測、自動駕駛
② RNN 遞迴神經網路（Recurrent Neural Network）	處理時間序列（語音、文字、感測器資料）；能記住前一步的輸出資訊；傳統 RNN 面臨長期依賴問題，實務上多採用 LSTM（長短期記憶）或 GRU（門控遞迴單元）	語音 / 文字 / 時序感測
③ Transformer	透過自注意力（Self-Attention）機制建構語意關聯；NLP 領域主流；代表 BERT（雙向編碼器表示）、GPT（生成式預訓練轉換器）	語意理解、生成式任務、跨模態學習

4.E強化式學習（Reinforcement Learning, RL）

演算法	原理	適用 / 備註
① Q-learning	基於值函數，透過表格或近似函數學習每個狀態-行為對的預期回報（Q 值），根據最大 Q 值選擇動作	適用於離散動作空間與較小的環境
② DQN Deep Q Network	結合深度學習與 Q-learning — 用深度神經網路近似 Q 函數，能處理高維感知輸入（如圖像）	Atari 遊戲中 AI 打破人類紀錄的重要里程碑
③ Policy Gradient 策略梯度	直接學習從狀態到行為的機率分佈，最大化期望報酬來更新策略	代表方法：REINFORCE、Actor-Critic
④ PPO Proximal Policy Optimization 近端策略優化	策略梯度方法的改良版本，平衡「策略更新幅度」與「學習效率」，避免過大變動導致不穩定	由 OpenAI 提出；廣泛應用於遊戲、機器人操作

4.F生成式模型（Generative Models）

演算法	機制	強項 / 痛點
① GANs 生成對抗網路（Generative Adversarial Networks）	兩個神經網路（生成器與判別器）對抗訓練 — 生成器產生偽造樣本、判別器判斷真偽，雙方互相提升	強：圖像生成、人臉合成、風格轉換弱：訓練不穩定、可能出現模式崩潰（Mode Collapse）
② VAE 變分自編碼器（Variational Autoencoder）	最大化資料潛在機率分佈下的下界進行訓練	強：潛在空間結構良好、適合異常偵測、語音重建、隱含變數建模弱：生成樣本相對平滑，缺乏銳利細節
③ Diffusion Models 擴散模型	透過逐步加入與移除噪聲的方式訓練，學習資料轉換的反向過程	強：生成圖像品質明顯優勢 — 代表 DALL·E 2、Stable Diffusion 弱：生成速度慢、運算成本高

AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L21301 考前複習筆記 · v1.0（2026-05-03）