L21301 數據準備與模型選擇
2資料收集與清理
資料來源(內部 + 外部)+ 清理 + 品質檢核
2.A.1內部資料來源(5 類)
| 類型 | 內容 | 用途 |
|---|---|---|
| ① ERP Enterprise Resource Planning | 銷售、庫存、採購、財務等企業內部核心業務系統 | 公司營運的基礎資料來源 |
| ② CRM Customer Relationship Management | 顧客互動紀錄、服務歷程與回饋 | 客戶分群與行為預測 |
| ③ 機台資料 Machine Data | 生產機台、設備、工廠自動化系統 — 運轉狀態、操作參數、故障紀錄、維護歷程 | 製造業 — 生產排程優化、異常偵測、良率分析、預測保養;智慧製造(Smart Manufacturing)的關鍵資產 |
| ④ 使用者使用行為資料 | POS / Web/App 紀錄 / IoT 裝置 — 軟體使用路徑、功能點擊熱區、登入與停留時間 | SaaS 業者追蹤產品黏著度與使用效率;消費型產品做功能優化與升級設計 |
| ⑤ 內部報表與流程紀錄 | 作業流程、內部稽核、法遵紀錄 | 金融、醫療、政府等高度管制產業的風險管理與合規審查 |
2.A.2外部資料來源(3 類)
| 類型 | 內容 | 用途 / 注意 |
|---|---|---|
| ① 開放資料 | 政府開放資料平台、社群媒體 API、氣象機構、商業資料平台 | 以程式介面自動擷取最新資料;應用於政策分析、市場研究、風險預測 |
| ② Web Scraping 網頁爬蟲 | 從網站自動擷取網頁內容 — 價格資訊、評論資料、新聞文章 | 市場競爭分析、輿情監測、文本探勘;需特別注意網站條款與資料使用合規性 |
| ③ 商業資料庫與數據供應商 | 如 Refinitiv、Statista、Experian 等專業資料平台 | 授權購買的市場資料、財務資料、信用評等;金融投資、企業徵信、產業趨勢分析 |
2.B.1三大清理任務
| 任務 | 常見方法 / 工具 | 備註 |
|---|---|---|
| ① 缺失值 Missing Values | 平均數 / 中位數填補(Mean/Median Imputation) 前後值填補(Forward/Backward Fill) 插值法(Interpolation) | 若缺失比例過高,則應考慮刪除該欄位或使用模型推估填補 |
| ② 重複值 Duplicate Values | 針對主鍵欄位(如顧客編號、交易編號)檢查;使用 pandas / Spark DataFrame 的 .drop_duplicates() 方法 | 去重處理 |
| ③ 異常值 Outliers | 統計方法:Z-score、IQR(Interquartile Range) 機器學習模型:Isolation Forest、LOF(Local Outlier Factor) | 異常值檢測與處理 |
2.B.2五大資料品質評估指標
| 指標 | 定義 | 檢核要點 |
|---|---|---|
| ① 完整性 Completeness | 資料是否完整 | 是否缺少關鍵欄位 |
| ② 一致性 Consistency | 資料欄位間邏輯是否一致 | 像是年齡欄位不應為負數 |
| ③ 準確性 Accuracy | 資料值是否準確 | 反映真實世界的狀況 |
| ④ 即時性 Timeliness | 資料是否是最新的 | 尤其是動態變化的數據 |
| ⑤ 唯一性 Uniqueness | 資料是否有重複或衝突 | 特別是主鍵欄位 |
3資料標注與特徵工程
特徵處理流程 / 特徵選擇與降維 / 自動特徵工程
3.A.1數值特徵轉換
| 方法 | 定義 | 適用場景 |
|---|---|---|
| 正規化 Normalization | 將數值轉換至 0 到 1 之間;常見方法是將最小值轉換為 0、最大值轉換為 1 | 避免由於不同特徵的單位差異造成模型學習偏誤 |
| 標準化 Standardization | 將數值轉換為平均數為 0、標準差為 1 的分布;通常使用 Z-score | 需要計算梯度的模型(如線性迴歸、SVM 支持向量機)特別有效 |
3.A.2類別特徵處理
| 方法 | 做什麼 | 適用 |
|---|---|---|
| 獨熱編碼 One-hot Encoding | 將類別轉為二進位欄位 | 無序分類變數(如紅 / 黃 / 藍) |
| 標籤編碼 Label Encoding | 將類別轉為整數 | 有序類別(如高中 → 學士 → 碩士) |
3.A.3時間與文字特徵
| 類型 | 做什麼 | 方法 |
|---|---|---|
| 時間戳處理 | 從時間戳中擷取週期性特徵 | 星期幾 / 上午-下午 / 工作日-週末 |
| 文字處理 | 從文字欄位抽取關鍵詞,或轉換為數值形式 | TF-IDF(Term Frequency-Inverse Document Frequency) 詞向量(Word Embeddings) |
3.B.1特徵選擇三法
| 方法 | 原理 | 用途 |
|---|---|---|
| 資訊增益 Information Gain | 衡量特徵在預測中帶來的資訊量 | 挑出對預測最有用的特徵 |
| 皮爾森相關係數 Pearson Correlation Coefficient | 衡量數值特徵之間的線性相關性 | 剔除高度相關的冗餘特徵 |
| L1 正則化 Lasso | 透過懲罰模型複雜度來選擇最具影響力的特徵 | 常用於線性模型中 |
3.B.2降維三方法
| 方法 | 原理 | 用途 |
|---|---|---|
| PCA 主成分分析 | 找到資料中方差最大的方向來減少維度,保留大部分資料訊息 | 適用於高維資料 — 減少計算負擔、提高模型效能 |
| t-SNE | 非線性降維 | 常用於視覺化資料分佈,便於人為觀察特徵空間的分類趨勢 |
| UMAP | 非線性降維(流形學習) | 同上 — 視覺化高維資料分佈 |
3.C.1AutoML 平台與五大核心功能
| 核心功能 | 說明 |
|---|---|
| ① 自動特徵創建 | 透過資料轉換、組合等方式生成新特徵 — 將日期拆分為年/月/日/星期、基於現有特徵做加法/乘法/對數轉換、多項式特徵、時間序列滯後特徵 |
| ② 自動篩選有用特徵 | 透過隨機森林(Random Forest)或 L1 正則化(Lasso) 評估特徵貢獻,自動刪除冗餘或低貢獻特徵 |
| ③ 特徵組合與互動作用檢測 | 自動測試各特徵組合(Interaction)對預測結果的影響,發現隱藏關聯 |
| ④ 適應不同資料集 | 類別型自動選編碼方法(One-hot 或 Target Encoding);缺失資料自動選填補方式(均值 / 預測填補) |
| ⑤ 基於模型的反饋進行特徵選擇 | 不斷訓練和驗證多個模型,根據反饋自動調整特徵集 |
3.C.2AutoML 三大優勢
| 優勢 | 說明 |
|---|---|
| ① 加速資料科學流程 | 大幅縮短從原始資料到模型訓練的時間,資料科學家可專注於分析與優化模型本身 |
| ② 降低技術門檻 | 對機器學習知識較少的使用者也能完成高效的特徵工程與模型建構,促進更多業界 AI 應用 |
| ③ 高模型效能 | 快速評估大量特徵組合,找到最有助於提高模型性能的特徵,提升預測準確性 |
4模型選擇策略(六大模型類別)
A. 迴歸 / B. 分類 / C. 非監督 / D. 深度學習 / E. 強化式 / F. 生成式
4.A監督式學習 — 迴歸任務(Regression)
| 演算法 | 原理 | 特性 |
|---|---|---|
| ① 線性迴歸 Linear Regression | 建立自變量與因變量之間的線性關係 | 最簡單;適用於資料具有線性關係的情況 |
| ② 決策樹迴歸 Decision Tree Regression | 基於樹狀結構進行迴歸預測 | 適用於非線性;解釋性強;可能過度擬合 |
| ③ 隨機森林迴歸 Random Forest Regression | 多棵決策樹的平均預測結果 | 提高準確度、減少過度擬合的風險 |
| ④ 梯度提升樹 Gradient Boosting Regression | 集成學習,多次迭代提升模型準確度 | 對複雜資料集表現良好 |
4.B監督式學習 — 分類任務(Classification)
| 演算法 | 原理 | 特性 |
|---|---|---|
| ① 邏輯迴歸 Logistic Regression | 透過 Sigmoid 函數將預測值轉為機率 | 二元或多元分類;特徵與類別之間線性可分的情況 |
| ② 決策樹分類 Decision Tree | 以條件分支的方式進行分類 | 解釋性良好;非線性與混合型特徵;容易過度擬合 |
| ③ 隨機森林分類 Random Forest | 結合多棵決策樹進行分類投票 | 提升準確度、降低過擬合;適合高維度與複雜結構資料 |
| ④ 支持向量機 SVM | 尋找最佳超平面以分隔不同類別 | 高維資料或邊界清晰表現良好;核函數可處理非線性 |
| ⑤ K 最近鄰 KNN(K-Nearest Neighbors) | 根據鄰近資料的類別進行預測 | 簡單直觀;對資料量與維度敏感;適合小型資料集 |
| ⑥ 梯度提升樹分類 Gradient Boosting | 集成學習,逐步修正錯誤 | 多數分類問題中表現穩定優異 |
4.C非監督式學習(Unsupervised Learning)
| 演算法 | 原理 | 特性 |
|---|---|---|
| ① K-means K-means Clustering | 將資料點分配至最接近的中心點(Cluster Centroid),劃分出 K 個群集 | 簡單高效;須事先給定 K 值;對初始點與異常值敏感 |
| ② DBSCAN Density-Based Spatial Clustering of Applications with Noise | 基於密度的分群,能發現任意形狀的群集,自動標離群點為雜訊(Noise) | 不需預先給定群集數;適合含雜訊或密度變化明顯的資料 |
| ③ 階層式分群 Hierarchical Clustering | 建立樹狀層級關係(Dendrogram),自上而下或自下而上逐層劃分 | 無需指定群集數;適合探索資料分群層級結構 |
| ④ PCA Principal Component Analysis | 常見的降維方法,將原始變數轉換成若干主成分以保留最大變異 | 用於資料視覺化與特徵壓縮 |
4.D深度學習(Deep Learning)
| 架構 | 處理 / 機制 | 常用於 |
|---|---|---|
| ① CNN 卷積神經網路(Convolutional Neural Network) | 處理圖像資料與空間特徵萃取;多層卷積 + 池化 + 非線性激活函數;自動辨識局部特徵並保留位置不變性 | 人臉辨識、工業檢測、自動駕駛 |
| ② RNN 遞迴神經網路(Recurrent Neural Network) | 處理時間序列(語音、文字、感測器資料);能記住前一步的輸出資訊;傳統 RNN 面臨長期依賴問題,實務上多採用 LSTM(長短期記憶)或 GRU(門控遞迴單元) | 語音 / 文字 / 時序感測 |
| ③ Transformer | 透過自注意力(Self-Attention)機制建構語意關聯;NLP 領域主流;代表 BERT(雙向編碼器表示)、GPT(生成式預訓練轉換器) | 語意理解、生成式任務、跨模態學習 |
4.E強化式學習(Reinforcement Learning, RL)
| 演算法 | 原理 | 適用 / 備註 |
|---|---|---|
| ① Q-learning | 基於值函數,透過表格或近似函數學習每個狀態-行為對的預期回報(Q 值),根據最大 Q 值選擇動作 | 適用於離散動作空間與較小的環境 |
| ② DQN Deep Q Network | 結合深度學習與 Q-learning — 用深度神經網路近似 Q 函數,能處理高維感知輸入(如圖像) | Atari 遊戲中 AI 打破人類紀錄的重要里程碑 |
| ③ Policy Gradient 策略梯度 | 直接學習從狀態到行為的機率分佈,最大化期望報酬來更新策略 | 代表方法:REINFORCE、Actor-Critic |
| ④ PPO Proximal Policy Optimization 近端策略優化 | 策略梯度方法的改良版本,平衡「策略更新幅度」與「學習效率」,避免過大變動導致不穩定 | 由 OpenAI 提出;廣泛應用於遊戲、機器人操作 |
4.F生成式模型(Generative Models)
| 演算法 | 機制 | 強項 / 痛點 |
|---|---|---|
| ① GANs 生成對抗網路(Generative Adversarial Networks) | 兩個神經網路(生成器與判別器)對抗訓練 — 生成器產生偽造樣本、判別器判斷真偽,雙方互相提升 | 強:圖像生成、人臉合成、風格轉換 弱:訓練不穩定、可能出現模式崩潰(Mode Collapse) |
| ② VAE 變分自編碼器(Variational Autoencoder) | 最大化資料潛在機率分佈下的下界進行訓練 | 強:潛在空間結構良好、適合異常偵測、語音重建、隱含變數建模 弱:生成樣本相對平滑,缺乏銳利細節 |
| ③ Diffusion Models 擴散模型 | 透過逐步加入與移除噪聲的方式訓練,學習資料轉換的反向過程 | 強:生成圖像品質明顯優勢 — 代表 DALL·E 2、Stable Diffusion 弱:生成速度慢、運算成本高 |
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L21301 考前複習筆記 · v1.0(2026-05-03)