L23202 常見機器學習演算法
2監督式學習 — 迴歸任務(5 法)
預測連續數值 — 自變數(特徵)→ 應變數(目標值)
2.1迴歸通用評估指標(教材鎖死 5 項)
| 指標 | 全名 / 公式概念 | 特性 |
|---|---|---|
| MSE | Mean Squared Error 平均平方誤差 | 對離群值敏感;數值越小越準 |
| RMSE | Root Mean Squared Error 均方根誤差 | MSE 開根號;單位與目標變數相同,更易解讀 |
| MAE | Mean Absolute Error 平均絕對誤差 | 誤差絕對值平均;對離群值較不敏感 |
| R² | 決定係數(Coefficient of Determination) | 模型解釋變異比例,範圍 0–1,越接近 1 越好 |
| 調整後 R² | Adjusted R-squared | 考慮自變數數量對模型複雜度的影響,適合比較不同複雜度模型 |
2.2線性迴歸(Linear Regression)
| 面向 | 內容 |
|---|---|
| 定義 | 最基礎、最常用的監督式學習方法之一,透過一條直線或多維超平面描述自變數與應變數的線性關係,找出最佳迴歸係數使誤差最小 |
| 模型公式 | y = β₀ + β₁x₁ + β₂x₂ + … + βₙxₙ + εβ₀ 截距 / βᵢ 各特徵迴歸係數 / ε 誤差項(隨機變動或噪聲) |
| 5 個假設 (教材鎖死) | ① 線性關係(Linearity) ② 誤差常態分佈(Normality of Errors)— 誤差項 ε 須符合常態分佈 ③ 變異數齊一性(Homoscedasticity)— 不同自變數取值下變異數相同 ④ 誤差獨立性(Independence of Errors) ⑤ 無多重共線性(No Multicollinearity) |
| 適用情境 | 預測連續型數值;變數間關係接近線性;需要可解釋性;資料規模不大、特徵數量適中 |
| 使用限制 | ① 對離群值敏感(少數極端值大幅影響係數) ② 無法捕捉非線性關係 ③ 多重共線性問題(自變數高度相關 → 係數不穩定) ④ 假設違反風險(模型假設不成立則預測失真) |
2.3Lasso 迴歸與嶺迴歸(L1 vs L2 正則化)
| 面向 | Lasso(L1) | Ridge 嶺迴歸(L2) |
|---|---|---|
| 全名 | Least Absolute Shrinkage and Selection Operator | Ridge Regression(嶺迴歸) |
| 正則化項 | L1:權重絕對值和 | L2:權重平方和 |
| Loss 公式 | Loss = Σ(yᵢ − ŷᵢ)² + λΣ|βⱼ| | Loss = Σ(yᵢ − ŷᵢ)² + λΣβⱼ² |
| 關鍵能力 | 可將部分係數縮減為零 → 特徵選擇(Feature Selection) | 防止過大係數,特別適合多重共線性嚴重的情況 |
| 獨家限制 | 變數高度相關時可能只保留其中一個;λ 不當會過度壓縮 → 欠擬合 | 不會壓縮為零 → 無法自動特徵選擇;無法直接簡化模型結構 |
| 共通項 | 內容 |
|---|---|
| 共通假設 | 與一般線性迴歸相同 5 個(線性 / 常態誤差 / 變異齊一 / 誤差獨立 / 無多重共線性) |
| 共通指標 | 同線性迴歸 5 個(MSE / RMSE / MAE / R² / 調整後 R²) |
| 共通適用 | ① 多重共線性 ② 高維資料(變數數量遠大於樣本數) ③ 防止過擬合 ④ 同時做特徵選擇(Lasso) ⑤ 預測精度比模型解釋度更重要 |
| 共通限制 | 對非線性關係仍無法建模;正則化係數 λ 需透過交叉驗證選擇,無法一次設定好 |
2.4支援向量迴歸 SVR(ε-tube)
| 面向 | 內容 |
|---|---|
| 定義 | SVR(Support Vector Regression)是 SVM 的迴歸延伸,在多維空間中尋找最能描述資料趨勢的超平面,使預測誤差落在允許範圍(ε-tube)內,同時將超出範圍的誤差最小化 |
| 關鍵特性 | 不追求最小化所有點的平方誤差,盡可能忽略誤差 < ε 的資料點,只關注誤差超過 ε 的點 → 提升對離群值的抵抗力 |
| 目標式 | min ½‖w‖² + C·Σ(ξᵢ + ξᵢ*)w 權重向量 / ξᵢ ξᵢ* 超過 ε 範圍外的誤差 / C 正則化(懲罰)參數 / ε 誤差容忍範圍 |
| 迴歸函數 | 線性:f(x) = w·x + b;非線性(核函數):f(x) = Σαᵢ·K(xᵢ, x) + b |
| 模型假設 | 假設較少;不強制線性關係(可用核函數映射);不需誤差常態分佈;對異常值具抵抗力;假設資料可分或近似可分 |
| 適用情境 | 非線性關係、中小資料規模、需對離群值具抵抗力 |
| 使用限制 | ① 計算複雜度高(隨樣本數平方增長) ② 參數設定複雜:C(懲罰)、ε(容忍)、核函數參數(RBF 的 γ) ③ 非線性核時不易解釋 ④ 不適合極大規模資料 |
2.5決策樹迴歸(Decision Tree Regressor)
| 面向 | 內容 |
|---|---|
| 定義 | 依輸入特徵不同取值,將資料不斷分割成更小的子區塊,並在每個葉節點上給出預測值(通常是該區塊內樣本的平均值) |
| 預測流程 | a. 從根節點出發,根據某特徵及其閾值將資料分成左右兩部分 b. 對每個子節點重複步驟 a,直到:最大深度 / 節點樣本數低於最小限制 / 變異度足夠小 c. 葉節點取所有樣本目標值的平均作為預測值 |
| 教材示例 | 若資料被分割至某葉節點,其中有 10 筆資料,目標值平均為 52.3,則所有落入此葉節點的資料預測值皆為 52.3 |
| 非參數假設 | 不需誤差常態分佈、變異數齊一性、考慮多重共線性、線性關係 |
| 適用情境 | 非線性關係或高階交互;需易解釋;類別型 + 數值型混合特徵;中小至中大資料 |
| 使用限制 | ① 容易過擬合(單棵樹) ② 模型不連續(預測為分段常數,跳躍) ③ 對資料微小變動敏感 ④ 高維時單棵樹表現有限 |
2.6集成式迴歸 — Random Forest Regressor(RF)
| 面向 | 內容 |
|---|---|
| 核心理念 | 集成式迴歸(Ensemble Regression)— 「群體智慧比單一模型更強大」。多模型不同角度學習同一資料,再整合,降低錯誤、減少過擬合、提升泛化能力 |
| RF 原理 | 建立多棵決策樹;每棵樹在不同隨機子樣本(Bootstrap Sample)上訓練;每次分裂節點時只隨機選取部分特徵;最終預測 = 所有樹的預測值平均 |
| 特點 | ① 抗過擬合能力強 ② 處理非線性、變數高階交互 ③ 可處理類別 + 數值混合特徵 ④ 計算特徵重要性,協助特徵篩選 ⑤ 中至大型資料集適用 ⑥ 訓練可並行運算 |
| 缺點 | ① 難以直觀解釋 → 黑箱模型 ② 模型體積大、記憶體需求高 ③ 預測速度比單棵樹慢(樹數量多時) |
2.7集成式迴歸 — Gradient Boosting Regressor(GBM)
| 面向 | 內容 |
|---|---|
| 核心概念 | 序列式集成,「逐步修正誤差」— 先訓練一棵簡單決策樹,計算預測殘差後,再訓練下一棵樹專門學習修正這些殘差。最終將多棵弱學習器(Weak Learners)加總 |
| 特點 | ① 精確度通常高於隨機森林,競賽常勝軍 ② 擅長複雜非線性與變數交互 ③ 可自訂損失函數 ④ 可透過樹的重要性分數解讀變數影響 ⑤ 可搭配早停(Early Stopping)機制減少過擬合 |
| 缺點 | ① 訓練比 RF 慢(樹多、樹深時更慢) ② 容易過擬合(學習率高或樹太深) ③ 超參數多:學習率 / 樹深 / 子樣本比例 ④ 深度高時不易解釋 |
2.8集成式迴歸 — XGBoost / LightGBM(GBDT 高效實作)
| 面向 | XGBoost(eXtreme Gradient Boosting) | LightGBM(Light Gradient Boosting Machine) |
|---|---|---|
| 分裂策略 | Level-wise(層級式生長) 同深度同時分裂所有葉子;橫向擴展 | Leaf-wise(葉子式生長) 優先分裂能帶來最大增益(max gain)的葉子;垂直生長,樹不一定均勻 |
| 加速核心 | 採用二階導數資訊(Hessian)加速最佳分裂點搜尋;Block 結構加速計算 | Histogram-based(直方圖算法)降低計算複雜度;大數據、大特徵數尤其高效 |
| 缺值處理 | 可自動學習缺失值走向 | 同樣內建缺值處理,避免額外前處理 |
| 正則化 | 引入 L1、L2 正則化抑制過擬合 | 提供多種正則化參數 |
| 特有缺點 | — | Leaf-wise 在小資料集易過擬合,需配合 max_depth 限制 |
| 共通特點 / 缺點 | 內容 |
|---|---|
| 共通特點 | 高運算效率;支援稀疏資料與缺值;可並行運算(多核 CPU/GPU);正則化控制;先進分裂策略;良好的特徵重要性分析 |
| 共通缺點 | ① 超參數複雜多元(learning_rate / max_depth / subsample / colsample_bytree) ② 解釋力有限(黑箱) ③ 記憶體需求仍高 ④ 輸出不平滑(分段函數,對需要平滑輸出的應用不理想) |
3監督式學習 — 分類任務(6 法)
預測離散類別結果 — 二元分類 / 多類別問題
3.1分類通用評估指標(教材鎖死 5 項)
| 指標 | 定義 |
|---|---|
| Accuracy 準確率 | 預測正確的比例 = 正確預測(正類 + 負類)/ 總樣本數 |
| Precision 精確率 | 預測為正類中,真正為正的比例 |
| Recall 召回率 | 真實為正類中,被正確預測為正的比例 |
| F1-score | Precision 與 Recall 的調和平均,用於衡量不平衡資料表現 |
| ROC-AUC | 衡量模型區分正、負類的能力,值越接近 1 越好 |
3.2邏輯迴歸(Logistic Regression)
| 面向 | 內容 |
|---|---|
| 定義 | 最基礎、最常用的分類演算法。雖名為「迴歸」實際用於分類問題,尤其適合二元分類(Binary Classification) |
| 模型公式 | p = 1 / (1 + e^−(β₀ + β₁x₁ + … + βₙxₙ))Sigmoid 函數;p = 資料屬於正類(Class 1)的機率 |
| 3 個假設 | ① 線性可分性(Linearity in Log-Odds)— 特徵與對數勝率(Log-Odds)之間呈線性關係。Log-Odds:對「機率與不發生機率比值」取自然對數,將機率的 [0,1] 範圍轉換為連續實數 (−∞,+∞)② 資料獨立性(觀測值彼此獨立) ③ 無多重共線性(特徵變數之間不宜高度相關) |
| 適用情境 | 二元分類;需易解釋(金融、醫療);資料關係大致線性、特徵間獨立性高;特徵數量不過多 |
| 使用限制 | ① 無法捕捉複雜非線性邊界 ② 對離群值敏感 ③ 需滿足假設條件 ④ 多類別需擴展為 OvR(One-vs-Rest)或 Multinomial Logistic Regression |
3.3支援向量機 SVM(最大間隔 + 4 種核函數)
| 面向 | 內容 |
|---|---|
| 定義 | SVM(Support Vector Machine)監督式學習演算法,主要用於分類,也能應用於迴歸(SVR) |
| 核心思想 | 在特徵空間中尋找最能區分不同類別的決策邊界(超平面),並最大化兩類之間的間隔(Margin)。資料無法線性分離時,核函數(Kernel Function)映射到更高維度空間 |
| 決策邊界 | 線性:w·x + b = 0(w·x+b > 0 為正類、< 0 為負類)核函數版: f(x) = Σαᵢ·yᵢ·K(xᵢ, x) + b |
| 4 種核函數 (教材鎖死) | ① 線性核(Linear Kernel) ② 多項式核(Polynomial Kernel) ③ 徑向基函數核(RBF Kernel, Gaussian Kernel) ④ Sigmoid 核 |
| 模型假設 | 線性可分或近似線性可分;核函數處理非線性邊界;高維空間表現良好(特徵數遠大於樣本數);對中小型資料尤為有效 |
| 適用情境 | 中小規模資料、特徵維度高;邊界清晰或需精準分界;複雜邊界情境 |
| 使用限制 | ① 計算成本高(大資料集訓練時間與記憶體消耗高) ② 參數調整複雜:C(懲罰參數,控制誤差容忍)、γ(核函數參數,特別是 RBF) |
3.4決策樹分類器(Decision Tree Classifier)
| 面向 | 內容 |
|---|---|
| 定義 | 透過一系列「如果…那麼…」判斷規則,依特徵將資料分割成不同群組,葉節點給出類別預測。從根節點(Root Node)開始向下分裂至葉節點(Leaf Node) |
| 分裂流程 | a. 選擇一個特徵作為分裂依據,找到最佳切分點 b. 根據切分點把資料分成兩個子群 c. 重複,直到:達到最大樹深(max_depth) / 節點樣本數低於設定值(min_samples_split) / 節點樣本純度足夠高 |
| 3 個分裂指標 (教材鎖死) | ① 基尼不純度(Gini Impurity)— 衡量節點內混雜程度,值越小越集中於單一類別 ② 資訊增益(Information Gain)— 根據熵(Entropy)變化,衡量分裂後不確定性降低多少 ③ 分類誤差(Classification Error)— 計算節點內樣本分錯的比例 |
| 模型假設 | 不需特徵與目標線性關係;可處理類別型 + 數值型混合;能捕捉變數交互;對資料尺度不敏感(不需標準化) |
| 適用情境 | 類別型結果;需易解釋(醫療、金融);資料集不過於龐大 |
| 使用限制 | ① 容易過擬合(單棵樹學到雜訊) ② 對資料微小變動敏感 ③ 模型不連續(連續變數的決策邊界呈階梯狀) ④ 效能通常低於集成方法(如 RF、GBM) |
3.5K 最近鄰分類 KNN(物以類聚 / 近朱者赤)
| 面向 | 內容 |
|---|---|
| 定義 | K Nearest Neighbors,非參數、惰性學習的分類演算法。不建立顯式模型,將新資料點分類到 K 個最近鄰居中佔多數的類別。「物以類聚」 |
| 核心流程 | a. 計算距離:新點與所有訓練資料的距離(如歐幾里得距離、曼哈頓距離) b. 選擇最近的 K 個鄰居 c. 投票決定類別:歸類為 K 個鄰居中出現次數最多的類別 |
| 模型假設 | ① 「近朱者赤」— 彼此相近的資料點具有相似類別 ② 特徵尺度影響— 不同尺度會影響距離計算,通常需特徵縮放(標準化或歸一化) ③ 維度詛咒— 高維空間中資料點之間距離變得均勻,「最近鄰居」失去意義 |
| 適用情境 | 資料量適中、特徵維度不高;決策邊界複雜但局部性強;無需訓練階段(惰性學習)— 訓練快(只儲存資料),所有計算發生在預測階段;多類別分類 |
| 使用限制 | ① 計算成本高(預測階段對每個新樣本算所有訓練樣本距離) ② 對離群值敏感 ③ K 值選擇影響大(太小受雜訊、太大邊界模糊;需交叉驗證) ④ 對高維資料表現不佳(維度詛咒) ⑤ 對特徵尺度敏感(缺特徵縮放會偏差) |
3.6樸素貝式分類(Naïve Bayes Classifier)
| 面向 | 內容 |
|---|---|
| 定義 | 基於貝式定理(Bayes' Theorem)並假設特徵之間彼此條件獨立的機率分類演算法。「樸素」= 簡化地假設所有特徵彼此獨立(現實往往不完全成立,但計算高效) |
| 貝式定理公式 | P(C|X) = P(X|C) × P(C) / P(X) |
| 4 個分量 (教材鎖死) | ① P(C|X) 後驗機率(Posterior Probability)— 在給定特徵 X 的情況下,樣本屬於類別 C 的機率(模型要預測的目標) ② P(X|C) 似然度(Likelihood)— 樣本屬於類別 C 的情況下,觀察到特徵 X 的機率 ③ P(C) 先驗機率(Prior Probability) ④ P(X) 證據(Evidence)或邊緣機率 |
| 條件獨立公式 | P(X|C) = P(x₁|C) × P(x₂|C) × … × P(xₙ|C)獨立性假設大幅簡化計算 |
| 適用情境 | ① 文本分類(垃圾郵件過濾、情感分析、新聞分類) ② 大規模資料集(訓練快) ③ 多類別分類 ④ 即時預測(預測計算量小) ⑤ 特徵數量多(只要滿足獨立性假設) |
| 使用限制 | ① 強獨立性假設(特徵高度相關時性能下降) ② 「零機率」問題— 訓練集某類別某特徵值從未出現 → 條件機率為零 → 後驗為零。透過拉普拉斯平滑(Laplace Smoothing)解決 ③ 對輸入資料分佈假設敏感(如高斯分佈) ④ 不適用於迴歸問題 |
3.7集成式分類 — Bagging vs Boosting 雙策略
| 策略 | Bagging(Bootstrap Aggregating) | Boosting |
|---|---|---|
| 原理 | 隨機抽樣多個訓練子集,建立多個獨立模型,最終結果採多數決(Voting) | 逐步建立一系列模型,每個新模型針對前一模型的錯誤進行修正,最後加權整合所有模型結果 |
| 降低 | 降低模型的變異性(Variance) | 降低偏差(Bias) |
| 代表演算法 | Random Forest | Gradient Boosting、XGBoost、LightGBM |
| 決策機制 | 說明 |
|---|---|
| 投票機制(Voting) | 分類任務中,每棵樹或每個弱模型產生類別預測,最終由多數票或加權投票決定 |
| 機率輸出 | 有些方法(如 GBM / XGBoost / LightGBM)可輸出每個類別的預測機率,而非單純類別 |
| 多類別處理 | ① OvR(One-vs-Rest)一對多策略 ② Softmax 多類別機率輸出 ③ OvO(One-vs-One)一對一策略 |
3.8Random Forest Classifier(RF 分類器)
| 面向 | 內容 |
|---|---|
| 定義 | 集成方法中最具代表性的一種。建立多棵決策樹,每棵樹隨機抽樣資料與特徵訓練,最後以多數投票(Voting)決定分類結果 |
| 機制 | 每棵樹預測一個類別 → 最終結果為票數最多的類別。減少單棵樹過擬合,提高穩定性與準確性 |
| 特點 | 抗過擬合;處理非線性與變數交互;對不平衡資料稍具抵抗力;可計算特徵重要性;訓練可平行化 |
| 缺點 | ① 整體解釋度低 → 黑箱模型 ② 模型體積大、記憶體需求多 ③ 對極端不平衡資料仍可能偏向多數類別 ④ 在需精確機率輸出的應用(如醫療診斷機率)較無法提供平滑機率估計 |
3.9Gradient Boosting Classifier(GBM 分類器)
| 面向 | 內容 |
|---|---|
| 原理 | Boosting 類演算法。逐步建立多棵決策樹;每棵專門修正前一棵錯誤預測;最終加權整合所有弱學習器 |
| 分類機制 | 每棵樹預測殘差(Residual),殘差轉為機率分數後分類。二元分類常搭配 Logloss 作為目標函數 |
| 特點 | ① 精確度通常高於 RF ② 能捕捉複雜非線性關係 ③ 支援多類別分類 ④ 可自訂損失函數,靈活性高 ⑤ 支援 Early Stopping減少過擬合 |
| 缺點 | ① 訓練時間較長 ② 容易過擬合,需謹慎調參 ③ 模型解釋度差 ④ 超參數多 |
3.10XGBoost / LightGBM 分類器
| 面向 | XGBoost | LightGBM |
|---|---|---|
| 分裂策略 | Level-wise(層級式生長) | Leaf-wise(葉子式生長)— 快速降低 Loss |
| 加速核心 | 使用二階導數資訊(Hessian)加速分裂 | 支援 Histogram-based 計算;大數據速度更快 |
| 缺值處理 | 支援缺值自動處理 | 同樣支援 |
| 多類別輸出 | 能輸出每個類別的機率分佈(Softmax);支援二元或多類別 | |
| 共通特點 / 缺點 | 內容 |
|---|---|
| 共通特點 | 計算速度快;適用大數據、高維度特徵;支援並行計算;特徵重要性分析;準確度高,Kaggle 競賽常勝軍 |
| 共通缺點 | ① 超參數多,需細心調整 ② 模型解釋度差(黑箱) ③ 記憶體需求仍可能高(尤其 Leaf-wise) ④ Leaf-wise 策略若不設限容易造成過擬合(LightGBM 特有問題) |
4非監督式學習(4 主題)
分群分析 / 降維技術 / 關聯規則學習 / 異常偵測
4.1非監督 vs 監督 對照
| 維度 | 監督式 | 非監督式 |
|---|---|---|
| 資料是否標註 | 有標註 / 有答案 | 無標註 / 無答案 |
| 核心目標 | 預測已知結果(連續值或類別) | 呈現資料本身的內在規律 |
| 類比 | 有老師指導的學習 | 自主探索與發現 |
| 典型任務 | 迴歸 / 分類 | 分群 / 降維 / 關聯規則 / 異常偵測 |
4.2分群分析(Clustering)— 三大演算法
| 面向 | k-means | 階層式(Hierarchical) | DBSCAN |
|---|---|---|---|
| 定義 | 迭代式分群,分到預設 K 群中,每個點屬於離它最近的中心點(質心 Centroid) | 建立巢狀群集序列,形成樹狀圖(Dendrogram)視覺化相似性層次 | Density-Based Spatial Clustering of Applications with Noise — 基於密度的分群,能辨識任意形狀群集,能自動分離噪聲點 |
| 關鍵參數 | K(群集數) | 無需 K;分凝聚式 / 分裂式 | Eps(鄰域半徑)、MinPts(核心群集所需最小點數) |
| 原理 | a. 初始化 — 隨機選 K 個資料點為初始質心 b. 分配 — 每點分到最近質心的群集 c. 更新 — 重新計算群集內平均為新質心 d. 重複 b-c 直到質心不再顯著移動或達最大迭代 | ① 凝聚式(Agglomerative)— bottom-up,每點視為獨立群集 → 合併最相似兩群直到匯成一大群集 ② 分裂式(Divisive)— top-down,從一大群集 → 不斷分解直到每點自成一群 | a. 設 Eps、MinPts b. 核心點辨識:未訪問點若 Eps 半徑內點數 ≥ MinPts → 核心點,遞歸將「密度可達」的點加入該群集;否則暫標為噪聲點或邊界點 c. 重複直到所有點被訪問 |
| 優點 | 簡單、快速、易理解;大量資料效率高 | ① 無需預先指定 K ② 樹狀圖視覺化豐富 ③ 能發現不同粒度層次 | ① 無需預先指定群集數 ② 能發現任意形狀群集(不受凸性限制) ③ 能有效辨識並標記噪聲點 |
| 缺點 | ① 需預先指定 K ② 對初始質心敏感 ③ 對離群值敏感 ④ 只能球形或凸形群集,無法處理不規則形狀 | ① 計算複雜度高(大量資料效率低) ② 對離群值敏感 ③ 合併/分裂操作無法撤銷,可能次優解 | ① 對 Eps 和 MinPts 高度敏感 ② 處理密度不均勻群集效果不佳 ③ 高維資料表現不理想 |
4.3降維技術(Dimensionality Reduction)— 三大方法
| 面向 | PCA(線性) | t-SNE(非線性) | UMAP(非線性) |
|---|---|---|---|
| 全名 | Principal Component Analysis 主成分分析 | t-distributed Stochastic Neighbor Embedding | Uniform Manifold Approximation and Projection |
| 類型 | 線性降維 | 非線性降維,專為高維資料視覺化設計 | 非線性降維,新型高性能方法 |
| 核心原理 | 正交變換投影到一組不相關的新座標軸(主成分),每個主成分是原始特徵的線性組合,代表資料中最大變異量方向 | 高維用高斯分佈、低維用 t-分佈計算機率相似性;以 KL 散度(Kullback-Leibler)衡量差異,透過梯度下降最小化 KL | 構建高維/低維「模糊拓撲結構」表示局部連通性(鄰域、連接強度),透過最小化交叉熵對齊兩個拓撲 |
| 流程 | a. 資料標準化(特徵尺度差異大時) b. 協方差矩陣計算 c. 特徵值分解(特徵值 = 該主成分解釋的變異量) d. 主成分選擇(取最大特徵值的 K 個特徵向量) e. 數據投影到 K 維新空間 | a. 高維相似度(高斯) b. 低維相似度(t-分佈,解「擁擠問題」) c. 優化映射(梯度下降 + KL 散度) | a. 構建高維模糊拓撲 b. 構建低維模糊拓撲 c. 最小化交叉熵 |
| 優點 | ① 數學基礎堅實、易理解實作 ② 有效降維、去除特徵間冗餘 ③ 轉換後特徵彼此正交 | 能很好地保留局部結構,適合視覺化呈現傳統線性方法難以發現的複雜非線性關係和群集結構 | ① 比 t-SNE 顯著更快、能處理更大資料集 ② 保留局部 + 全局結構表現優異 ③ 參數調整比 t-SNE 直觀 ④ 支持增量學習 |
| 缺點 | ① 只能捕捉線性關係,對非線性結構效果不佳 ② 主成分為線性組合,缺乏直觀可解釋性 ③ 對離群值敏感(影響協方差矩陣計算) | ① 計算成本高昂,不適合超大資料集(通常限制數萬樣本) ② 結果受隨機初始化影響,每次運行略不同 ③ 困惑度(Perplexity)參數對結果影響大 ④ 主要用於視覺化,不適合做下游任務的預處理(非線性映射難應用到新數據) | ① 相對較新,理論基礎複雜,理解門檻較高 ② 產出結果仍可能受參數影響 |
4.4關聯規則學習(Association Rule Learning)— Apriori vs FP-Growth
三個衡量標準(高公式)
| 指標 | 定義 | 公式 / 判讀 |
|---|---|---|
| Support 支持度 | 規則 A⇒B 在總交易中發生的頻率(同時包含 A 和 B 的交易佔總交易的比例) | Support(A⇒B) = P(A∩B) |
| Confidence 信賴度 | 包含 A 的交易中,同時也包含 B 的條件機率。衡量規則的可靠性 | P(B|A) = Support(A∪B) / Support(A) |
| Lift 提升度 | 規則 A⇒B 的強度 / A 與 B 相關性指標。衡量 A 出現對 B 出現機率的影響 | Lift(A⇒B) = Confidence(A⇒B) / P(B)① Lift > 1 → 正相關 ② Lift < 1 → 負相關 ③ Lift = 1 → 獨立 |
兩大演算法對照
| 面向 | Apriori | FP-Growth |
|---|---|---|
| 定義 | 經典且基礎的關聯規則挖掘演算法,透過迭代和剪枝找出滿足最小支持度(Minimum Support)的頻繁項目集(Frequent Itemset),再生成滿足最小信賴度(Minimum Confidence)的關聯規則 | 比 Apriori 更高效;無需生成大量候選集,透過建立 FP 樹(Frequent Pattern Tree)緊湊資料結構挖掘頻繁項目集,大幅降低計算量 |
| 核心性質 | 「Apriori 性質」: ① 若項集是頻繁的,所有非空子集也一定頻繁 ② 反之,若項集不頻繁,包含它的任何超集也不頻繁(剪枝) | FP 樹中每個節點代表一個頻繁項,計數表示該項在路徑上出現的次數;透過遞歸構建條件模式基(Conditional Pattern Base)和條件 FP 樹(Conditional FP Tree)挖掘 |
| 流程 | a. 生成頻繁 1-項集 b. 用頻繁 k−1 項集生成候選 k 項集,依 Apriori 性質剪枝 c. 頻率計數與篩選頻繁 k 項集 d. 重複至無新頻繁集 e. 生成關聯規則 | a. 第一次掃描 — 統計每項支持度 b. 過濾與排序 — 移除低支持度項,依支持度降序 c. 第二次掃描 — 構建 FP 樹(將每筆交易映射為一條路徑) d. 遞歸挖掘條件模式基 + 條件 FP 樹 |
| 優點 | 概念簡單、易理解;發現有意義非平凡的關聯模式 | ① 比 Apriori 顯著更高效(大型 / 稠密資料) ② 無需生成候選集 ③ 只需兩次掃描資料集 |
| 缺點 | 大量資料或項數多時,計算成本高昂且效率低下(需多次掃描資料集生成 / 檢驗大量候選集) | ① 構建 FP 樹處理超大複雜資料集時可能需大量記憶體 ② 對極度稀疏資料集,FP 樹可能無法顯著壓縮,優勢減弱 |
4.5異常偵測(Anomaly Detection)— Isolation Forest vs One-Class SVM
| 面向 | Isolation Forest(孤立森林) | One-Class SVM |
|---|---|---|
| 類型 | 基於樹的非參數異常偵測 | 邊界學習方法(單類別分類) |
| 核心思想 | 異常點通常是少數,且與正常點在特徵空間中相距較遠 → 在隨機劃分中更容易被快速「孤立」(只需很少分割就能將其分開) | 只學習一個類別(通常是正常資料)的模式,建構一個能將大多數正常樣本包圍起來的決策邊界 → 邊界外即異常 |
| 原理 | a. 構建孤立樹(iTree)— 隨機選一特徵,在 min 和 max 之間隨機選分割點 b. 遞歸劃分直到每點被單獨孤立或達最大樹深 c. 異常分數計算— 異常點具較短路徑長度(很快被孤立) d. 集成結果— 多棵 iTree 形成森林,計算每點平均路徑長度 → 標準化異常分數,分數越高越可能異常 | a. 映射高維空間(用核函數如 RBF 核) b. 尋找超平面— 將所有正常資料點與原點最大程度分離 c. 定義決策邊界— 超平面在原始空間的投影 d. 異常判斷— 新資料點落在邊界之外 → 異常 |
| 優點 | ① 效率高,適合高維資料和大規模資料集(只關注孤立,不計算距離或密度) ② 不需任何距離度量,高維有計算優勢 ③ 能直接輸出異常分數便於閾值設定 ④ 對不平衡資料表現良好(異常總是少數) | ① 透過核函數處理非線性邊界,適用各種複雜分佈 ② 對高維資料表現良好 ③ 只需正常資料訓練,異常點難收集場景下是優勢 |
| 缺點 | ① 對接近正常群集的異常值難有效檢測 ② 異常點不夠「孤立」時效果不佳 ③ 結果受隨機性影響 | ① 對參數(核函數 / 異常率)高度敏感 ② 計算成本相對較高,不適合非常大資料集 ③ 訓練資料若混入異常值,模型邊界會不夠精確 |
5跨章關鍵對照
高頻混淆題型 — 一表壓平
5.1L1 vs L2 正則化(Lasso vs Ridge)
| 面向 | L1(Lasso) | L2(Ridge / 嶺迴歸) |
|---|---|---|
| 懲罰項 | 權重絕對值和 Σ|βⱼ| | 權重平方和 Σβⱼ² |
| 對係數的影響 | 可壓縮為零 → 特徵選擇 | 不會壓縮為零 |
| 主打場景 | 高維、需特徵選擇 | 多重共線性嚴重 |
5.2Bagging vs Boosting
| 面向 | Bagging | Boosting |
|---|---|---|
| 策略 | 並行抽樣多子集,獨立訓練 | 序列修正前一模型錯誤 |
| 降低 | Variance(變異性) | Bias(偏差) |
| 整合方式 | Voting(多數決 / 加權投票) | 加權整合所有弱學習器 |
| 代表 | Random Forest | Gradient Boosting / XGBoost / LightGBM |
| 過擬合傾向 | 抗過擬合強 | 容易過擬合(需 Early Stopping) |
5.3XGBoost vs LightGBM
| 面向 | XGBoost | LightGBM |
|---|---|---|
| 分裂策略 | Level-wise(層級式 / 橫向擴展) | Leaf-wise(葉子式 / 垂直生長) |
| 加速核心 | Hessian(二階導數) + Block 結構 | Histogram-based(直方圖) |
| 缺值處理 | 自動學習缺失值走向 | 內建缺值處理 |
| 正則化 | L1 + L2 | 多種正則化參數 |
| 特有缺點 | — | 小資料集易過擬合(需 max_depth 限制) |
5.4三種分群法選用
| 場景 | 建議演算法 | 關鍵差異 |
|---|---|---|
| 已知 K,群集近球形 | k-means | 快、簡單;對初始值/離群值敏感 |
| 需要視覺化層次結構 | 階層式 | 樹狀圖(Dendrogram);無需 K |
| 群集任意形狀 / 需自動標記噪聲點 | DBSCAN | 基於密度;無需 K;對 Eps/MinPts 敏感 |
5.5三種降維法選用
| 場景 | 建議演算法 | 關鍵差異 |
|---|---|---|
| 線性結構 + 可作下游預處理 | PCA | 線性、正交、特徵值分解 |
| 視覺化高維資料(局部結構) | t-SNE | 非線性、KL 散度;不適合做下游預處理 |
| 更快 + 保留局部+全局結構 | UMAP | 非線性、模糊拓撲 + 交叉熵;支援增量學習 |
5.6關聯規則 Lift 判讀
| Lift 值 | 判讀 | 含義 |
|---|---|---|
Lift > 1 | 正相關 | A 出現會增加 B 出現的可能性 |
Lift = 1 | 獨立 | A 與 B 出現互不影響 |
Lift < 1 | 負相關 | A 出現會降低 B 出現的可能性 |
5.7適用 vs 限制 — 高頻陷阱
| 演算法 | 常見「適用」 | 常見「限制」陷阱 |
|---|---|---|
| 線性迴歸 | 連續、近似線性、需可解釋 | 對離群值敏感、無法非線性、多重共線性 |
| Lasso / Ridge | 多重共線性、高維資料 | 非線性建模不行;λ 需交叉驗證 |
| SVR / SVM | 非線性可用核函數;高維表現佳 | 大資料集計算成本高;參數複雜(C / γ / ε) |
| 決策樹(迴歸 / 分類) | 非線性、可解釋、特徵不需縮放 | 易過擬合;不連續(階梯狀邊界);對微小變動敏感 |
| RF | 抗過擬合、可並行 | 黑箱、記憶體大、預測慢 |
| GBM / XGBoost / LightGBM | 準確度高(競賽常勝) | 容易過擬合、超參數多、解釋差;Leaf-wise 小資料集易過擬合 |
| 邏輯迴歸 | 二元分類、可解釋 | 無法非線性;多類別需 OvR / Multinomial |
| KNN | 非線性邊界、惰性學習 | 維度詛咒;需特徵縮放;預測階段慢 |
| 樸素貝式 | 文本分類、大資料、即時預測 | 強獨立假設;零機率(需 Laplace Smoothing);不能做迴歸 |
| k-means | 球形群集、大量資料 | 需 K、對初始質心 / 離群值敏感、不能非凸群集 |
| DBSCAN | 任意形狀群集、能標記噪聲 | 對 Eps/MinPts 敏感;密度不均效果差;高維困難 |
| PCA | 線性結構、去冗餘、可下游 | 只能線性;缺乏可解釋性;對離群值敏感 |
| t-SNE | 視覺化、保留局部結構 | 計算高、結果隨機、Perplexity 需調、不能做下游預處理 |
| UMAP | 視覺化、比 t-SNE 快、支援增量 | 理論複雜、理解門檻高 |
| Apriori | 概念簡單、可發現非平凡關聯 | 大資料計算成本高昂、多次掃描 |
| FP-Growth | 無候選集、僅兩次掃描 | FP 樹記憶體需求高;極稀疏資料壓縮優勢弱 |
| Isolation Forest | 高維、大規模、不平衡資料 | 近正常群集的異常值難測;結果受隨機性影響 |
| One-Class SVM | 只需正常資料、非線性邊界、高維 | 對參數敏感;計算成本高;訓練資料若混入異常會偏差 |
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23202 考前複習筆記 · v1.0(2026-05 表格化精簡版)