L23101 機率/統計之機器學習基礎應用
2資料與隨機變數的機率表示
P(Y|X) + 離散型 / 連續型 兩大類分佈
2.0機器學習的機率本質:條件機率分佈
| 面向 | 內容 |
|---|---|
| 核心邏輯 | 「在特定觀察條件下,某結果發生的可能性有多大」— 並非尋求唯一解,而是學習一種條件機率分佈(Conditional Probability Distribution) |
| 數學形式 | P(Y|X),其中 X = 輸入特徵(Feature)、Y = 目標變數(Label) |
| ① 預測導向 | 模型輸出為某結果的機率(如分類機率),而非確定性分類結果 |
| ② 不確定性評估 | 機率反映了模型對預測的信心程度,有助於風險控制與決策制定 |
2.1離散型 vs 連續型機率分佈
| 比較項 | 離散型(Discrete) | 連續型(Continuous) |
|---|---|---|
| 取值特性 | 值是有限或可數,通常為整數 | 值是無限且連續,可為任意實數 |
| 典型例子 | 擲骰子(1、2、3、4、5、6)、電商平台每日訂單數(0、1、2…) | 身高、體重、時間、溫度;病患等待時間 5.3 分鐘或 5.31 分鐘 |
| 機率函數 | 機率質量函數 PMF(Probability Mass Function)— 描述每個特定取值的機率 | 機率密度函數 PDF(Probability Density Function)— 描述某取值範圍內的機率 |
| 公式形式 | P(X=1) = 1/6;總和為 1:Σ P(X=xᵢ) = 1 | P(a ≤ X ≤ b) = ∫ₐᵇ f(x) dx |
2.2三種離散型分佈
| 分佈 | 描述對象 | 典型應用 |
|---|---|---|
| 伯努利 Bernoulli | 具有兩種可能結果的事件(成功/失敗、點擊/未點擊) | 二元分類任務(邏輯迴歸的目標變數假設) |
| 二項 Binomial | 在 n 次獨立試驗中,某事件發生的次數 | 模擬多次伯努利事件的累計行為 |
| 泊松 Poisson | 固定時間或空間區間中,某事件發生的次數;事件發生彼此獨立、平均發生率為常數 | 稀有事件:單位時間客服來電數量、網頁伺服器請求次數 |
2.3四種連續型分佈
| 分佈 | 特徵 | 典型應用 |
|---|---|---|
| 常態 Normal | 對稱的鐘型分佈,最常見的連續型分佈 | 誤差建模、參數估計、特徵分數標準化、生成模型 |
| 均勻 Uniform | 在某個固定區間內,所有數值具有相同的發生機率 | 初始化參數、隨機抽樣 |
| 指數 Exponential | 描述事件發生之間的間隔時間;特徵是無記憶性(Memoryless) — 未來事件發生與過去時間無關 | 等待時間、生存時間;機器故障時間、電話來電間隔 |
| 卡方 Chi-square | 描述一組獨立標準常態分佈變數平方和的分佈 | 變異數分析、卡方適合度檢定、列聯表獨立性檢定 |
2.4機率分佈作為模型先驗假設
| 模型 | 分佈假設 | 用途 |
|---|---|---|
| 邏輯迴歸 | 目標變數服從伯努利分佈 | 處理二元分類問題 |
| 線性迴歸 | 誤差項符合常態分佈 | 推導參數估計與檢定的統計性質 |
| 變分自編碼器 Variational Autoencoder(VAE) | 將潛在變數與觀察變數的分佈型態納入模型架構核心 | 機率分佈成為模型運作本身的一部分,不只是輔助工具 |
3條件機率與貝氏推論
條件機率公式 + 三大應用 + 貝氏定理四元素
3.1條件機率定義
| 面向 | 內容 |
|---|---|
| 意義 | 在給定條件下估算機率的行為 — 在事件 B 發生的前提下,事件 A 發生的機率 |
| 數學定義 | P(A|B) = P(A∩B) / P(B) |
| 地位 | 機器學習邏輯核心,也構成貝氏推論(Bayesian Inference)的基礎架構 |
3.2條件機率三大應用
| 應用場景 | 說明 | 代表模型/案例 |
|---|---|---|
| ① 分類任務中的條件預測 | 學習條件機率 P(Y|X) — 在觀察輸入特徵 X 的情況下,預測 Y 的可能性分佈 | 邏輯迴歸、貝氏分類器皆以此為核心 |
| ② 生醫與金融風控的風險預測 | 已知某些檢驗結果或行為模式,估計未來事件發生的可能性 | 罹病風險、違約機率 |
| ③ 生成模型中的變數關聯建構 | 建構潛在變數與觀察變數間的依存關係 | 變分自編碼器(VAE)、隱馬可夫模型(Hidden Markov Model, HMM) |
3.3貝氏定理公式
| 項目 | 內容 |
|---|---|
| 地位 | 處理條件推論問題的核心工具,建立在條件機率之上 |
| 定義 | 一種利用已知條件更新事件發生機率的方法 |
| 公式 | P(A|B) = [ P(B|A) · P(A) ] / P(B) |
| 意義 | 在事件 B 已發生的情況下,重新評估事件 A 發生機率的方式 |
3.4貝氏定理四元素
| 元素 | 中文/英文 | 意義 |
|---|---|---|
| P(A) | 先驗機率 Prior Probability | 在尚未觀察事件 B 之前,對事件 A 發生的「初始信念」或「預設機率」 |
| P(B|A) | 條件機率/似然 Likelihood | 在事件 A 發生的前提下,事件 B 發生的可能性 |
| P(B) | 邊際機率 Marginal Probability | 事件 B 發生的總體機率,亦為所有可能 A 條件下 B 發生機率的加權總和(無論 A 是否發生,B 發生的整體可能性) |
| P(A|B) | 後驗機率 Posterior Probability | 在觀察到事件 B 之後,根據新資訊更新後,對事件 A 發生機率的重新估計 — 貝氏定理的核心輸出 |
4假設檢定與統計推論
統計推論 vs 假設檢定 + 五步驟 + α 與 p 值
4.1統計推論定義與分支
| 項目 | 內容 |
|---|---|
| 核心任務 | 利用樣本資料對母體參數或模型行為進行估計與判斷,並量化不確定性 |
| 用途 | 推斷模型訓練結果是否穩定、資料特徵之間是否存在顯著差異、模型選擇是否具有合理依據 |
| 兩大分支 | ① 參數估計(Parameter Estimation) ② 假設檢定(Hypothesis Testing) — 兩者均依賴機率模型作為推論依據 |
4.2參數估計 vs 假設檢定(5 維對照)
| 項目 | 參數估計 | 統計假設檢定 |
|---|---|---|
| 目的 | 推測母體參數的「值」或「區間」 | 驗證某個關於母體參數的「主張」是否成立 |
| 重點問題 | 這個母體參數大約是多少? (例如:平均收入是多少?) | 我們是否有足夠證據拒絕一個假設? (例如:新藥是否有效?) |
| 輸出結果 | 提供點估計值(如平均數)與信賴區間(如 95% CI) | 提供 p 值、檢定統計量,並根據顯著水準決定是否拒絕虛無假設 |
| 依據 | 基於樣本資料,計算出母體參數的估計值 | 基於假設前提與樣本結果,進行推論判斷 |
| 例子 | 根據樣本估計出平均體重為 68 公斤,95% 信賴區間為 [66, 70] | 假設新運動課程能降低體重,檢定結果 p = 0.03,小於設定的 α = 0.05。因此拒絕虛無零假設,認為有效 |
4.3假設檢定五步驟
| 步驟 | 名稱 | 內容 |
|---|---|---|
| A(起點) | 設定假設 | 設定虛無假設(或稱零假設)與對立假設 |
| B | 選檢定方法 | 選擇適當的檢定方法與檢定統計量 |
| C | 決定 α | 決定顯著水準 |
| D | 計算 p 值 | 計算檢定統計量與 p 值 |
| E | 進行決策 | 比較顯著水準(α)並進行決策 |
4.4假設檢定的本質
| 面向 | 內容 |
|---|---|
| 定義 | 以機率模型為基礎的推論方法 |
| 核心目的 | 檢視樣本資料是否提供足夠證據來拒絕某一原先的假設 |
4.5顯著水準 α 與型一錯誤
| 項目 | 內容 |
|---|---|
| 定義 | 在進行假設檢定之前,研究者預先設定的可接受錯誤機率上限 |
| 意義 | 在虛無假設為真的前提下,仍可能因樣本隨機波動而錯誤地拒絕該假設的機率 |
| 對應錯誤類型 | 型一錯誤(Type I Error)發生的機率 |
4.6p 值與決策原則
| 項目 | 內容 |
|---|---|
| p 值定義 | 觀察到樣本資料後所計算出的機率,用來衡量資料與虛無假設的相符程度 |
| 決策原則(與 P11 一致) | p < α → 拒絕虛無假設;p ≥ α → 不拒絕虛無假設 |
| 教材數字範例 | 新運動課程降低體重案例:p = 0.03 < α = 0.05 → 拒絕虛無零假設 → 認為有效 |
5統計量與機器學習中的應用
期望值 / 變異數·標準差 / 偏態 / 峰度 + 視覺化工具
5.1四大統計量
| 統計量 | 定義 | 機器學習中的用途 |
|---|---|---|
| 期望值 Expected Value | 反映變數的平均趨勢 | 許多模型的預測基準與參數估計核心,例如線性迴歸中的截距項 |
| 變異數 Variance 標準差 Standard Deviation | 衡量資料的離散程度 | 判斷特徵是否需進行標準化處理,避免尺度不一致對模型訓練造成偏誤 |
| 偏態 Skewness | 判斷分佈是否對稱 | 若偏態過大,常需對變數進行對數轉換或 Box-Cox 轉換,以改善模型收斂性與預測穩定性 |
| 峰度 Kurtosis | 觀察資料是否具有尖峰或厚尾 | 可作為偵測異常值密度與風險擴散的參考指標 |
5.2視覺化工具與後續處理
| 類別 | 項目 | 用途 |
|---|---|---|
| 視覺化工具 | 直方圖(Histogram) | 觀察分佈型態(對稱/偏態/多峰) |
| 箱型圖(Box Plot) | 四分位、中位數、極端值 | |
| QQ-plot | 檢查資料是否服從某種分佈(如常態) | |
| 後續處理動作 | 分群處理 | 依分佈特性切群 |
| 變數轉換 | 對數、Box-Cox、標準化 | |
| 資料清理 | 處理異常值、缺失值 |
6跨節整合與易考混淆
教材沒明列、但歷年高頻混淆題型整理
6.1三大公式對照(最容易考混)
| 公式 | 場景 | 關鍵記憶點 |
|---|---|---|
條件機率P(A|B) = P(A∩B) / P(B) | 給定 B 下 A 的機率 | 分母是條件 B 的機率 |
貝氏定理P(A|B) = P(B|A)·P(A) / P(B) | 用新資料 B 更新對 A 的信念 | 分子有先驗 P(A) × 似然 P(B|A) |
PMF 總和 / PDF 積分Σ P(X=xᵢ) = 1 / P(a≤X≤b) = ∫f(x)dx | 離散分佈總機率 / 連續分佈區間機率 | 離散用求和,連續用積分 |
6.2易混分佈速辨表
| 關鍵字 | 對應分佈 | 類型 |
|---|---|---|
| 成功/失敗、點擊/未點擊 | 伯努利 | 離散 |
| n 次獨立試驗、累計次數 | 二項 | 離散 |
| 固定時間區間、稀有事件、平均發生率 | 泊松 | 離散 |
| 鐘型、誤差、特徵標準化 | 常態 | 連續 |
| 等機率、初始化參數 | 均勻 | 連續 |
| 等待時間、間隔、無記憶性 | 指數 | 連續 |
| 平方和、卡方檢定、列聯表 | 卡方 | 連續 |
6.3假設檢定常見錯誤
| 錯誤類型 | 正解 |
|---|---|
| 「p 值就是虛無假設為真的機率」 | 錯。p 值是「在虛無假設為真前提下,觀察到目前資料或更極端結果的機率」 |
| 「α 是錯誤率」 | α 是型一錯誤上限(拒絕了不該拒絕的虛無假設的機率) |
| 「p ≥ α 表示虛無假設為真」 | 錯。p ≥ α 只是沒足夠證據拒絕,不等於虛無假設為真 |
| 「拒絕虛無假設 = 對立假設一定對」 | 拒絕只是依機率決策,仍可能犯型一錯誤 |
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23101 考前複習筆記 · v1.0(2026-05 表格化精簡版)