L23101機率/統計之機器學習基礎應用

L23101 機率/統計之機器學習基礎應用

2資料與隨機變數的機率表示

P(Y｜X) + 離散型 / 連續型兩大類分佈

2.0機器學習的機率本質：條件機率分佈

面向	內容
核心邏輯	「在特定觀察條件下，某結果發生的可能性有多大」— 並非尋求唯一解，而是學習一種條件機率分佈（Conditional Probability Distribution）
數學形式	`P(Y｜X)`，其中 X = 輸入特徵（Feature）、Y = 目標變數（Label）
① 預測導向	模型輸出為某結果的機率（如分類機率），而非確定性分類結果
② 不確定性評估	機率反映了模型對預測的信心程度，有助於風險控制與決策制定

2.1離散型 vs 連續型機率分佈

比較項	離散型（Discrete）	連續型（Continuous）
取值特性	值是有限或可數，通常為整數	值是無限且連續，可為任意實數
典型例子	擲骰子（1、2、3、4、5、6）、電商平台每日訂單數（0、1、2…）	身高、體重、時間、溫度；病患等待時間 5.3 分鐘或 5.31 分鐘
機率函數	機率質量函數 PMF（Probability Mass Function）— 描述每個特定取值的機率	機率密度函數 PDF（Probability Density Function）— 描述某取值範圍內的機率
公式形式	`P(X=1) = 1/6`；總和為 1：`Σ P(X=xᵢ) = 1`	`P(a ≤ X ≤ b) = ∫ₐᵇ f(x) dx`

2.2三種離散型分佈

分佈	描述對象	典型應用
伯努利 Bernoulli	具有兩種可能結果的事件（成功/失敗、點擊/未點擊）	二元分類任務（邏輯迴歸的目標變數假設）
二項 Binomial	在 n 次獨立試驗中，某事件發生的次數	模擬多次伯努利事件的累計行為
泊松 Poisson	固定時間或空間區間中，某事件發生的次數；事件發生彼此獨立、平均發生率為常數	稀有事件：單位時間客服來電數量、網頁伺服器請求次數

2.3四種連續型分佈

分佈	特徵	典型應用
常態 Normal	對稱的鐘型分佈，最常見的連續型分佈	誤差建模、參數估計、特徵分數標準化、生成模型
均勻 Uniform	在某個固定區間內，所有數值具有相同的發生機率	初始化參數、隨機抽樣
指數 Exponential	描述事件發生之間的間隔時間；特徵是無記憶性（Memoryless） — 未來事件發生與過去時間無關	等待時間、生存時間；機器故障時間、電話來電間隔
卡方 Chi-square	描述一組獨立標準常態分佈變數平方和的分佈	變異數分析、卡方適合度檢定、列聯表獨立性檢定

2.4機率分佈作為模型先驗假設

模型	分佈假設	用途
邏輯迴歸	目標變數服從伯努利分佈	處理二元分類問題
線性迴歸	誤差項符合常態分佈	推導參數估計與檢定的統計性質
變分自編碼器 Variational Autoencoder（VAE）	將潛在變數與觀察變數的分佈型態納入模型架構核心	機率分佈成為模型運作本身的一部分，不只是輔助工具

3條件機率與貝氏推論

條件機率公式 + 三大應用 + 貝氏定理四元素

3.1條件機率定義

面向	內容
意義	在給定條件下估算機率的行為 — 在事件 B 發生的前提下，事件 A 發生的機率
數學定義	`P(A｜B) = P(A∩B) / P(B)`
地位	機器學習邏輯核心，也構成貝氏推論（Bayesian Inference）的基礎架構

3.2條件機率三大應用

應用場景	說明	代表模型/案例
① 分類任務中的條件預測	學習條件機率 `P(Y｜X)` — 在觀察輸入特徵 X 的情況下，預測 Y 的可能性分佈	邏輯迴歸、貝氏分類器皆以此為核心
② 生醫與金融風控的風險預測	已知某些檢驗結果或行為模式，估計未來事件發生的可能性	罹病風險、違約機率
③ 生成模型中的變數關聯建構	建構潛在變數與觀察變數間的依存關係	變分自編碼器（VAE）、隱馬可夫模型（Hidden Markov Model, HMM）

3.3貝氏定理公式

項目	內容
地位	處理條件推論問題的核心工具，建立在條件機率之上
定義	一種利用已知條件更新事件發生機率的方法
公式	`P(A｜B) = [ P(B｜A) · P(A) ] / P(B)`
意義	在事件 B 已發生的情況下，重新評估事件 A 發生機率的方式

3.4貝氏定理四元素

元素	中文／英文	意義
P(A)	先驗機率 Prior Probability	在尚未觀察事件 B 之前，對事件 A 發生的「初始信念」或「預設機率」
P(B｜A)	條件機率／似然 Likelihood	在事件 A 發生的前提下，事件 B 發生的可能性
P(B)	邊際機率 Marginal Probability	事件 B 發生的總體機率，亦為所有可能 A 條件下 B 發生機率的加權總和（無論 A 是否發生，B 發生的整體可能性）
P(A｜B)	後驗機率 Posterior Probability	在觀察到事件 B 之後，根據新資訊更新後，對事件 A 發生機率的重新估計 — 貝氏定理的核心輸出

4假設檢定與統計推論

統計推論 vs 假設檢定 + 五步驟 + α 與 p 值

4.1統計推論定義與分支

項目	內容
核心任務	利用樣本資料對母體參數或模型行為進行估計與判斷，並量化不確定性
用途	推斷模型訓練結果是否穩定、資料特徵之間是否存在顯著差異、模型選擇是否具有合理依據
兩大分支	① 參數估計（Parameter Estimation）　② 假設檢定（Hypothesis Testing） — 兩者均依賴機率模型作為推論依據

4.2參數估計 vs 假設檢定（5 維對照）

項目	參數估計	統計假設檢定
目的	推測母體參數的「值」或「區間」	驗證某個關於母體參數的「主張」是否成立
重點問題	這個母體參數大約是多少? （例如：平均收入是多少?）	我們是否有足夠證據拒絕一個假設? （例如：新藥是否有效?）
輸出結果	提供點估計值（如平均數）與信賴區間（如 95% CI）	提供 p 值、檢定統計量，並根據顯著水準決定是否拒絕虛無假設
依據	基於樣本資料，計算出母體參數的估計值	基於假設前提與樣本結果，進行推論判斷
例子	根據樣本估計出平均體重為 68 公斤，95% 信賴區間為 [66, 70]	假設新運動課程能降低體重，檢定結果 `p = 0.03`，小於設定的 `α = 0.05`。因此拒絕虛無零假設，認為有效

4.3假設檢定五步驟

步驟	名稱	內容
A（起點）	設定假設	設定虛無假設（或稱零假設）與對立假設
B	選檢定方法	選擇適當的檢定方法與檢定統計量
C	決定 α	決定顯著水準
D	計算 p 值	計算檢定統計量與 p 值
E	進行決策	比較顯著水準（α）並進行決策

4.4假設檢定的本質

面向	內容
定義	以機率模型為基礎的推論方法
核心目的	檢視樣本資料是否提供足夠證據來拒絕某一原先的假設

4.5顯著水準 α 與型一錯誤

項目	內容
定義	在進行假設檢定之前，研究者預先設定的可接受錯誤機率上限
意義	在虛無假設為真的前提下，仍可能因樣本隨機波動而錯誤地拒絕該假設的機率
對應錯誤類型	型一錯誤（Type I Error）發生的機率

4.6p 值與決策原則

項目	內容
p 值定義	觀察到樣本資料後所計算出的機率，用來衡量資料與虛無假設的相符程度
決策原則（與 P11 一致）	`p < α` → 拒絕虛無假設；`p ≥ α` → 不拒絕虛無假設
教材數字範例	新運動課程降低體重案例：`p = 0.03 < α = 0.05` → 拒絕虛無零假設 → 認為有效

5統計量與機器學習中的應用

期望值 / 變異數·標準差 / 偏態 / 峰度 + 視覺化工具

5.1四大統計量

統計量	定義	機器學習中的用途
期望值 Expected Value	反映變數的平均趨勢	許多模型的預測基準與參數估計核心，例如線性迴歸中的截距項
變異數 Variance 標準差 Standard Deviation	衡量資料的離散程度	判斷特徵是否需進行標準化處理，避免尺度不一致對模型訓練造成偏誤
偏態 Skewness	判斷分佈是否對稱	若偏態過大，常需對變數進行對數轉換或 Box-Cox 轉換，以改善模型收斂性與預測穩定性
峰度 Kurtosis	觀察資料是否具有尖峰或厚尾	可作為偵測異常值密度與風險擴散的參考指標

5.2視覺化工具與後續處理

類別	項目	用途
視覺化工具	直方圖（Histogram）	觀察分佈型態（對稱/偏態/多峰）
	箱型圖（Box Plot）	四分位、中位數、極端值
	QQ-plot	檢查資料是否服從某種分佈（如常態）
後續處理動作	分群處理	依分佈特性切群
	變數轉換	對數、Box-Cox、標準化
	資料清理	處理異常值、缺失值

6跨節整合與易考混淆

教材沒明列、但歷年高頻混淆題型整理

6.1三大公式對照（最容易考混）

公式	場景	關鍵記憶點
條件機率 `P(A｜B) = P(A∩B) / P(B)`	給定 B 下 A 的機率	分母是條件 B 的機率
貝氏定理 `P(A｜B) = P(B｜A)·P(A) / P(B)`	用新資料 B 更新對 A 的信念	分子有先驗 P(A) × 似然 P(B｜A)
PMF 總和 / PDF 積分 `Σ P(X=xᵢ) = 1` / `P(a≤X≤b) = ∫f(x)dx`	離散分佈總機率 / 連續分佈區間機率	離散用求和，連續用積分

6.2易混分佈速辨表

關鍵字	對應分佈	類型
成功/失敗、點擊/未點擊	伯努利	離散
n 次獨立試驗、累計次數	二項	離散
固定時間區間、稀有事件、平均發生率	泊松	離散
鐘型、誤差、特徵標準化	常態	連續
等機率、初始化參數	均勻	連續
等待時間、間隔、無記憶性	指數	連續
平方和、卡方檢定、列聯表	卡方	連續

6.3假設檢定常見錯誤

錯誤類型	正解
「p 值就是虛無假設為真的機率」	錯。p 值是「在虛無假設為真前提下，觀察到目前資料或更極端結果的機率」
「α 是錯誤率」	α 是型一錯誤上限（拒絕了不該拒絕的虛無假設的機率）
「p ≥ α 表示虛無假設為真」	錯。p ≥ α 只是沒足夠證據拒絕，不等於虛無假設為真
「拒絕虛無假設 = 對立假設一定對」	拒絕只是依機率決策，仍可能犯型一錯誤

AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23101 考前複習筆記 · v1.0（2026-05 表格化精簡版）