L23402演算法偏見與公平性

L23402 演算法偏見與公平性

2偏見的成因與類型

資料層 3 類 × 模型層 4 類 × 潛在影響 3 面向

2.1資料代表性與偏誤風險 — 三類資料偏誤

類型	核心問題	常見情況 / 例子（教材鎖死）
① 來源偏誤 Source Bias	發生在資料蒐集階段；資料無法均衡涵蓋所有應被代表的群體或情境	1. 群體分佈不均 — 醫療模型缺某年齡層或性別數據 2. 社經或地理偏重 — 資料集中都市、高收入群體，忽略偏鄉 3. 文化與語言侷限 — 語料僅來自北美，無法理解亞洲語境 4. 來源平台侷限 — 資料僅來自特定社群平台
② 內容偏誤 Content Bias	存在於資料本身的內容或敘事方式；資料內含不公平或歧視觀點	1. 資料包含刻板印象或歷史不平等 2. 將「醫師預設男性、護士預設女性」強化性別刻板印象 3. 信用審核歷史資料中，隱含種族或性別歧視
③ 製程偏誤 Process Bias	出現在資料標註或編輯過程；人為主觀判斷導致不一致或偏差	1. 不同標註者對同一句話在情感分析上判斷不同 2. 標註者因個人觀念產生刻板印象的標註偏誤

2.2模型偏見與歧視 — 四類模型層偏見

來源	機制	範例（教材鎖死）
① 演算法偏見 Algorithmic Bias	某些演算法在追求整體預測效能時，可能忽略少數群體的需求	推薦系統依據多數使用者偏好生成結果，少數群體興趣與需求被邊緣化
② 目標函數偏誤 Objective Function Bias	多數模型以整體平均精度作為優化目標，若未加入公平性約束，會犧牲特定群體的預測準確度	模型一味提升整體效能 → 少數群體準確度被犧牲
③ 正規化與簡化偏誤 Regularization Bias	為避免過度擬合，模型會簡化變數間的關聯，降低對少數群體特徵的敏感度	模型在少數群體上的表現較差
④ 對抗式訓練不足 Insufficient Adversarial Training	即使導入對抗式公平學習（Adversarial Fairness），若設計不完善或參數設定不當，仍可能保留部分偏見	對特定群體預測仍不公

2.3偏見的潛在影響 — 三大風險面向

面向	影響範圍	具體後果（教材鎖死）
① 弱勢群體受歧視	技術 → 社會層面	對女性、少數族群、高齡者、身心障礙者產生不公平決策；在就業、金融服務、醫療診斷等領域遭差別待遇 → 加劇社會不平等
② 企業品牌與信譽受損	商譽層面	社會輿論反彈、媒體關注、用戶抵制、合作夥伴疏遠 → 嚴重損害企業形象、信譽、市場競爭力
③ 法律與監管風險	法律層面	違反反歧視法 / 個人資料保護法 / 消費者保護法（三大法律紅線）→ 面臨巨額罰款、法律訴訟、監管機關調查與處分

3公平性指標與評估工具

四指標 × 兩工具 — 衡量「不同群體間的系統性差異」

3.1常見公平性指標（四指標教材鎖死）

指標	定義 / 比較對象	適用情境	限制
① Demographic Parity 群體平等率	不同群體獲得正向預測（核准貸款、錄取面試）的比例應大致相同；強調結果的均等分配（Equality of Outcome）。比較：各群體獲得正向預測的整體比例（不論實際是否符合條件）	對結果平等有高度要求 — 招聘、入學機會	可能為達比例公平而犧牲個別個案預測準確性；無法考量實際資格差異
② Equal Opportunity 機會平等	在實際應獲得正向預測的個案中（真正應核准貸款的人），不同群體被正確預測的機率應相同；強調真正有資格的人不能漏掉。比較：各群體中「真實應該被選擇」者的正確預測比例	必須確保真正該被服務者不被忽略 — 醫療診斷、社會福利核准	僅關注正例的正確預測，未考量負例的錯誤比例
③ Equalized Odds 均衡機率	不同群體間，正例與負例都有相同的預測機率；即 True Positive Rate（正確核准比例）與 False Positive Rate（錯誤核准比例）皆需一致比較：各群體的正確預測率與錯誤預測率兩種情境	同時考量預測正確率與誤判率公平 — 司法判決、信用評估等敏感領域	實務上難以完全達成；可能需犧牲部分整體效能；實現方式較為複雜
④ Disparate Impact 不利影響比	比較群體間獲得正向結果的比例，若某群體比例未達另一群體的 80%（80% Rule），可能構成間接歧視或不利待遇	法律合規審查 — 招聘、公平貸款的歧視檢驗	僅考量結果比例差異，無法指出產生偏差的具體原因

3.2公平性評估工具（兩工具對照）

面向	IBM AI Fairness 360（AIF360）	Microsoft Fairlearn
開發者	IBM Research 開發的開源 Python 工具包	微軟開發的 Python 工具
規模	支援超過 70 種公平性指標與多種去偏技術	專注於衡量及降低AI 系統中的公平性問題
功能	1. 計算群體間各類公平性指標 2. 資料前處理、模型內部處理、結果後處理的去偏方法 3. 產生公平性分析報告及視覺化圖表	1. 計算群體間公平性指標 2. 公平性約束下的模型再訓練工具 3. 支援可解釋性分析
優點	支援多種指標與方法；文件完整；適合研究及企業試驗性應用	與 scikit-learn 等 Python 生態系統高度相容；易於整合進現有機器學習流程
限制	對大型商業模型或複雜系統需進行額外整合與測試	提供的去偏功能較 AIF360 少，適合中小型或輕量化專案

4降低演算法偏見的方法論與技術方案

資料前處理 / 模型內部處理 / 模型後處理 — 對應 ML pipeline 訓練前 / 中 / 後

4.1資料前處理（訓練前階段）

方法	定義	實例（教材鎖死）
① 資料重新抽樣 Re-sampling	透過增加或減少特定群體資料的方式，使資料分佈更加均衡	招聘模型訓練前，調整不同性別的履歷數量達成平衡
② 特徵去偏處理 Feature Neutralization	移除或調整可能引發偏見的敏感特徵（性別、族群），或其高度相關的特徵	銀行信用評分移除客戶族群特徵，避免種族偏見
③ 資料匿名化與泛化 Data Anonymization and Generalization	降低敏感特徵的精確性（如年齡轉換成年齡區間），減少因敏感特徵產生的偏見	將特定族群改為一般化標籤；年齡 28 歲 → 25–34 歲區間

4.2模型內部處理（訓練中階段）

方法	定義	實例（教材鎖死）
① 公平性約束訓練 Fairness Constraints	訓練模型時，同時加入公平性指標作為約束條件（如 Demographic Parity、Equal Opportunity）	貸款模型在訓練時強制約束不同性別的核准率相似
② 對抗式去偏模型 Adversarial Fairness	同時訓練一個去預測敏感特徵（如性別）的「對抗式網路」，迫使主模型學到不受敏感特徵影響的特徵表現	招聘模型透過對抗網路訓練，使履歷分析結果無法推斷申請者性別
③ 公平性正規化 Fairness Regularization	在模型訓練目標函數中加入額外的公平性損失項（Fairness Loss），同時平衡準確度與公平性 — `L_total = L_main + λ · L_fair`	信用評分模型透過加入公平性損失函數，確保各族群錯誤率接近

4.3模型後處理（訓練後 / 部署階段）

方法	定義	實例（教材鎖死）
① 結果門檻調整 Threshold Adjustment	模型產出預測分數後，針對不同群體調整正向預測的閾值，以達到公平性。直接改變判斷標準（閾值），例如改變「通過 / 不通過」的門檻	司法判決風險評估模型，調整不同族群的判斷閾值；將某群體的貸款評估核准門檻從 60 分降到 55 分
② 結果校準 Calibration	針對不同群體的模型預測分數進行重新校準，使相同分數在不同群體間代表相同意義。不改變判斷標準（閾值），但調整不同群體的預測分數，使同一分數在不同群體具有相同意義	信用評分模型在男女族群分別進行校準；將某群體的貸款評估分數從 60 分重新校準成 65 分

5組織面向的 AI 公平性治理策略

不能僅依賴技術 — 建立制度、流程、文化的 4 大策略

5.1建立 AI 公平性治理機制

作法	內容（教材鎖死）
① 建立公平性政策與標準	制定明確的 AI 公平性原則（如 Demographic Parity、Equal Opportunity）；訂定具體的公平性衡量指標及可接受範圍
② 設立跨部門公平性審查委員會	集合法務、技術、產品、倫理、風險管理等部門；於 AI 專案早期即參與，預防潛在偏見而非事後處理
③ 明確責任與問責機制	將公平性納入高階主管（資訊長、法務長）的 KPI，或企業 ESG 報告範疇；建立公平性審查流程紀錄機制，可追溯與透明、便於內外部稽核

5.2多元化團隊與公平意識教育訓練

作法	內容
① 招募多元化團隊成員	聘用不同性別、族群、文化、專業背景的人才；鼓勵跨部門合作，降低團隊盲點風險
② 推動公平性與倫理培訓	定期舉辦 AI 公平性及倫理課程；瞭解偏見的成因、影響、風險；建立企業內部公平性文化

5.3公平性評估與稽核制度

作法	內容
① 定期公平性稽核 Fairness Audits	每年定期對關鍵 AI 系統進行公平性稽核 → 公開報告與改善計畫；新上線或重大更新的 AI 系統，應進行公平性審查與測試
② 導入公平性指標監控系統	將公平性指標納入日常監控報告；建立即時警示機制，當指標超出預設範圍時啟動風險應變措施

5.4AI 公平性資訊揭露與溝通策略

作法	內容
① 主動揭露 AI 公平性報告	定期公開：主要公平性指標數據、偏見發現情形、已採取或預計採取的修正措施
② 引入第三方獨立驗證	邀請外部專業機構進行公平性稽核或審查，驗證結果對外公布 → 提高外部信任度與公信力
③ 與利益關係人保持溝通	積極聆聽不同群體、用戶、社會大眾的關注與建議，納入 AI 系統的持續改進

6跨章關鍵對照（高頻陷阱）

考題易混點 — 一表壓平

6.1四公平性指標 — 情境配對

指標	強調什麼	典型情境
Demographic Parity	結果均等分配（Equality of Outcome）— 不論實際是否符合條件	招聘、入學機會
Equal Opportunity	真正有資格者不能漏掉 — 只看正例的正確預測比例	醫療診斷、社會福利核准
Equalized Odds	TPR + FPR 雙公平 — 正例負例都要一致	司法判決、信用評估
Disparate Impact	80% Rule 法律檢驗 — 比例 ≥ 80% 否則疑似間接歧視	招聘、公平貸款的歧視檢驗

6.2三階段去偏 — 方法歸類

階段	ML pipeline 位置	方法（教材鎖死）
① 資料前處理	訓練前	Re-sampling（資料重新抽樣）／Feature Neutralization（特徵去偏處理）／Data Anonymization and Generalization（資料匿名化與泛化）
② 模型內部處理	訓練中	Fairness Constraints（公平性約束訓練）／Adversarial Fairness（對抗式去偏模型）／Fairness Regularization（公平性正規化）
③ 模型後處理	訓練後 / 部署	Threshold Adjustment（結果門檻調整）／Calibration（結果校準）

6.3Threshold Adjustment vs Calibration

面向	Threshold Adjustment	Calibration
動什麼	改門檻不改分數	改分數不改門檻
動作	直接改變判斷標準（閾值）	重新校準預測分數，使同分數在不同群體代表相同意義
教材範例	貸款核准門檻 60 分降到 55 分	貸款分數 60 分重新校準成 65 分

6.4偏見成因（資料層 vs 模型層）

層面	類型	關鍵辨識詞
資料層	Source Bias 來源偏誤	蒐集階段、分佈不均、地理 / 平台侷限
	Content Bias 內容偏誤	資料內含刻板印象、歷史歧視（醫師男性 / 護士女性）
	Process Bias 製程偏誤	標註者主觀判斷、情感分析不一致
模型層	Algorithmic Bias	推薦系統依多數使用者偏好 → 少數被邊緣化
	Objective Function Bias	整體平均精度為優化目標、無公平性約束
	Regularization Bias	為避免過度擬合 → 簡化變數 → 少數特徵敏感度降
	Insufficient Adversarial Training	對抗式公平學習設計不完善 / 參數不當

6.5隱私 / 不平衡資料 — 模擬考易混技術

技術	定義 / 對應	備註
PII Directly Identifiable Information	直接識別個人身份資訊 — 單獨即可明確辨識個人（姓名、電子郵件地址、身分證字號）	模擬考 Q1 答案
Quasi-Identifiers 準識別資訊	單獨不可直接識別，需結合其他資訊（出生日期、郵遞區號、職業）	模擬考 Q1 干擾選項
Noise Injection 隨機擾動	將敏感數值加入隨機誤差（如薪資加雜訊）	模擬考 Q2
T-Closeness T-接近性	要求群組內敏感屬性的分佈需與全體資料集分佈相近，防止透過分佈偏差推測個人特徵 → 降低機率分佈差異造成的識別風險	模擬考 Q7；進階隱私保護
SMOTE Synthetic Minority Over-sampling Technique	合成新樣本擴增少數類別資料 → 平衡類別分佈、降低過擬合與模型偏誤	模擬考 Q9；少數群體樣本過少時用
Class Weighting 類別重加權	模型訓練時賦予少數類別更高權重，提升對少數群體的辨識能力	模擬考 Q6
Adversarial Fairness 對抗式去偏模型	對抗網路迫使主模型無法預測敏感屬性 → 降低對敏感特徵依賴	模擬考 Q5；屬模型內部處理
知識蒸餾 Knowledge Distillation	不是隱私保護基礎技術（屬模型壓縮技術）	模擬考 Q10 反向選；常見干擾選項

AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23402 考前複習筆記 · v1.0（2026-05 表格化精簡版）