L23402演算法偏見與公平性
0%

L23402 演算法偏見與公平性

2偏見的成因與類型
資料層 3 類 × 模型層 4 類 × 潛在影響 3 面向

2.1資料代表性與偏誤風險 — 三類資料偏誤

類型核心問題常見情況 / 例子(教材鎖死)
① 來源偏誤
Source Bias
發生在資料蒐集階段;資料無法均衡涵蓋所有應被代表的群體或情境1. 群體分佈不均 — 醫療模型缺某年齡層或性別數據
2. 社經或地理偏重 — 資料集中都市、高收入群體,忽略偏鄉
3. 文化與語言侷限 — 語料僅來自北美,無法理解亞洲語境
4. 來源平台侷限 — 資料僅來自特定社群平台
② 內容偏誤
Content Bias
存在於資料本身的內容或敘事方式;資料內含不公平或歧視觀點1. 資料包含刻板印象歷史不平等
2. 將「醫師預設男性護士預設女性」強化性別刻板印象
3. 信用審核歷史資料中,隱含種族或性別歧視
③ 製程偏誤
Process Bias
出現在資料標註或編輯過程;人為主觀判斷導致不一致或偏差1. 不同標註者對同一句話在情感分析上判斷不同
2. 標註者因個人觀念產生刻板印象的標註偏誤

2.2模型偏見與歧視 — 四類模型層偏見

來源機制範例(教材鎖死)
① 演算法偏見
Algorithmic Bias
某些演算法在追求整體預測效能時,可能忽略少數群體的需求推薦系統依據多數使用者偏好生成結果,少數群體興趣與需求被邊緣化
② 目標函數偏誤
Objective Function Bias
多數模型以整體平均精度作為優化目標,若未加入公平性約束,會犧牲特定群體的預測準確度模型一味提升整體效能 → 少數群體準確度被犧牲
③ 正規化與簡化偏誤
Regularization Bias
為避免過度擬合,模型會簡化變數間的關聯,降低對少數群體特徵的敏感度模型在少數群體上的表現較差
④ 對抗式訓練不足
Insufficient Adversarial Training
即使導入對抗式公平學習(Adversarial Fairness),若設計不完善或參數設定不當,仍可能保留部分偏見對特定群體預測仍不公

2.3偏見的潛在影響 — 三大風險面向

面向影響範圍具體後果(教材鎖死)
① 弱勢群體受歧視技術 → 社會層面女性、少數族群、高齡者、身心障礙者產生不公平決策;在就業、金融服務、醫療診斷等領域遭差別待遇 → 加劇社會不平等
② 企業品牌與信譽受損商譽層面社會輿論反彈、媒體關注、用戶抵制、合作夥伴疏遠 → 嚴重損害企業形象、信譽、市場競爭力
③ 法律與監管風險法律層面違反反歧視法 / 個人資料保護法 / 消費者保護法(三大法律紅線)→ 面臨巨額罰款、法律訴訟、監管機關調查與處分
3公平性指標與評估工具
四指標 × 兩工具 — 衡量「不同群體間的系統性差異」

3.1常見公平性指標(四指標教材鎖死)

指標定義 / 比較對象適用情境限制
① Demographic Parity
群體平等率
不同群體獲得正向預測(核准貸款、錄取面試)的比例應大致相同;強調結果的均等分配(Equality of Outcome)
比較:各群體獲得正向預測的整體比例(不論實際是否符合條件
結果平等有高度要求 — 招聘、入學機會可能為達比例公平而犧牲個別個案預測準確性;無法考量實際資格差異
② Equal Opportunity
機會平等
實際應獲得正向預測的個案中(真正應核准貸款的人),不同群體被正確預測的機率應相同;強調真正有資格的人不能漏掉
比較:各群體中「真實應該被選擇」者的正確預測比例
必須確保真正該被服務者不被忽略 — 醫療診斷、社會福利核准僅關注正例的正確預測,未考量負例的錯誤比例
③ Equalized Odds
均衡機率
不同群體間,正例負例都有相同的預測機率;即 True Positive Rate(正確核准比例)False Positive Rate(錯誤核准比例) 皆需一致
比較:各群體的正確預測率與錯誤預測率兩種情境
同時考量預測正確率與誤判率公平 — 司法判決、信用評估等敏感領域實務上難以完全達成;可能需犧牲部分整體效能;實現方式較為複雜
④ Disparate Impact
不利影響比
比較群體間獲得正向結果的比例,若某群體比例未達另一群體的 80%(80% Rule),可能構成間接歧視或不利待遇法律合規審查 — 招聘、公平貸款的歧視檢驗僅考量結果比例差異,無法指出產生偏差的具體原因

3.2公平性評估工具(兩工具對照)

面向IBM AI Fairness 360(AIF360)Microsoft Fairlearn
開發者IBM Research 開發的開源 Python 工具包微軟開發的 Python 工具
規模支援超過 70 種公平性指標與多種去偏技術專注於衡量及降低AI 系統中的公平性問題
功能1. 計算群體間各類公平性指標
2. 資料前處理、模型內部處理、結果後處理的去偏方法
3. 產生公平性分析報告及視覺化圖表
1. 計算群體間公平性指標
2. 公平性約束下的模型再訓練工具
3. 支援可解釋性分析
優點支援多種指標與方法;文件完整;適合研究及企業試驗性應用scikit-learn 等 Python 生態系統高度相容;易於整合進現有機器學習流程
限制大型商業模型或複雜系統需進行額外整合與測試提供的去偏功能較 AIF360 少適合中小型或輕量化專案
4降低演算法偏見的方法論與技術方案
資料前處理 / 模型內部處理 / 模型後處理 — 對應 ML pipeline 訓練前 / 中 / 後

4.1資料前處理(訓練前階段)

方法定義實例(教材鎖死)
① 資料重新抽樣
Re-sampling
透過增加或減少特定群體資料的方式,使資料分佈更加均衡招聘模型訓練前,調整不同性別的履歷數量達成平衡
② 特徵去偏處理
Feature Neutralization
移除或調整可能引發偏見的敏感特徵(性別、族群),或其高度相關的特徵銀行信用評分移除客戶族群特徵,避免種族偏見
③ 資料匿名化與泛化
Data Anonymization
and Generalization
降低敏感特徵的精確性(如年齡轉換成年齡區間),減少因敏感特徵產生的偏見將特定族群改為一般化標籤;年齡 28 歲 → 25–34 歲區間

4.2模型內部處理(訓練中階段)

方法定義實例(教材鎖死)
① 公平性約束訓練
Fairness Constraints
訓練模型時,同時加入公平性指標作為約束條件(如 Demographic Parity、Equal Opportunity貸款模型在訓練時強制約束不同性別的核准率相似
② 對抗式去偏模型
Adversarial Fairness
同時訓練一個去預測敏感特徵(如性別)的「對抗式網路」,迫使主模型學到不受敏感特徵影響的特徵表現招聘模型透過對抗網路訓練,使履歷分析結果無法推斷申請者性別
③ 公平性正規化
Fairness Regularization
在模型訓練目標函數中加入額外的公平性損失項(Fairness Loss),同時平衡準確度與公平性 — L_total = L_main + λ · L_fair信用評分模型透過加入公平性損失函數,確保各族群錯誤率接近

4.3模型後處理(訓練後 / 部署階段)

方法定義實例(教材鎖死)
① 結果門檻調整
Threshold Adjustment
模型產出預測分數後,針對不同群體調整正向預測的閾值,以達到公平性。直接改變判斷標準(閾值),例如改變「通過 / 不通過」的門檻司法判決風險評估模型,調整不同族群的判斷閾值;將某群體的貸款評估核准門檻從 60 分降到 55 分
② 結果校準
Calibration
針對不同群體的模型預測分數進行重新校準,使相同分數在不同群體間代表相同意義。不改變判斷標準(閾值),但調整不同群體的預測分數,使同一分數在不同群體具有相同意義信用評分模型在男女族群分別進行校準;將某群體的貸款評估分數從 60 分重新校準成 65 分
5組織面向的 AI 公平性治理策略
不能僅依賴技術 — 建立制度、流程、文化的 4 大策略

5.1建立 AI 公平性治理機制

作法內容(教材鎖死)
① 建立公平性政策與標準制定明確的 AI 公平性原則(如 Demographic Parity、Equal Opportunity);訂定具體的公平性衡量指標及可接受範圍
② 設立跨部門公平性審查委員會集合法務、技術、產品、倫理、風險管理等部門;於 AI 專案早期即參與,預防潛在偏見而非事後處理
③ 明確責任與問責機制將公平性納入高階主管(資訊長、法務長)的 KPI,或企業 ESG 報告範疇;建立公平性審查流程紀錄機制,可追溯與透明、便於內外部稽核

5.2多元化團隊與公平意識教育訓練

作法內容
① 招募多元化團隊成員聘用不同性別、族群、文化、專業背景的人才;鼓勵跨部門合作,降低團隊盲點風險
② 推動公平性與倫理培訓定期舉辦 AI 公平性及倫理課程;瞭解偏見的成因、影響、風險;建立企業內部公平性文化

5.3公平性評估與稽核制度

作法內容
① 定期公平性稽核
Fairness Audits
每年定期對關鍵 AI 系統進行公平性稽核 → 公開報告與改善計畫;新上線或重大更新的 AI 系統,應進行公平性審查與測試
② 導入公平性指標監控系統將公平性指標納入日常監控報告;建立即時警示機制,當指標超出預設範圍時啟動風險應變措施

5.4AI 公平性資訊揭露與溝通策略

作法內容
① 主動揭露 AI 公平性報告定期公開:主要公平性指標數據、偏見發現情形、已採取或預計採取的修正措施
② 引入第三方獨立驗證邀請外部專業機構進行公平性稽核或審查,驗證結果對外公布 → 提高外部信任度與公信力
③ 與利益關係人保持溝通積極聆聽不同群體、用戶、社會大眾的關注與建議,納入 AI 系統的持續改進
6跨章關鍵對照(高頻陷阱)
考題易混點 — 一表壓平

6.1四公平性指標 — 情境配對

指標強調什麼典型情境
Demographic Parity結果均等分配(Equality of Outcome)— 不論實際是否符合條件招聘、入學機會
Equal Opportunity真正有資格者不能漏掉 — 只看正例的正確預測比例醫療診斷、社會福利核准
Equalized OddsTPR + FPR 雙公平 — 正例負例都要一致司法判決、信用評估
Disparate Impact80% Rule 法律檢驗 — 比例 ≥ 80% 否則疑似間接歧視招聘、公平貸款的歧視檢驗

6.2三階段去偏 — 方法歸類

階段ML pipeline 位置方法(教材鎖死)
① 資料前處理訓練前Re-sampling(資料重新抽樣)/Feature Neutralization(特徵去偏處理)/Data Anonymization and Generalization(資料匿名化泛化)
② 模型內部處理訓練中Fairness Constraints(公平性約束訓練)/Adversarial Fairness(對抗式去偏模型)/Fairness Regularization(公平性正規化)
③ 模型後處理訓練後 / 部署Threshold Adjustment(結果門檻調整)/Calibration(結果校準)

6.3Threshold Adjustment vs Calibration

面向Threshold AdjustmentCalibration
動什麼改門檻不改分數改分數不改門檻
動作直接改變判斷標準(閾值)重新校準預測分數,使同分數在不同群體代表相同意義
教材範例貸款核准門檻 60 分降到 55 分貸款分數 60 分重新校準成 65 分

6.4偏見成因(資料層 vs 模型層)

層面類型關鍵辨識詞
資料層Source Bias 來源偏誤蒐集階段、分佈不均、地理 / 平台侷限
Content Bias 內容偏誤資料內含刻板印象、歷史歧視(醫師男性 / 護士女性)
Process Bias 製程偏誤標註者主觀判斷、情感分析不一致
模型層Algorithmic Bias推薦系統依多數使用者偏好 → 少數被邊緣化
Objective Function Bias整體平均精度為優化目標、無公平性約束
Regularization Bias為避免過度擬合 → 簡化變數 → 少數特徵敏感度降
Insufficient Adversarial Training對抗式公平學習設計不完善 / 參數不當

6.5隱私 / 不平衡資料 — 模擬考易混技術

技術定義 / 對應備註
PII
Directly Identifiable Information
直接識別個人身份資訊 — 單獨即可明確辨識個人(姓名、電子郵件地址、身分證字號)模擬考 Q1 答案
Quasi-Identifiers
準識別資訊
單獨不可直接識別,需結合其他資訊(出生日期、郵遞區號、職業)模擬考 Q1 干擾選項
Noise Injection
隨機擾動
將敏感數值加入隨機誤差(如薪資加雜訊)模擬考 Q2
T-Closeness
T-接近性
要求群組內敏感屬性的分佈需與全體資料集分佈相近,防止透過分佈偏差推測個人特徵 → 降低機率分佈差異造成的識別風險模擬考 Q7;進階隱私保護
SMOTE
Synthetic Minority
Over-sampling Technique
合成新樣本擴增少數類別資料 → 平衡類別分佈、降低過擬合與模型偏誤模擬考 Q9;少數群體樣本過少時用
Class Weighting
類別重加權
模型訓練時賦予少數類別更高權重,提升對少數群體的辨識能力模擬考 Q6
Adversarial Fairness
對抗式去偏模型
對抗網路迫使主模型無法預測敏感屬性 → 降低對敏感特徵依賴模擬考 Q5;屬模型內部處理
知識蒸餾
Knowledge Distillation
不是隱私保護基礎技術(屬模型壓縮技術)模擬考 Q10 反向選;常見干擾選項
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23402 考前複習筆記 · v1.0(2026-05 表格化精簡版)