L23401數據隱私、安全與合規
0%

L23401 數據隱私、安全與合規

2數據隱私風險的辨識與評估
三類風險 + 系統化評估流程(A/B/C/D 四法)

2.1三類隱私風險(依識別威脅程度)

風險類型定義 / 教材範例關鍵特性
① 直接識別風險含可直接辨識特定個人的欄位
例:姓名、身分證號碼、電子郵件、聯絡電話、金融帳號
多屬 個人識別資訊(Personally Identifiable Information, PII)GDPR / CCPA / PDPA 均視為高度敏感,企業治理列最高優先
② 間接識別風險
(準識別資訊)
單一欄位無法辨識,但多項資訊交叉比對仍可推導身份
例:性別、出生年月、職業、地理位置、消費習慣、瀏覽紀錄
準識別資訊(Quasi-identifiers);台灣人口密度較低特定職業 / 族群較少的地區風險更顯著
③ 再識別風險即便已去識別化(移除姓名、代碼替代),仍可能因外部資料的豐富性與可取得性重新還原身分開放數據、資料共享、AI 模型訓練場景應高度重視

2.2隱私風險評估 4 法(A/B/C/D)

編號方法用途
A資料盤點與分類(Data Map)隱私風險管理的首要步驟 — 建立資料清冊、做開放與敏感度分級
B隱私影響評估(Privacy Impact Assessment, PIA)系統性分析資料處理活動對個人隱私的影響,並提出風險緩解策略
C風險矩陣與風險等級用「可能性 × 影響程度」二維矩陣排序,集中資源處理高風險
D再識別模擬與滲透測試(Re-identification Simulation)對開放、共享、AI 平台資料集驗證匿名化效果

2.3A. 資料盤點與分類(Data Map)

面向內容
定義建立完整的資料清冊或資料地圖(Data Map),記錄每一類資料的詳細資訊,是隱私風險管理的首要步驟
7 大記錄欄位
(教材鎖死)
資料來源(表單、感測器、外部購買等)
處理流程(收集、整理、分析、儲存、傳輸、銷毀)
欄位型態與內容(欄位意義、資料格式)
接觸單位或使用部門(誰可存取)
流通路徑(組織內 / 外的流動與交換)
儲存位置(內部伺服器 / 雲端 / 第三方)
保留期限(保存多久、過期如何處置)
層級分類(兩層)
層級分類說明
開放層級
(Access Level)
公開資料對外公開、無涉個資(如政府統計、年報)
非公開資料僅限內部使用,需特定權限存取
敏感度層級
(Sensitivity Level)

由低到高
一般資料不涉個資或機敏業務,外洩風險低
機密資料商業機密、內部策略、合約等
個人資料可直接 / 間接識別個人,需依個資法嚴格管理
高度敏感個資涉及健康、財務、族群、宗教、政治傾向,外洩恐造成重大損害,常受法律特別規範

2.4B. 隱私影響評估 PIA(5 步驟)

面向內容
全名隱私影響評估(Privacy Impact Assessment, PIA)— 國際間廣泛採用的隱私治理工具,是許多國家隱私法規的要求
5 步驟流程
(a→e)
a. 資料流程盤點 — 釐清「收集→處理→儲存→使用→刪除」全流程
b. 風險辨識 — 找出可能對個人隱私造成風險的環節
c. 影響程度分析 — 評估若風險發生對個人 / 組織的法律、營運、信譽衝擊
d. 策略擬定 — 擬定技術性或管理性的防範措施降低機率 / 衝擊
e. 治理責任分工 — 明確界定內部部門 / 角色的責任與權限

2.5C. 風險矩陣與風險等級

面向內容
風險矩陣
(Risk Matrix)
風險視覺化工具,將風險發生的可能性(Likelihood)風險影響程度(Impact)交叉評估,形成二維矩陣
常見格式:3x35x5
風險等級公式風險等級(Risk Level)= 發生機率(Probability)× 影響程度(Impact)
發生機率
(Probability)
低(Rare)中(Possible)高(Likely)
影響程度
(Impact)
輕微(Minor)重大(Major)災難性(Critical)
風險等級因應策略
低風險(Low Risk)可接受、可監控
中風險(Medium Risk)需規劃因應對策
高風險(High Risk)應優先處理,必要時迴避或延後導入

2.6D. 再識別模擬與滲透測試

面向內容
全名再識別模擬與滲透測試(Re-identification Simulation)— 對計畫開放、共享或應用於 AI 模型平台的資料集,驗證匿名化 / 去識別化措施有效性
2 種測試方法交叉比對測試 — 利用公開社群資料、政府開放資料、商業數據進行比對
欄位組合分析 — 評估多個欄位組合在特定情境下是否具備推導能力
3 項對策
(風險偏高時)
強化匿名化或去識別化技術(加大模糊化程度、降低精細度)
調整資料釋出範圍或限制使用情境
審慎評估是否適合對外公開該筆資料集
3隱私保護與匿名化技術實務應用
基礎匿名化 5 招 + 進階 PETs 3 家族(K-L-T / FL / HE)

3.1基礎匿名化技術 5 招

技術定義 / 範例(教材鎖死)應用 / 優點限制
① 遮蔽
Masking
以符號或虛構數據替換敏感欄位的部分或全部內容
王大明 → 王○○
A123456789 → A1*******89
應用:報表展示、非正式分析、測試環境數據生成
優點:實作簡單、快速;能保留資料格式(如電話長度)
僅隱藏部分資訊,搭配其他資料仍可能被推測還原
② 雜湊處理
Hashing
對身分類欄位(帳號、Email)做單向雜湊(如 SHA-256),產生固定長度、不可逆字串,用於比對而非顯示應用:匿名化用戶 ID、跨資料庫比對、資料去重
優點:不可逆、支援一致性比對,安全性高
原始資料種類有限(如短 ID),易受彩虹表攻擊不適合用於數值分析
③ 泛化
Generalization
降低資料精度
1987-03-12 → 1980 年代
台北市信義區基隆路 → 台北市
應用:公開數據集、統計分析、降低精細定位風險
優點:簡單有效,能保留資料的分佈特性
精度降低可能影響分析準確度(如年齡分群分析)
④ 分桶
Bucketing
將連續數值轉換為區間
收入 58,000 元 → 50K–60K
年齡 32 歲 → 30–39 歲
應用:統計報表、人口統計分析、降低數值精確度風險
優點:保留數據趨勢,減少個體識別風險
分桶設計過細,仍可能造成再識別風險
⑤ 隨機擾動
Noise Injection
為數值資料加入隨機噪聲(如高斯噪聲
薪資 50,000 → 50,123
應用:數值型資料分享、統計分析
優點:保留整體統計特性(如平均數、標準差)
噪聲幅度過大影響分析、幅度過小難以保護 — 需精心設計

3.2進階隱私強化技術 PETs(3 家族)

3.2aK-匿名 / L-多樣性 / T-接近性(K-L-T 三層遞進)

技術條件 / 防護目標
K-匿名
K-Anonymity
確保每筆紀錄至少與其他 K-1 筆紀錄準識別欄位(如年齡、性別)上相同 → 降低個體識別風險
L-多樣性
L-Diversity
在 K-匿名基礎上,要求每個群組內敏感欄位(如疾病)必須具有至少 L 種不同值 → 避免屬性推測
T-接近性
T-Closeness
要求群組內敏感欄位的分佈全體資料集相近 → 防止因分佈偏差而推測個體特徵
面向內容
應用場景公開數據集、醫療研究、金融風險分析
優點在結構化資料中保護效果佳,實務中易於實施
限制① 計算複雜度較高
K 值過大可能導致資料精度降低
對非結構化資料(文字、影像)的適用性有限

3.2b聯邦學習(Federated Learning, FL)

面向內容
定義模型在各個客戶端(使用者裝置 / 不同機構)本地進行訓練只將模型參數更新(如梯度)傳回中央伺服器,避免原始資料集中存放或傳輸
應用場景醫療聯盟(跨院數據建模)、手機鍵盤輸入預測
優點保留資料在本地,降低外洩風險;支援跨機構合作
限制通訊成本高
② 可能面臨參數逆向推導的攻擊風險(從梯度反推原始資料)

3.2c同態加密(Homomorphic Encryption, HE)

面向內容
定義允許在加密資料上直接執行運算(如加法、乘法),解密後結果與在明文上運算相同,確保計算過程中資料全程保密
應用場景雲端 AI 模型訓練、金融風控計算、醫療研究中的外包運算
優點即使數據外包處理,也無需解密,提升機密保障;基於密碼學提供強安全保證
限制計算效能較低,尤其是完全同態加密(Fully Homomorphic Encryption, FHE),需高效能硬體支援

3.3基礎 vs 進階對照

層面基礎資料匿名化技術進階隱私強化技術 PETs
處理層級資料層(單表 / 單欄位處理)演算法 / 密碼學層(系統設計)
典型方法Masking / Hashing / Generalization / Bucketing / Noise InjectionK-Anonymity / L-Diversity / T-Closeness / Federated Learning / Homomorphic Encryption
主要場景報表展示、測試環境、跨資料庫比對醫療聯盟、雲端 AI 訓練、金融風控、跨院建模
主要威脅欄位推測、彩虹表再識別攻擊、生成式 AI 記憶個資、參數逆向推導
4合規實務建議(5 原則)
合法 / 最小化 / 去識別 / 透明 / 跨境 — 教材鎖死五大主題

4.1合法來源與告知同意

面向內容
合法來源蒐集個人資料前,必須確認資料來源合法(直接向當事人 / 透過第三方),審視取得過程合規性
有效同意
三要素

(教材鎖死)
自由性不可因服務限制、經濟利益或壓力而被迫同意
明確性與具體性 — 清楚載明蒐集項目、利用目的、範圍、保存期間,不可使用籠統條款
可撤回性 — 當事人應有權隨時撤回同意,企業須說明撤回方式與後續影響
替代合法依據
(無法取得同意時)
履行契約
法定義務
正當利益

4.2資料最小化與目的限制

面向內容
必要性原則蒐集資料時僅收集實現 AI 訓練或預期功能所需的最低限度資料,避免無關資訊進入系統
目的限制不得將資料用於未經告知或未獲同意的其他目的,即使該用途對企業有商業價值
敏感資料
比例原則
健康、族群、宗教信仰等敏感資料,須謹慎評估蒐集必要性與比例原則,並尋求替代方式(如使用泛化後的統計資料

4.3去識別化或匿名化處理

面向內容
適用情境資料計畫對外共享、用於模型發布、研究公開、與第三方合作時,優先採取去識別化或匿名化技術
實作要點① 去識別化應確保無法輕易回推個人身份
② 結合再識別風險測試驗證效果
③ 不同法規對匿名化標準認定有差異,須保留風險評估紀錄
④ 必要時先對敏感欄位進行泛化、分桶或差分隱私處理,平衡隱私保護與資料效用

4.4透明度與紀錄保存

面向內容
紀錄保存類別
(教材鎖死 6 項)
資料來源及收集方式
資料蒐集與利用的法律基礎
資料處理過程、傳輸及外部共享情況
受影響的資料類別與當事人群體
所採用的保護技術與風險緩解措施
對外文件隱私聲明模型說明文件,讓使用者瞭解其資料如何被用於 AI 訓練
內部稽核定期進行內部稽核與政策檢視,確保所有作業符合最新法規及業界標準

4.5跨境傳輸規範

面向內容
觸發場景AI 訓練或服務涉及跨國資料流通時,需確認是否觸及不同國家 / 地區的個資傳輸限制
GDPR 規範
(教材原文)
GDPR(歐盟通用資料保護規則)規定:將歐盟居民個資移轉至歐盟以外國家,需符合:
足夠保護措施
標準合約條款
③ 或其他合法機制
檢視項目
(教材鎖死 3 項)
明確定義跨境資料流動的範圍、用途與國家
評估接收國的隱私保護水準及潛在法律風險
制定跨境傳輸協議或標準條款,並保存紀錄以供監管機關查驗
5跨章關鍵對照
高頻混淆題型 — 一表壓平

5.1三類隱私風險對照

風險類型核心特徵典型欄位關鍵名詞
直接識別單一欄位即可辨識姓名、身分證、Email、電話、金融帳號PII(Personally Identifiable Information)
間接識別多欄位交叉推導性別、出生年月、職業、地理位置、消費習慣、瀏覽紀錄Quasi-identifiers(準識別資訊)
再識別去識別化後仍被外部資料還原—(任何匿名化資料)Re-identification;常見於開放數據、資料共享、AI 訓練

5.2基礎匿名化 5 招對照

技術本質致命限制
Masking 遮蔽符號替換搭配其他資料仍可推測還原
Hashing 雜湊SHA-256 單向彩虹表攻擊;不適合數值分析
Generalization 泛化降低精度精度損失影響分析(年齡分群)
Bucketing 分桶區間化分桶過細仍有再識別風險
Noise Injection 隨機擾動加高斯噪聲幅度需精心設計(過大失真 / 過小無效)

5.3進階 PETs 3 家族對照

家族核心機制典型場景主要限制
K-匿名 / L-多樣性 / T-接近性準識別欄位群組化 → 敏感欄位 L 種值 → 分佈接近全體公開數據集、醫療研究、金融風險分析計算複雜;K 值過大損失精度;對非結構化資料適用性有限
聯邦學習 Federated Learning資料留本地,只傳模型參數更新 / 梯度醫療聯盟(跨院建模)、手機鍵盤輸入預測通訊成本高;參數逆向推導攻擊風險
同態加密 Homomorphic Encryption加密資料上直接做加法 / 乘法運算,解密結果同明文雲端 AI 訓練、金融風控、醫療外包計算效能低,FHE 需高效能硬體

5.4合規 5 原則對照

原則核心關鍵字易考點
合法來源與告知同意自由性 / 明確性與具體性 / 可撤回性替代依據:履行契約 / 法定義務 / 正當利益
資料最小化與目的限制必要性原則 + 比例原則不可挪用未告知用途;敏感資料(健康 / 族群 / 宗教)用泛化後統計資料替代
去識別化或匿名化處理對外共享前處理 + 再識別風險測試不同法規匿名化標準不一,須保留風險評估紀錄
透明度與紀錄保存5 項紀錄 + 2 對外文件 + 內部稽核對外:隱私聲明 / 模型說明文件
跨境傳輸規範GDPR / 接收國保護水準 / 標準合約條款明確跨境流動範圍 / 用途 / 國家 + 制定協議保存紀錄

5.5三大國際個資法對照

法規管轄本章重點
GDPR
General Data Protection Regulation
《一般資料保護規則》
歐盟本章 4.5.跨境傳輸 — 移轉歐盟個資至境外需足夠保護措施 / 標準合約條款
CCPA
California Consumer Privacy Act
《加州消費者隱私法案》
美國加州視 PII 為高度敏感資訊;台灣企業跨境美國用戶資料需檢視
PDPA
Personal Data Protection Act
《個人資料保護法》
台灣(亦含新加坡等)視 PII 為高度敏感資訊;本地處理個資的主要依據

5.6適用 vs 限制 — 高頻陷阱

技術 / 概念常見「適用」常見「限制」陷阱
Masking 遮蔽報表展示、非正式分析、測試環境仍可與其他資料推測還原
Hashing 雜湊匿名化用戶 ID、跨資料庫比對、資料去重彩虹表攻擊;不適合數值分析
Generalization 泛化公開數據集、統計分析、降低定位精度精度損失影響分析準確度
Bucketing 分桶統計報表、人口統計分析分桶過細仍有再識別風險
Noise Injection 隨機擾動數值型資料分享、統計分析噪聲幅度過大 / 過小都不行
K-匿名 / L-多樣性 / T-接近性結構化資料、公開數據集、醫療研究計算複雜;K 大損失精度;對非結構化資料適用性有限
聯邦學習 FL醫療聯盟跨院建模、手機鍵盤輸入預測通訊成本高;參數逆向推導攻擊
同態加密 HE雲端 AI 訓練、金融風控、醫療外包計算效能低,FHE 需高效能硬體
PIA系統性隱私治理、許多國家法規要求非一次性 — 須持續迭代
跨境傳輸跨國 AI 服務 / 訓練需評估接收國保護水準;保存紀錄供監管查驗
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23401 考前複習筆記 · v1.0(2026-05 表格化精簡版)