L21102電腦視覺技術與應用

L21102 電腦視覺技術與應用

2CV 基礎概念與發展脈絡

定義 + 五任務 + 三階段演進

2.1CV 定義與跨領域整合

面向	內容
核心目標	模擬或超越人類視覺，從靜態影像（Images）或動態影片（Videos）中擷取、辨識並解釋語意資訊
跨領域整合	影像處理 + 模式辨識 + 機器學習 + 深度學習
歷史起點	1960s 初期萌芽；2012 AlexNet 在 ImageNet 突破 → 高速發展期

2.2CV 五大任務類型

任務	定義	應用例
影像分類 Image Classification	判斷影像屬於哪一類別	商品辨識、醫療影像診斷、社群內容分類
物件偵測 Object Detection	辨識影像中是否存在特定物件，並標示其位置（通常以邊界框標示）	自動駕駛、安防監控、人流偵測
語意分割 Semantic Segmentation	將影像中每一個像素標註為對應的語意類別（道路、車輛、行人等）	城市街景理解、農作物分類、醫學影像處理
實例分割 Instance Segmentation	除了語意標註外，還要分辨同一類別中不同實體（如兩台車分別標註）	自駕車多目標辨識、AR 虛實分離、精密製造檢測
影像生成與合成 Image Generation & Synthesis	利用生成模型合成新影像（文字→圖、風格轉換）	設計輔助、遊戲開發、風格轉換、產出訓練用資料

2.3三階段技術演進

階段	年代	主流方法	代表
① 特徵工程主導	1980s–2010	手工特徵萃取 + 傳統機器學習	Canny 邊緣偵測 / SIFT / SURF / ORB / 色彩紋理 / SVM·KNN·隨機森林
② CNN 革命	2012–2020	深度學習自動學特徵 + GPU 算力 + 大量標註資料	AlexNet / VGGNet / GoogLeNet / ResNet / DenseNet；應用拓展：YOLO·Faster R-CNN（偵測）/ FCN·U-Net（分割）/ FaceNet（人臉）
③ 多模態與生成式 AI 融合	2020–至今	跨模態理解 + 創造性輸出	CLIP / ViT / DALL·E / Stable Diffusion / Midjourney / SAM

2.4第三階段六個代表模型分工

模型	提出方	類型	關鍵能力
CLIP	OpenAI	多模態（文＋圖）	把影像和文字嵌入同一語意空間，做跨模態理解
ViT Vision Transformer	—	視覺主幹	用 NLP 領域的 Transformer 架構處理影像，突破 CNN 主導
DALL·E	OpenAI	生成（文→圖）	自然語言描述創建圖像，高細節創意豐富
Stable Diffusion	Stability AI	生成（開源）	高效精細的圖像生成 + 影像編輯 + 風格變換
Midjourney	商業服務	生成（藝術風格）	具藝術特色與情感表現的圖像，廣用於插畫設計
SAM Segment Anything Model	Meta	影像分割	提升分割任務的可遷移性與泛化能力，普適性強

3影像標註與資料前處理

標註 6 種 + 前處理 7 步 + 進階 3 招

3.1影像標註六種方式

任務	標註方式	說明	常用工具
影像分類	類別標籤（Label）	為整張影像標記單一類別	LabelImg、Label Studio
物件偵測	邊界框（Bounding Box）	標示物件位置與類別	CVAT、Roboflow
語意分割	每個像素分割標籤	影像每一像素皆對應類別	LabelMe、SuperAnnotate
實例分割	像素遮罩 + 實例 ID	區分同類型的多個物件	VGG Image Annotator
關鍵點標注	身體節點或特定點位座標	常用於人體姿態估計	COCO Annotator
文字辨識（OCR）	區塊框選 + 文字內容	每段文字框選並輸入正確字串	Tesseract Trainer、LabelImg OCR 模式

3.2標註進階三招

技術	做什麼	解決什麼
語意 + 實例分割結合	同時做像素類別 + 區分實體	自動駕駛、醫學影像分析的高準確度需求
Auto-labeling 自動化標註	用已標資料訓的模型自動標，人工只校對	大幅減少人力成本
半監督 / 主動學習	少量標註 + 大量未標訓練；模型自選「最具挑戰性樣本」給人標	標註資料不足時提升效果

3.3標註準則三要點

要點	內容
標註一致性	標註者遵循統一規則，避免標註風格或標準的差異對模型效果造成負面影響
標註細節與準確度	邊界框或像素範圍必須準確無誤
品質控制	定期審查、雙重標註機制（兩位標註者同一圖）

3.4影像前處理七步

步驟	方法	目的
圖像尺寸處理	Resize / Padding / Cropping	將影像統一為模型輸入所需大小，避免變形或資訊遺失
正規化處理	Pixel Normalization	將像素值（如 0–255）轉為 0–1 或標準化至均值 0、標準差 1
像素增強	直方圖均衡化、Gamma 校正	提升影像對比度與亮度，適合低光源或品質差影像
噪聲去除	平滑濾波、邊緣保留濾波（高斯、雙邊）	減少感測器或拍攝產生的雜訊
色彩空間轉換	RGB ↔ Grayscale, HSV	依任務調整顏色通道結構，灰階處理常用於簡化輸入
資料擴增 Data Augmentation	翻轉、旋轉、裁剪、模糊、色彩偏移	增強泛化能力，對抗過擬合，常與訓練同步進行
序列統一	在影片或時間序列中影格取樣	應用於動作辨識或影像序列建模任務

3.5進階處理三招

技術	做什麼	解決什麼
資料清洗	去除模糊、重複、標註錯誤或低品質圖片	保證訓練資料品質
分層抽樣 Stratified Sampling	按類別比例抽樣	資料集不平衡時避免某類過多或過少
圖像編碼	圖像 → 張量（Tensor）或嵌入向量（如 CLIP embeddings）	把圖像餵進模型學習/預測的關鍵步驟

4CV 關鍵技術與常用模型

影像分類 / 物件偵測 / 影像分割三類任務 + 代表模型 + IOU

4.1影像分類基礎流程

步驟	內容
① 資料收集與標註	收集大量標註影像，每張影像所屬類別
② 資料預處理	影像縮放至固定尺寸 + 正規化處理
③ 模型選擇	常見模型為卷積神經網路（CNN）— 影像分類最佳選擇
④ 訓練與評估	訓練集訓練、驗證集評估
⑤ 評估指標	準確度（Accuracy）與 Top-5 Error

4.2CNN 五大基本組件

組件	作用	關鍵
卷積層 Convolutional Layer	透過卷積核提取影像的局部特徵	生成特徵圖（Feature Map）
池化層 Pooling Layer	對特徵圖進行降維	如最大池化（Max Pooling）；減少計算量並增強泛化能力
激活層 Activation Layer	引入非線性	如 ReLU 函數，提升模型表達能力
全連接層 Fully Connected Layer	把提取的特徵整合為一維向量	進行最終分類
輸出層	輸出 → 類別機率	通常使用 Softmax 函數

4.3CNN 四大代表模型

模型	提出人/年代	特色	關鍵突破
LeNet	Yann LeCun	結構簡單，5 層，早期 CNN 模型	適用於簡單影像分類，主要用於手寫數字辨識
AlexNet	2012 ImageNet	8 層，引入 ReLU 激活 + Dropout 正則化	深度學習里程碑，奠定 CNN 在 CV 中的地位
VGG	—	強調深度與小卷積核（3×3），層數可達 19 層	顯著提升分類準確度
ResNet	—	引入殘差結構（Residual Connection），深度達 152 層	解決深層網路梯度消失問題

4.4影像分類三大評估指標

指標	定義	備註
準確率 Accuracy	預測正確的樣本數 / 總樣本數	最常見的分類指標
Top-5 錯誤率 Top-5 Error	多分類情境中，若真實類別位於模型預測的前五名內即視為正確	常用於類別數量龐大的資料集（如 ImageNet）
混淆矩陣 Confusion Matrix	展示模型在各類別上的預測分佈	便於分析誤分類情況

4.5物件偵測三大代表模型

模型	原理	強項	限制
YOLO You Only Look Once	基於迴歸的方法，同時預測邊界框與類別	速度快，適合即時應用	準確度通常稍遜兩階段
Faster R-CNN	基於區域提議網路（RPN）生成候選框，再分類與迴歸	準確度高	速度較慢
SSD Single Shot Multibox Detector	基於多尺度特徵進行物件檢測	速度與準確度之間有較好的平衡	—

4.6影像分割：語意 vs 實例

類型	做什麼	關鍵差異
語意分割 Semantic Segmentation	影像中每一像素歸類為預定類別（道路、建築物、行人…）	不區分同類別中的不同實例 — 所有「車輛」像素都標「車輛」，不分哪一輛
實例分割 Instance Segmentation	在語意分割基礎上，進一步區分同類別中的不同實體	每個物體賦予唯一識別符；結合物體檢測 + 語意分割

4.7三大分割模型

模型	架構特色	強項	適合場景
FCN Fully Convolutional Network	傳統 CNN + 上採樣層（Upsampling）還原為原始大小	端到端訓練、像素級分類	通用語意分割
U-Net	對稱編碼器/解碼器結構 + 跳躍連接（Skip Connections）	從高解析特徵恢復細節，適合不平衡資料	專為醫療影像分割設計
Mask R-CNN	基於 Faster R-CNN 擴展 + 額外分支預測二進制遮罩	實現實例分割，準確標註物體邊界	複雜背景的多物體場景

4.8IOU 公式與計算示例

項目	定義 / 公式
IOU 定義	衡量預測分割區域與真實標籤區域之間的重疊程度，`IOU = Area_Intersection / Area_Union`
值域範圍	從 0 到 1，越接近 1 表示預測越準確
成功門檻	物體檢測中，IOU > 0.5 或 0.7 通常視為成功預測

步驟	數值（教材示例）
真實標註框（Ground Truth）面積	100 平方單位
預測框（Predicted Box）面積	80 平方單位
重疊區域（Intersection）	40 平方單位
聯集區域（Union）= 100 + 80 − 40	140 平方單位
IOU = 40 / 140	≈ 0.286（教材鎖死值）

5CV 應用情境與實務案例

四大領域：監控與安全 / 醫療 / 智慧製造與零售 / AR-VR-自駕

5.1監控與安全（Surveillance & Security）

項目	內容
A. 人臉辨識	三步：人臉檢測 → 特徵提取（眼鼻嘴相對位置）→ 比對與辨識
B. 車牌辨識 ANPR Automatic Number Plate Recognition	交通管理與監控；流程：車牌區域檢測 → 字符辨識（轉可讀文字）
C. 隱私與合規管理	遵守 GDPR、HIPAA 等隱私法規；提供資料訪問與刪除權；注意模型偏見問題（不同種族檢測準確度差異）
D. 即時推論 Real-time Inference	監控系統需即時分析與低延遲，要求高效計算資源

5.2醫療影像診斷（Medical Imaging）

面向	內容
A. 影像分類	將 CT/MRI 分類為不同診斷結果，提升診斷效率、輔助醫療判斷、減少誤診
B. 影像分割	用 U-Net 將腫瘤、病灶等關鍵區域與背景分離，精確定位病灶
C. 醫療數據與標註	醫療影像通常需專業醫師標註，準確標註對模型訓練至關重要
D. 醫療隱私法規	處理醫療影像時必須遵守相應的隱私保護法規，確保患者資料安全

5.3智慧製造與零售（Smart Manufacturing & Retail）

項目	內容
A. 工業瑕疵偵測	產品檢查：表面缺陷、尺寸偏差；用於生產線確保產品品質
B. 商品行為分析	零售業追蹤顧客與商品互動、停留時間；優化商品擺放、提高銷售轉換率
C. 邊緣運算與即時回饋	邊緣運算：數據處理推向接近數據源的設備，減少延遲；即時回饋：檢測到瑕疵即時通知操作員
D. 顧客行為追蹤	熱點圖（Heatmap）：分析店內移動路徑與停留時間，幫助優化店鋪佈局

5.4其他應用：AR/VR + 自動駕駛

項目	內容
A. AR（擴增實境）	追蹤實體物體，疊加虛擬物體或資訊，增強用戶互動體驗
A. VR（虛擬實境）	追蹤使用者動作映射到虛擬世界，提供沉浸式體驗
B. 自駕：車道線偵測	Lane Detection — 確保車輛正確行駛於車道中
B. 自駕：物件偵測	辨識路面障礙物、行人、其他車輛，確保自駕車安全
B. 自駕：多模態融合	Multimodal Fusion — 融合雷達、LiDAR（激光雷達）、影像等不同感測器數據；提升環境感知與決策準確度

6CV 技術挑戰與風險

資料隱私 → 偏見可靠度 → 部署維運三層風險

6.1三層風險總覽

層	核心議題	關鍵字
① 資料隱私與合規	PII 個人識別資料、敏感影像（人臉、車牌、住址、兒童）	GDPR / 個資法 / 去識別化 / 合法授權 / 最小化原則
② 偏見與模型可靠度	資料偏見影響模型公平性與準確度；誤檢與漏檢	資料來源不平衡 / 標註偏誤 / 拍攝條件偏差 / Bias Audit
③ 部署與維運風險	資源負荷、版本管理、資料漂移	邊緣輕量模型 / 資料漂移 / MLOps CI-CD / 回退機制

6.2資料隱私與合規

面向	內容
A. 核心挑戰	影像含個人識別資料（PII）；人臉具高度辨識性屬敏感個資 — 依《個人資料保護法》、GDPR 嚴格管理；敏感影像（車牌、住址、兒童畫面）也須保護
B. 合規做法	① 資料匿名化與去識別化（臉部遮蔽、模糊化、遮罩） ② 合法授權（明示告知用途、取得同意） ③ 資料保存與刪除政策（最小化原則，過期自動刪除/加密）
C. 社會倫理爭議	公共領域要在「安全防護」與「個人隱私」之間找平衡（如校園人臉門禁未獲學生家長同意 → 引發倫理與法律風險）

6.3偏見與模型可靠度

偏見來源	說明
① 資料來源不平衡	訓練資料某些族群（膚色、性別、年齡）過於集中 → 模型對其他族群辨識準確度較低
② 標註偏誤	人工標註過程中的主觀認知或文化偏見 → 標註結果不一致
③ 拍攝條件偏差	攝影角度、光照、解析度差異 → 影響模型泛化能力

失準類型	說明 / 教材示例
誤檢 False Positive	將健康人誤診為病人 → 不必要的檢查或醫療干預
漏檢 False Negative	未辨識存在的目標，例如漏檢工業瑕疵 → 缺陷產品流入市場

提升公平性做法	說明
偏見診斷測試（Bias Audit）	針對不同族群進行模型行為分析，確認是否存在偏見或不公平現象
數據平衡與重加權	過採樣、欠採樣、數據增強，調整資料分佈以減少偏見
可信度評估指標	AUC、精確度、召回率等多維度指標全面評估

6.4部署與維運風險

風險	說明	緩解 / 解決策略
GPU/TPU 資源限制	邊緣設備（智慧監控攝像頭）運算資源有限	選擇輕量化模型（MobileNet、YOLOv5-Nano）
批次處理延遲	影像串流延遲 → 影響即時性	邊緣運算 + 串流優化
版本管理困難	更新流程不嚴謹 → 不同版本推論結果不一致 → 業務爭議或誤判	MLOps CI/CD 流程、模型版本治理
資料漂移 Data Drift	環境或攝影條件變化 → 輸入資料分佈改變 → 模型失效	持續監控模型效能與異常情況
部署測試不足	未充分驗證 → 忽略場域特殊性（光照、影像模糊）	影像品質監測（畫質分析、網路延遲測試）
—	—	預設容錯與回退機制：模型異常時自動回退至先前版本或預設邏輯，確保服務不中斷

AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L21102 考前複習筆記 · v1.0（2026-05 表格化精簡版）