L21102 電腦視覺技術與應用
2CV 基礎概念與發展脈絡
定義 + 五任務 + 三階段演進
2.1CV 定義與跨領域整合
| 面向 | 內容 |
|---|---|
| 核心目標 | 模擬或超越人類視覺,從靜態影像(Images)或動態影片(Videos)中擷取、辨識並解釋語意資訊 |
| 跨領域整合 | 影像處理 + 模式辨識 + 機器學習 + 深度學習 |
| 歷史起點 | 1960s 初期萌芽;2012 AlexNet 在 ImageNet 突破 → 高速發展期 |
2.2CV 五大任務類型
| 任務 | 定義 | 應用例 |
|---|---|---|
| 影像分類 Image Classification | 判斷影像屬於哪一類別 | 商品辨識、醫療影像診斷、社群內容分類 |
| 物件偵測 Object Detection | 辨識影像中是否存在特定物件,並標示其位置(通常以邊界框標示) | 自動駕駛、安防監控、人流偵測 |
| 語意分割 Semantic Segmentation | 將影像中每一個像素標註為對應的語意類別(道路、車輛、行人等) | 城市街景理解、農作物分類、醫學影像處理 |
| 實例分割 Instance Segmentation | 除了語意標註外,還要分辨同一類別中不同實體(如兩台車分別標註) | 自駕車多目標辨識、AR 虛實分離、精密製造檢測 |
| 影像生成與合成 Image Generation & Synthesis | 利用生成模型合成新影像(文字→圖、風格轉換) | 設計輔助、遊戲開發、風格轉換、產出訓練用資料 |
2.3三階段技術演進
| 階段 | 年代 | 主流方法 | 代表 |
|---|---|---|---|
| ① 特徵工程主導 | 1980s–2010 | 手工特徵萃取 + 傳統機器學習 | Canny 邊緣偵測 / SIFT / SURF / ORB / 色彩紋理 / SVM·KNN·隨機森林 |
| ② CNN 革命 | 2012–2020 | 深度學習自動學特徵 + GPU 算力 + 大量標註資料 | AlexNet / VGGNet / GoogLeNet / ResNet / DenseNet;應用拓展:YOLO·Faster R-CNN(偵測)/ FCN·U-Net(分割)/ FaceNet(人臉) |
| ③ 多模態與生成式 AI 融合 | 2020–至今 | 跨模態理解 + 創造性輸出 | CLIP / ViT / DALL·E / Stable Diffusion / Midjourney / SAM |
2.4第三階段六個代表模型分工
| 模型 | 提出方 | 類型 | 關鍵能力 |
|---|---|---|---|
| CLIP | OpenAI | 多模態(文+圖) | 把影像和文字嵌入同一語意空間,做跨模態理解 |
| ViT Vision Transformer | — | 視覺主幹 | 用 NLP 領域的 Transformer 架構處理影像,突破 CNN 主導 |
| DALL·E | OpenAI | 生成(文→圖) | 自然語言描述創建圖像,高細節創意豐富 |
| Stable Diffusion | Stability AI | 生成(開源) | 高效精細的圖像生成 + 影像編輯 + 風格變換 |
| Midjourney | 商業服務 | 生成(藝術風格) | 具藝術特色與情感表現的圖像,廣用於插畫設計 |
| SAM Segment Anything Model | Meta | 影像分割 | 提升分割任務的可遷移性與泛化能力,普適性強 |
3影像標註與資料前處理
標註 6 種 + 前處理 7 步 + 進階 3 招
3.1影像標註六種方式
| 任務 | 標註方式 | 說明 | 常用工具 |
|---|---|---|---|
| 影像分類 | 類別標籤(Label) | 為整張影像標記單一類別 | LabelImg、Label Studio |
| 物件偵測 | 邊界框(Bounding Box) | 標示物件位置與類別 | CVAT、Roboflow |
| 語意分割 | 每個像素分割標籤 | 影像每一像素皆對應類別 | LabelMe、SuperAnnotate |
| 實例分割 | 像素遮罩 + 實例 ID | 區分同類型的多個物件 | VGG Image Annotator |
| 關鍵點標注 | 身體節點或特定點位座標 | 常用於人體姿態估計 | COCO Annotator |
| 文字辨識(OCR) | 區塊框選 + 文字內容 | 每段文字框選並輸入正確字串 | Tesseract Trainer、LabelImg OCR 模式 |
3.2標註進階三招
| 技術 | 做什麼 | 解決什麼 |
|---|---|---|
| 語意 + 實例分割結合 | 同時做像素類別 + 區分實體 | 自動駕駛、醫學影像分析的高準確度需求 |
| Auto-labeling 自動化標註 | 用已標資料訓的模型自動標,人工只校對 | 大幅減少人力成本 |
| 半監督 / 主動學習 | 少量標註 + 大量未標訓練;模型自選「最具挑戰性樣本」給人標 | 標註資料不足時提升效果 |
3.3標註準則三要點
| 要點 | 內容 |
|---|---|
| 標註一致性 | 標註者遵循統一規則,避免標註風格或標準的差異對模型效果造成負面影響 |
| 標註細節與準確度 | 邊界框或像素範圍必須準確無誤 |
| 品質控制 | 定期審查、雙重標註機制(兩位標註者同一圖) |
3.4影像前處理七步
| 步驟 | 方法 | 目的 |
|---|---|---|
| 圖像尺寸處理 | Resize / Padding / Cropping | 將影像統一為模型輸入所需大小,避免變形或資訊遺失 |
| 正規化處理 | Pixel Normalization | 將像素值(如 0–255)轉為 0–1 或標準化至均值 0、標準差 1 |
| 像素增強 | 直方圖均衡化、Gamma 校正 | 提升影像對比度與亮度,適合低光源或品質差影像 |
| 噪聲去除 | 平滑濾波、邊緣保留濾波(高斯、雙邊) | 減少感測器或拍攝產生的雜訊 |
| 色彩空間轉換 | RGB ↔ Grayscale, HSV | 依任務調整顏色通道結構,灰階處理常用於簡化輸入 |
| 資料擴增 Data Augmentation | 翻轉、旋轉、裁剪、模糊、色彩偏移 | 增強泛化能力,對抗過擬合,常與訓練同步進行 |
| 序列統一 | 在影片或時間序列中影格取樣 | 應用於動作辨識或影像序列建模任務 |
3.5進階處理三招
| 技術 | 做什麼 | 解決什麼 |
|---|---|---|
| 資料清洗 | 去除模糊、重複、標註錯誤或低品質圖片 | 保證訓練資料品質 |
| 分層抽樣 Stratified Sampling | 按類別比例抽樣 | 資料集不平衡時避免某類過多或過少 |
| 圖像編碼 | 圖像 → 張量(Tensor)或嵌入向量(如 CLIP embeddings) | 把圖像餵進模型學習/預測的關鍵步驟 |
4CV 關鍵技術與常用模型
影像分類 / 物件偵測 / 影像分割 三類任務 + 代表模型 + IOU
4.1影像分類基礎流程
| 步驟 | 內容 |
|---|---|
| ① 資料收集與標註 | 收集大量標註影像,每張影像所屬類別 |
| ② 資料預處理 | 影像縮放至固定尺寸 + 正規化處理 |
| ③ 模型選擇 | 常見模型為卷積神經網路(CNN)— 影像分類最佳選擇 |
| ④ 訓練與評估 | 訓練集訓練、驗證集評估 |
| ⑤ 評估指標 | 準確度(Accuracy)與 Top-5 Error |
4.2CNN 五大基本組件
| 組件 | 作用 | 關鍵 |
|---|---|---|
| 卷積層 Convolutional Layer | 透過卷積核提取影像的局部特徵 | 生成特徵圖(Feature Map) |
| 池化層 Pooling Layer | 對特徵圖進行降維 | 如最大池化(Max Pooling);減少計算量並增強泛化能力 |
| 激活層 Activation Layer | 引入非線性 | 如 ReLU 函數,提升模型表達能力 |
| 全連接層 Fully Connected Layer | 把提取的特徵整合為一維向量 | 進行最終分類 |
| 輸出層 | 輸出 → 類別機率 | 通常使用 Softmax 函數 |
4.3CNN 四大代表模型
| 模型 | 提出人/年代 | 特色 | 關鍵突破 |
|---|---|---|---|
| LeNet | Yann LeCun | 結構簡單,5 層,早期 CNN 模型 | 適用於簡單影像分類,主要用於手寫數字辨識 |
| AlexNet | 2012 ImageNet | 8 層,引入 ReLU 激活 + Dropout 正則化 | 深度學習里程碑,奠定 CNN 在 CV 中的地位 |
| VGG | — | 強調深度與小卷積核(3×3),層數可達 19 層 | 顯著提升分類準確度 |
| ResNet | — | 引入殘差結構(Residual Connection),深度達 152 層 | 解決深層網路梯度消失問題 |
4.4影像分類三大評估指標
| 指標 | 定義 | 備註 |
|---|---|---|
| 準確率 Accuracy | 預測正確的樣本數 / 總樣本數 | 最常見的分類指標 |
| Top-5 錯誤率 Top-5 Error | 多分類情境中,若真實類別位於模型預測的前五名內即視為正確 | 常用於類別數量龐大的資料集(如 ImageNet) |
| 混淆矩陣 Confusion Matrix | 展示模型在各類別上的預測分佈 | 便於分析誤分類情況 |
4.5物件偵測三大代表模型
| 模型 | 原理 | 強項 | 限制 |
|---|---|---|---|
| YOLO You Only Look Once | 基於迴歸的方法,同時預測邊界框與類別 | 速度快,適合即時應用 | 準確度通常稍遜兩階段 |
| Faster R-CNN | 基於區域提議網路(RPN)生成候選框,再分類與迴歸 | 準確度高 | 速度較慢 |
| SSD Single Shot Multibox Detector | 基於多尺度特徵進行物件檢測 | 速度與準確度之間有較好的平衡 | — |
4.6影像分割:語意 vs 實例
| 類型 | 做什麼 | 關鍵差異 |
|---|---|---|
| 語意分割 Semantic Segmentation | 影像中每一像素歸類為預定類別(道路、建築物、行人…) | 不區分同類別中的不同實例 — 所有「車輛」像素都標「車輛」,不分哪一輛 |
| 實例分割 Instance Segmentation | 在語意分割基礎上,進一步區分同類別中的不同實體 | 每個物體賦予唯一識別符;結合物體檢測 + 語意分割 |
4.7三大分割模型
| 模型 | 架構特色 | 強項 | 適合場景 |
|---|---|---|---|
| FCN Fully Convolutional Network | 傳統 CNN + 上採樣層(Upsampling)還原為原始大小 | 端到端訓練、像素級分類 | 通用語意分割 |
| U-Net | 對稱編碼器/解碼器結構 + 跳躍連接(Skip Connections) | 從高解析特徵恢復細節,適合不平衡資料 | 專為醫療影像分割設計 |
| Mask R-CNN | 基於 Faster R-CNN 擴展 + 額外分支預測二進制遮罩 | 實現實例分割,準確標註物體邊界 | 複雜背景的多物體場景 |
4.8IOU 公式與計算示例
| 項目 | 定義 / 公式 |
|---|---|
| IOU 定義 | 衡量預測分割區域與真實標籤區域之間的重疊程度,IOU = AreaIntersection / AreaUnion |
| 值域範圍 | 從 0 到 1,越接近 1 表示預測越準確 |
| 成功門檻 | 物體檢測中,IOU > 0.5 或 0.7 通常視為成功預測 |
| 步驟 | 數值(教材示例) |
|---|---|
| 真實標註框(Ground Truth)面積 | 100 平方單位 |
| 預測框(Predicted Box)面積 | 80 平方單位 |
| 重疊區域(Intersection) | 40 平方單位 |
| 聯集區域(Union)= 100 + 80 − 40 | 140 平方單位 |
| IOU = 40 / 140 | ≈ 0.286(教材鎖死值) |
5CV 應用情境與實務案例
四大領域:監控與安全 / 醫療 / 智慧製造與零售 / AR-VR-自駕
5.1監控與安全(Surveillance & Security)
| 項目 | 內容 |
|---|---|
| A. 人臉辨識 | 三步:人臉檢測 → 特徵提取(眼鼻嘴相對位置)→ 比對與辨識 |
| B. 車牌辨識 ANPR Automatic Number Plate Recognition | 交通管理與監控;流程:車牌區域檢測 → 字符辨識(轉可讀文字) |
| C. 隱私與合規管理 | 遵守 GDPR、HIPAA 等隱私法規;提供資料訪問與刪除權;注意模型偏見問題(不同種族檢測準確度差異) |
| D. 即時推論 Real-time Inference | 監控系統需即時分析與低延遲,要求高效計算資源 |
5.2醫療影像診斷(Medical Imaging)
| 面向 | 內容 |
|---|---|
| A. 影像分類 | 將 CT/MRI 分類為不同診斷結果,提升診斷效率、輔助醫療判斷、減少誤診 |
| B. 影像分割 | 用 U-Net 將腫瘤、病灶等關鍵區域與背景分離,精確定位病灶 |
| C. 醫療數據與標註 | 醫療影像通常需專業醫師標註,準確標註對模型訓練至關重要 |
| D. 醫療隱私法規 | 處理醫療影像時必須遵守相應的隱私保護法規,確保患者資料安全 |
5.3智慧製造與零售(Smart Manufacturing & Retail)
| 項目 | 內容 |
|---|---|
| A. 工業瑕疵偵測 | 產品檢查:表面缺陷、尺寸偏差;用於生產線確保產品品質 |
| B. 商品行為分析 | 零售業追蹤顧客與商品互動、停留時間;優化商品擺放、提高銷售轉換率 |
| C. 邊緣運算與即時回饋 | 邊緣運算:數據處理推向接近數據源的設備,減少延遲;即時回饋:檢測到瑕疵即時通知操作員 |
| D. 顧客行為追蹤 | 熱點圖(Heatmap):分析店內移動路徑與停留時間,幫助優化店鋪佈局 |
5.4其他應用:AR/VR + 自動駕駛
| 項目 | 內容 |
|---|---|
| A. AR(擴增實境) | 追蹤實體物體,疊加虛擬物體或資訊,增強用戶互動體驗 |
| A. VR(虛擬實境) | 追蹤使用者動作映射到虛擬世界,提供沉浸式體驗 |
| B. 自駕:車道線偵測 | Lane Detection — 確保車輛正確行駛於車道中 |
| B. 自駕:物件偵測 | 辨識路面障礙物、行人、其他車輛,確保自駕車安全 |
| B. 自駕:多模態融合 | Multimodal Fusion — 融合雷達、LiDAR(激光雷達)、影像等不同感測器數據;提升環境感知與決策準確度 |
6CV 技術挑戰與風險
資料隱私 → 偏見可靠度 → 部署維運 三層風險
6.1三層風險總覽
| 層 | 核心議題 | 關鍵字 |
|---|---|---|
| ① 資料隱私與合規 | PII 個人識別資料、敏感影像(人臉、車牌、住址、兒童) | GDPR / 個資法 / 去識別化 / 合法授權 / 最小化原則 |
| ② 偏見與模型可靠度 | 資料偏見影響模型公平性與準確度;誤檢與漏檢 | 資料來源不平衡 / 標註偏誤 / 拍攝條件偏差 / Bias Audit |
| ③ 部署與維運風險 | 資源負荷、版本管理、資料漂移 | 邊緣輕量模型 / 資料漂移 / MLOps CI-CD / 回退機制 |
6.2資料隱私與合規
| 面向 | 內容 |
|---|---|
| A. 核心挑戰 | 影像含個人識別資料(PII);人臉具高度辨識性屬敏感個資 — 依《個人資料保護法》、GDPR 嚴格管理;敏感影像(車牌、住址、兒童畫面)也須保護 |
| B. 合規做法 | ① 資料匿名化與去識別化(臉部遮蔽、模糊化、遮罩) ② 合法授權(明示告知用途、取得同意) ③ 資料保存與刪除政策(最小化原則,過期自動刪除/加密) |
| C. 社會倫理爭議 | 公共領域要在「安全防護」與「個人隱私」之間找平衡(如校園人臉門禁未獲學生家長同意 → 引發倫理與法律風險) |
6.3偏見與模型可靠度
| 偏見來源 | 說明 |
|---|---|
| ① 資料來源不平衡 | 訓練資料某些族群(膚色、性別、年齡)過於集中 → 模型對其他族群辨識準確度較低 |
| ② 標註偏誤 | 人工標註過程中的主觀認知或文化偏見 → 標註結果不一致 |
| ③ 拍攝條件偏差 | 攝影角度、光照、解析度差異 → 影響模型泛化能力 |
| 失準類型 | 說明 / 教材示例 |
|---|---|
| 誤檢 False Positive | 將健康人誤診為病人 → 不必要的檢查或醫療干預 |
| 漏檢 False Negative | 未辨識存在的目標,例如漏檢工業瑕疵 → 缺陷產品流入市場 |
| 提升公平性做法 | 說明 |
|---|---|
| 偏見診斷測試(Bias Audit) | 針對不同族群進行模型行為分析,確認是否存在偏見或不公平現象 |
| 數據平衡與重加權 | 過採樣、欠採樣、數據增強,調整資料分佈以減少偏見 |
| 可信度評估指標 | AUC、精確度、召回率等多維度指標全面評估 |
6.4部署與維運風險
| 風險 | 說明 | 緩解 / 解決策略 |
|---|---|---|
| GPU/TPU 資源限制 | 邊緣設備(智慧監控攝像頭)運算資源有限 | 選擇輕量化模型(MobileNet、YOLOv5-Nano) |
| 批次處理延遲 | 影像串流延遲 → 影響即時性 | 邊緣運算 + 串流優化 |
| 版本管理困難 | 更新流程不嚴謹 → 不同版本推論結果不一致 → 業務爭議或誤判 | MLOps CI/CD 流程、模型版本治理 |
| 資料漂移 Data Drift | 環境或攝影條件變化 → 輸入資料分佈改變 → 模型失效 | 持續監控模型效能與異常情況 |
| 部署測試不足 | 未充分驗證 → 忽略場域特殊性(光照、影像模糊) | 影像品質監測(畫質分析、網路延遲測試) |
| — | — | 預設容錯與回退機制:模型異常時自動回退至先前版本或預設邏輯,確保服務不中斷 |
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L21102 考前複習筆記 · v1.0(2026-05 表格化精簡版)