# L21102 電腦視覺技術與應用 — 模擬試題 30 題

> 題型：四選一單選題（iPAS AI 規劃師中級 標準題型）
> 教材來源：`chunks/L21102.txt`（每題解析末標 chunks 行號）
> 命題原則：用易混淆概念設計干擾項（語意分割 vs 實例分割互換、YOLO vs Faster R-CNN 速度/準度對調、CNN 各層職責 partial swap、IoU 公式錯配）

---

## 第一部分｜CV 基礎概念與發展脈絡（Q1–Q6）

### Q1
下列關於電腦視覺（Computer Vision, CV）核心目標的敘述，何者**正確**？
- (A) 僅將像素資料轉換為純數值，不涉及語意理解
- (B) 模擬或超越人類的視覺系統，從影像或影片中擷取、辨識並解釋語意資訊，進而支援人機互動、決策判斷與自動化作業
- (C) 完全等同於影像處理，不涉及機器學習
- (D) 僅處理黑白影像，不能處理彩色

**答案：(B)**
解析：CV 是讓機器具備「視覺理解能力」的 AI 領域，目標是從靜態影像或動態影片擷取、辨識並解釋語意資訊。是一個跨領域整合 — 影像處理/模式辨識/ML/DL。（chunks line 9、23–25）

---

### Q2
下列關於 CV 任務類型的描述，何者**錯誤**？
- (A) 影像分類：判斷影像屬於哪一類別
- (B) 物件偵測：辨識影像中是否存在特定物件並標示位置（邊界框）
- (C) 語意分割：將影像中每個像素標註為對應的語意類別
- (D) 實例分割：與語意分割完全相同，不區分同類別中不同個體

**答案：(D)**
解析：實例分割 = 在語意分割基礎上「進一步區分同一類別中的不同實體」（如兩台車分別標註）；常見干擾項把語意/實例分割說成相同。（chunks line 33–43、241–243）

---

### Q3
下列關於 CV 三大演進階段的對應，何者**錯誤**？
- (A) 早期（1980s–2010）：特徵工程主導 — 代表為 Canny、SIFT、SURF、SVM、KNN
- (B) 深度學習興起（2012–2020）：CNN 革命 — 代表為 AlexNet、VGG、ResNet、YOLO、Faster R-CNN
- (C) 多模態與生成式 AI（2020 至今）：代表為 CLIP、ViT、DALL·E、Stable Diffusion、SAM
- (D) 1960 年代電腦視覺已主導所有 AI 應用，CNN 不重要

**答案：(D)**
解析：CV 雖追溯至 1960s，但直到 2012 年 AlexNet（CNN）在 ImageNet 比賽中突破才進入高速發展期；(A)(B)(C) 三階段對應正確。（chunks line 27、52–96）

---

### Q4
2012 年於 ImageNet 比賽中使用卷積神經網路（CNN）取得突破性成就，標誌深度學習主導電腦視覺時代來臨的模型為何？
- (A) LeNet
- (B) AlexNet
- (C) VGG
- (D) ResNet

**答案：(B)**
解析：AlexNet（2012 ImageNet）以 CNN 在圖像分類中脫穎而出 → 深度學習革命起點；LeNet 是早期 CNN（手寫數字），VGG/ResNet 是後續架構演進。（chunks line 27、66、203）

---

### Q5
下列關於 CLIP（Contrastive Language-Image Pre-Training）的敘述，何者**正確**？
- (A) CLIP 僅處理影像，無法處理文字
- (B) CLIP 由 OpenAI 提出，將影像與文字嵌入到同一語意空間，達成跨模態理解能力
- (C) CLIP 是 GAN 的一種變體，僅用於圖像生成
- (D) CLIP 是傳統的邊緣偵測演算法

**答案：(B)**
解析：CLIP 由 OpenAI 提出，把語言（文本）與影像嵌入同一語意空間 → 強大的跨模態理解。（chunks line 82）

---

### Q6
下列關於 Vision Transformer（ViT）的敘述，何者**正確**？
- (A) ViT 採用與 NLP 領域相似的 Transformer 架構處理影像數據，突破 CNN 在 CV 領域的主導地位
- (B) ViT 是 CNN 的同義詞
- (C) ViT 必須與 RNN 搭配才能運作
- (D) ViT 僅能處理黑白影像

**答案：(A)**
解析：ViT 採用類 NLP 的 Transformer 架構處理影像，被視為視覺領域一大創新，突破 CNN 主導地位。（chunks line 84）

---

## 第二部分｜影像標註與資料前處理（Q7–Q10）

### Q7
下列關於影像標註方式與任務的對應，何者**錯誤**？
- (A) 影像分類：類別標籤（Label）— 為整張影像標記單一類別
- (B) 物件偵測：邊界框（Bounding Box）— 標示物件位置與類別
- (C) 語意分割：邊界框（Bounding Box）— 標示物件位置與類別
- (D) 關鍵點標註：身體節點或特定點位座標 — 常用於人體姿態估計

**答案：(C)**
解析：語意分割是「每個像素分割標籤」（影像每一像素皆對應類別），不是邊界框；邊界框是物件偵測。常見干擾項：把分割方式換成 bbox。（chunks line 108–112）

---

### Q8
下列關於「資料擴增（Data Augmentation）」的敘述，何者**正確**？
- (A) 資料擴增會使模型過擬合更嚴重
- (B) 透過翻轉、旋轉、裁剪、模糊、色彩偏移等手段增強模型的泛化能力，有效對抗過擬合，常與訓練同步進行
- (C) 資料擴增僅能在資料前處理階段一次性執行
- (D) 資料擴增與標註品質無關

**答案：(B)**
解析：Data Augmentation = 翻轉/旋轉/裁剪/模糊/色彩偏移等增強泛化能力、對抗過擬合，常與訓練同步。（chunks line 144）

---

### Q9
下列關於「自動化標註（Auto-labeling）」的敘述，何者**正確**？
- (A) 完全替代人工標註，毫無錯誤
- (B) 根據已標註資料，利用模型進行自動標註，可減少人力成本，人工僅需校對與修正錯誤
- (C) 自動化標註與 Active Learning 無關
- (D) 自動化標註僅能用於 OCR 任務

**答案：(B)**
解析：Auto-labeling 用模型對未標註資料先行標註，人工後校對修正 → 大幅減少人力。配合半監督學習、主動學習提升效率。（chunks line 119–121）

---

### Q10
下列關於影像資料前處理中「像素正規化（Pixel Normalization）」的描述，何者**正確**？
- (A) 將像素值（如 0–255）轉為 0–1 或標準化至均值為 0、標準差為 1
- (B) 把所有像素都歸零
- (C) 將彩色影像轉為灰階
- (D) 隨機翻轉影像

**答案：(A)**
解析：Pixel Normalization = 把像素值（0–255）轉為 0–1 或標準化（mean=0, std=1）；(C) 是色彩空間轉換、(D) 是 Data Augmentation。（chunks line 140）

---

## 第三部分｜CNN 架構與影像分類（Q11–Q16）

### Q11
下列關於 CNN 各層職責的敘述，何者**錯誤**？
- (A) 卷積層（Convolutional Layer）：透過卷積核提取影像的局部特徵，生成特徵圖
- (B) 池化層（Pooling Layer）：對特徵圖進行降維（如最大池化 Max Pooling），減少計算量並增強模型泛化能力
- (C) 激活層（Activation Layer）：引入非線性（如 ReLU 函數），提升模型的表達能力
- (D) 全連接層（Fully Connected Layer）：將原始像素直接輸出，不進行任何整合

**答案：(D)**
解析：Fully Connected Layer = 把卷積/池化提取的特徵整合為一維向量，進行最終分類；不是直接輸出原始像素。常見干擾項把 FC 層職責偷換成原始像素輸出。（chunks line 183–189）

---

### Q12
下列關於 CNN 輸出層常用的 Softmax 函數的功能描述，何者**正確**？
- (A) 將模型輸出轉換為類別機率
- (B) 把影像縮放至模型輸入尺寸
- (C) 對特徵圖進行降維
- (D) 計算 IoU 值

**答案：(A)**
解析：CNN 輸出層通常用 Softmax 把模型輸出轉換為類別機率（總和為 1）。（chunks line 191）

---

### Q13
下列關於 ResNet 的核心技術特點，何者**正確**？
- (A) ResNet 是早期 CNN 模型，結構簡單僅 5 層
- (B) ResNet 引入殘差結構（Residual Connection），允許網路深度達 152 層，解決深層網路訓練中的梯度消失問題
- (C) ResNet 是 RNN 的變體
- (D) ResNet 採用自注意力機制

**答案：(B)**
解析：ResNet 引入 Residual Connection → 解決深層網路梯度消失，可訓練到 152 層。LeNet 才是 5 層早期 CNN。（chunks line 201、207）

---

### Q14
下列關於 VGG 與 AlexNet 的差異，何者**錯誤**？
- (A) AlexNet 為 2012 ImageNet 競賽贏家，使用 8 層結構並引入 ReLU 與 Dropout
- (B) VGG 強調深度與小卷積核（3x3），層數可達 19 層
- (C) AlexNet 與 VGG 都是 CNN 架構演進的代表
- (D) VGG 採用 Transformer 自注意力機制，不使用卷積層

**答案：(D)**
解析：VGG 是 CNN 架構（深度 + 3x3 小卷積核），不是 Transformer；ViT 才是 Transformer-based。（chunks line 203–205）

---

### Q15
下列關於影像分類「Top-5 錯誤率（Top-5 Error）」的描述，何者**正確**？
- (A) 在多分類情境中，若真實類別位於模型預測的前五名內即視為正確，常用於類別數量龐大的資料集（如 ImageNet）
- (B) Top-5 錯誤率僅用於二元分類
- (C) Top-5 錯誤率與 Accuracy 完全相同
- (D) Top-5 錯誤率衡量分割品質

**答案：(A)**
解析：Top-5 Error = 模型 Top-5 預測之一命中即視為正確，常用於 ImageNet 等多類別任務。（chunks line 213）

---

### Q16
下列關於影像分類流程的順序，何者**正確**？
- (A) 資料收集與標註 → 資料預處理 → 模型選擇 → 訓練與評估
- (B) 模型選擇 → 資料收集 → 訓練 → 標註
- (C) 訓練 → 評估 → 資料收集 → 預處理
- (D) 評估 → 標註 → 預處理 → 模型選擇

**答案：(A)**
解析：影像分類標準流程 = 資料收集與標註 → 資料預處理（縮放/正規化）→ 模型選擇（如 CNN）→ 訓練與評估（Accuracy/Top-5 Error）。（chunks line 167–175）

---

## 第四部分｜物件偵測與影像分割（Q17–Q24）

### Q17
下列關於 YOLO（You Only Look Once）與 Faster R-CNN 的差異，何者**正確**？
- (A) YOLO 採用兩階段（兩-stage）區域提議 + 分類，速度慢但準確度高；Faster R-CNN 為單階段迴歸，速度快但準確度較低
- (B) YOLO 是一種基於迴歸的方法，能同時預測邊界框與類別，速度快，適合即時應用；Faster R-CNN 基於區域提議網路（RPN）生成候選框再分類迴歸，準確度高但速度較慢
- (C) YOLO 與 Faster R-CNN 完全相同
- (D) 兩者都是傳統機器學習方法，與 CNN 無關

**答案：(B)**
解析：YOLO = 一階段迴歸、速度快、適合即時；Faster R-CNN = RPN 先生成候選框再分類迴歸、準確高但慢。常見干擾項把速度/準度對調。（chunks line 223–225）

---

### Q18
下列關於 SSD（Single Shot Multibox Detector）的敘述，何者**正確**？
- (A) SSD 基於多尺度特徵進行物件檢測，速度與準確度之間有較好的平衡
- (B) SSD 是 CNN 之前的傳統演算法
- (C) SSD 僅能用於語意分割
- (D) SSD 必須與 ResNet 完全相同才能運作

**答案：(A)**
解析：SSD = 基於多尺度特徵的物件偵測，速度/準度平衡介於 YOLO 與 Faster R-CNN 之間。（chunks line 227）

---

### Q19
下列關於語意分割（Semantic Segmentation）與實例分割（Instance Segmentation）的差異，何者**錯誤**？
- (A) 語意分割：每個像素歸類為某一預定類別，不區分同類別中的不同實例
- (B) 實例分割：在語意分割基礎上區分同類別中的不同實體，為每個物體賦予唯一識別
- (C) 圖像中多輛車時，語意分割會把所有車輛像素都標為「車輛」，不區分個別車輛
- (D) 實例分割與語意分割完全相同

**答案：(D)**
解析：實例分割 = 語意分割 + 個別實體區分；兩者並不相同。常見干擾項把兩者說成完全相同。（chunks line 241–243）

---

### Q20
下列關於 U-Net 模型的描述，何者**正確**？
- (A) U-Net 專為醫療影像分割設計，具對稱的編碼器-解碼器結構，並透過跳躍連接（Skip Connections）保留高解析度細節
- (B) U-Net 是一種 GAN 生成模型
- (C) U-Net 僅能用於影像分類，無法分割
- (D) U-Net 完全等同於 Mask R-CNN

**答案：(A)**
解析：U-Net 專為醫療影像分割設計、特別適合不平衡資料；對稱 Encoder-Decoder + Skip Connections 保留細節。（chunks line 251–253）

---

### Q21
下列關於 Mask R-CNN 的敘述，何者**正確**？
- (A) Mask R-CNN 是傳統影像處理演算法，與深度學習無關
- (B) Mask R-CNN 基於 Faster R-CNN 擴展，引入額外分支預測每個物體的二進制遮罩（mask），實現實例分割
- (C) Mask R-CNN 僅能進行影像分類
- (D) Mask R-CNN 完全等同於 YOLO

**答案：(B)**
解析：Mask R-CNN = Faster R-CNN + 額外 mask 分支，能同時做物件偵測 + 實例分割（像素級）。（chunks line 256–257）

---

### Q22
下列關於 FCN（Fully Convolutional Network）的敘述，何者**正確**？
- (A) FCN 將傳統 CNN 應用於整張影像，並透過上採樣層將低解析度特徵圖還原為與原始影像相同大小，實現像素級分類
- (B) FCN 是 RNN 的一種
- (C) FCN 無法進行端到端訓練
- (D) FCN 僅能處理 OCR 任務

**答案：(A)**
解析：FCN = CNN + Upsampling Layer → 從低解析特徵圖還原到原圖大小做像素級分類；對語意分割任務效果好且支援端到端訓練。（chunks line 247–249）

---

### Q23
下列關於 IoU（Intersection over Union）的計算公式，何者**正確**？
- (A) IoU = Intersection / Union
- (B) IoU = Union / Intersection
- (C) IoU = Predicted Box / Ground Truth Box
- (D) IoU = TP / (TP + FP + FN + TN)

**答案：(A)**
解析：IoU = 重疊區域 / 聯集區域 = Area_Intersection / Area_Union，範圍 [0, 1]，越接近 1 越準確；物件偵測中 IoU > 0.5 或 0.7 常視為成功。（chunks line 265–273）

---

### Q24
假設真實標註框（Ground Truth）面積為 100，預測框面積為 80，兩者重疊區域為 40，則 IoU 約為何？
- (A) 0.4
- (B) 0.5
- (C) 0.286
- (D) 0.8

**答案：(C)**
解析：Intersection = 40；Union = 100 + 80 − 40 = 140；IoU = 40 / 140 ≈ 0.286。（chunks line 281–299）

---

## 第五部分｜CV 應用情境（Q25–Q27）

### Q25
下列關於「自動駕駛」中電腦視覺技術的應用，何者**錯誤**？
- (A) 車道線偵測：透過視覺技術檢測車道線，確保車輛正確行駛
- (B) 物件偵測：辨識路面障礙物、行人、其他車輛
- (C) 多模態融合：融合雷達、LiDAR、影像等不同感測器數據以提升判斷準確度
- (D) 自動駕駛完全不需要物件偵測，只需要影像分類

**答案：(D)**
解析：自動駕駛需要整合車道線偵測 + 物件偵測（行人/車輛/障礙物）+ 多模態融合（雷達/LiDAR/影像）；不可能只用影像分類。（chunks line 385–395）

---

### Q26
下列關於醫療影像（如 CT/MRI）的應用，下列何者**正確**？
- (A) 影像分類用於將醫學影像分類為不同診斷結果，輔助醫療判斷與減少誤診
- (B) U-Net 等影像分割模型僅能用於藝術創作
- (C) 醫療影像標註無需專業醫師參與
- (D) 醫療影像不需遵守隱私保護法規

**答案：(A)**
解析：醫療影像分類 = 將 CT/MRI 等影像分類為不同診斷結果，提升診斷效率 / 減少誤診；U-Net 適合分割腫瘤/病灶；標註需專業醫師；需遵守隱私法規。（chunks line 331–351）

---

### Q27
下列關於智慧製造與零售情境中電腦視覺的應用，何者**正確**？
- (A) 工業瑕疵偵測用於檢測產品表面缺陷、尺寸偏差，保證產品品質
- (B) 商品行為分析無法追蹤顧客與商品互動
- (C) 邊緣運算會增加延遲，不適用於即時回饋
- (D) 熱點圖（Heatmap）僅能用於影像分類

**答案：(A)**
解析：工業瑕疵偵測（Industrial Defect Detection）用 CV 檢測表面缺陷/尺寸偏差，常於生產線檢測。商品行為分析 + 熱點圖 + 邊緣運算（減少延遲）均常見於零售/製造情境。（chunks line 355–375）

---

## 第六部分｜CV 技術挑戰與風險（Q28–Q30）

### Q28
下列關於 CV 模型偏見來源的敘述，何者**錯誤**？
- (A) 資料來源不平衡：某些族群（如膚色、性別、年齡）在訓練資料中過於集中，造成模型對其他族群的辨識準確度較低
- (B) 標註偏誤：人工標註過程中的主觀認知或文化偏見造成標註不一致
- (C) 拍攝條件偏差：攝影角度、光照、解析度等差異會影響模型泛化能力
- (D) 模型偏見只能透過增加 GPU 算力解決

**答案：(D)**
解析：模型偏見的處理 = 偏見診斷測試（Bias Audit）+ 數據平衡與重加權 + 可信度評估指標（AUC/Precision/Recall），不是單靠增加算力。（chunks line 427–447）

---

### Q29
下列關於電腦視覺的「資料漂移（Data Drift）」的描述，何者**正確**？
- (A) 隨著環境變化或攝影條件變動（如光照、季節、設備），輸入資料分佈發生變化，可能導致模型失效
- (B) 資料漂移與模型部署無關
- (C) 資料漂移僅發生在 NLP，不會發生在 CV
- (D) 資料漂移就是模型過擬合的另一個說法

**答案：(A)**
解析：Data Drift = 環境/攝影條件變動造成輸入分佈變化 → 模型失效，是部署與維運層風險之一；解決方式 = MLOps + 持續監控 + 影像品質監測。（chunks line 463、469–471）

---

### Q30
在邊緣設備（如智慧監控攝像頭）部署 CV 模型時，最適合採用下列哪種策略？
- (A) 部署最大型的 ResNet-152 模型以追求最高準確度
- (B) 選擇輕量化模型如 MobileNet 或 YOLOv5-Nano，並結合 MLOps 持續監控
- (C) 不需要任何容錯機制，因邊緣設備永遠穩定
- (D) 把所有運算都丟到雲端，不需要在邊緣設備上做任何優化

**答案：(B)**
解析：邊緣設備 GPU/TPU 資源受限 → 需用輕量化模型（MobileNet、YOLOv5-Nano）；並建立 MLOps + 容錯與回退機制 + 影像品質監測。（chunks line 451–473）

---

## 答案速查表

| Q | 答 | Q | 答 | Q | 答 |
|---|---|---|---|---|---|
| 1 | B | 11 | D | 21 | B |
| 2 | D | 12 | A | 22 | A |
| 3 | D | 13 | B | 23 | A |
| 4 | B | 14 | D | 24 | C |
| 5 | B | 15 | A | 25 | D |
| 6 | A | 16 | A | 26 | A |
| 7 | C | 17 | B | 27 | A |
| 8 | B | 18 | A | 28 | D |
| 9 | B | 19 | D | 29 | A |
| 10 | A | 20 | A | 30 | B |

## 命題分布統計

| 章節 | 題號 | 題數 | 重點 |
|---|---|---:|---|
| CV 基礎概念與發展脈絡 | Q1–Q6 | 6 | 定義/任務類型/三階段/AlexNet/CLIP/ViT |
| 影像標註與資料前處理 | Q7–Q10 | 4 | 標註方式對應/Data Augmentation/Auto-labeling/Pixel Normalization |
| CNN 架構與影像分類 | Q11–Q16 | 6 | CNN 各層職責/Softmax/ResNet/VGG/Top-5 Error/標準流程 |
| 物件偵測與影像分割 | Q17–Q24 | 8 | YOLO vs Faster R-CNN/SSD/語意 vs 實例分割/U-Net/Mask R-CNN/FCN/IoU 公式 + 計算 |
| CV 應用情境 | Q25–Q27 | 3 | 自動駕駛/醫療影像/智慧製造與零售 |
| CV 技術挑戰與風險 | Q28–Q30 | 3 | 模型偏見/Data Drift/邊緣部署策略 |
| **合計** | — | **30** | — |

## 易混淆考點清單

| # | 易混淆對 | 差異 |
|---|---|---|
| 1 | 語意分割 vs 實例分割 | 語意分割不區分同類個體；實例分割區分同類中每個個體（Q2/Q19） |
| 2 | YOLO vs Faster R-CNN | YOLO 一階段迴歸/快/即時；Faster R-CNN 兩階段 RPN+ 分類迴歸/慢/準（Q17） |
| 3 | 標註方式與任務對應 | 物件偵測 = bbox；語意分割 = 每像素分割標籤；實例分割 = 像素遮罩 + 實例 ID（Q7） |
| 4 | CNN 各層職責 | Conv 提特徵/Pool 降維/Activation 引入非線性/FC 整合特徵/Softmax 輸出機率（Q11/Q12） |
| 5 | AlexNet vs LeNet vs VGG vs ResNet | LeNet 5 層；AlexNet 2012 ImageNet 8 層 + ReLU+Dropout；VGG 深 + 3x3 小卷積核；ResNet 殘差結構 152 層解決梯度消失（Q4/Q13/Q14） |
| 6 | U-Net vs Mask R-CNN vs FCN | U-Net 醫療分割 + Skip Connections；Mask R-CNN = Faster R-CNN + mask 分支做實例分割；FCN = CNN + Upsampling 做語意分割（Q20/Q21/Q22） |
| 7 | IoU 公式 | IoU = Intersection / Union（非 Union/Intersection）（Q23/Q24） |
| 8 | 影像分類評估指標 | Accuracy 整體正確率；Top-5 Error Top-5 命中視為對；Confusion Matrix 看各類別誤分（Q15） |
| 9 | Data Augmentation vs Pixel Normalization | Augmentation 翻轉/旋轉/裁剪增泛化；Normalization 把像素縮放至 0-1 或標準化（Q8/Q10） |
| 10 | CV 三層風險 | 資料層 = 隱私/合規；模型層 = 偏見/可靠度；應用層 = 部署/維運/Data Drift（Q28/Q29/Q30） |

---

— 命題：Heiter（2026-05-12）
— 對應教材：科目一 3.2 電腦視覺技術與應用（頁碼 3-40 ~ 3-59）
