# L21104 多模態人工智慧應用 — 模擬試題 30 題

> 題型：四選一單選題（iPAS AI 規劃師中級 標準題型）
> 教材來源：`chunks/L21104.txt`（每題解析末標 chunks 行號）
> 視覺輔助：`output4/L21104_多模態人工智慧應用/images/` 投影片
> 命題原則：用易混淆概念設計干擾項（同類項換位、屬性錯配、定義 partial swap）

---

## 第一部分｜基礎概念與定義（Q1–Q6）

### Q1
下列關於多模態人工智慧（Multimodal Artificial Intelligence, Multimodal AI）核心能力的敘述，何者**正確**？
- (A) 僅能針對單一資料型態（如純文字或純影像）進行學習與推論
- (B) 能夠同時處理並整合來自不同模態的資料，如文字、影像、語音、感測訊號等
- (C) 僅適用於自然語言處理（NLP）的純文字任務
- (D) 主要功能是提升硬體運算效能

**答案：(B)**
解析：多模態 AI 核心能力 = 同時處理並整合來自不同模態的資料（文字、影像、語音、感測訊號等），相較於 NLP 僅處理文字、CV 僅處理影像，更強調跨模態訊息的理解、融合與應用。（chunks line 9）

---

### Q2
多模態 AI 近年崛起的主要技術推手，下列敘述何者**錯誤**？
- (A) 硬體運算能力的提升
- (B) 深度學習架構的成熟
- (C) Transformer 架構與大型語言模型（LLMs）的推動
- (D) 完全仰賴傳統機器學習（如 SVM、決策樹）作為融合骨幹

**答案：(D)**
解析：多模態 AI 崛起依靠硬體運算提升、深度學習架構成熟、Transformer + LLMs 推動跨模態學習；SVM/決策樹屬早期特徵串接階段的融合方式，已非當前主流。（chunks line 11、41）

---

### Q3
下列何者**並非**多模態 AI 處理的常見資料模態（Modality）？
- (A) 文字（如自然語言、描述、問句）
- (B) 影像（靜態圖像、影像序列）
- (C) 語音／音訊（語音內容、語音情緒、背景聲音）
- (D) 編譯後二進位機器碼（Binary Machine Code）

**答案：(D)**
解析：教材列出常見模態 = 文字／影像／語音音訊／感測器資料（如位置感測器、加速度計、環境溫度）；二進位機器碼不屬於多模態 AI 的感知模態定義。（chunks line 21–29）

---

### Q4
下列關於各種資料模態（Modality）結構特徵的描述，何者**錯誤**？
- (A) 文字資料是離散且語意性強的
- (B) 影像資料包含空間資訊與顏色紋理
- (C) 語音資料蘊含時間序列與情緒線索
- (D) 感測器資料屬於離散且無時間依賴的純語意資料

**答案：(D)**
解析：感測器資料反映實體環境的「連續變化」，並非離散且無時間依賴；題目把文字（離散）的特性錯置到感測器上。（chunks line 31）

---

### Q5
跨模態表示學習（Cross-modal Embeddings）的**核心目的**為何？
- (A) 將不同模態資料映射至「相同的語意空間」，使模型能比較、關聯或互相翻譯不同模態下的輸入
- (B) 為每個模態分別建立獨立、不可交互的向量空間
- (C) 將所有模態資料壓縮成單一純量（Scalar）以節省儲存空間
- (D) 僅關注影像模態，不處理文字資料

**答案：(A)**
解析：Cross-modal Embeddings 核心 = 將不同模態映射至「同一語意空間」，使「一張圖片」與「一句描述」可在嵌入空間對應。OpenAI CLIP 即為代表性實作。（chunks line 33）

---

### Q6
下列關於語意對齊（Semantic Alignment）與融合學習（Fusion Learning）在多模態 AI 中角色的敘述，何者**正確**？
- (A) 多模態 AI 不需要語意對齊，各模態可獨立輸出結果
- (B) 透過模態間的語意對齊與融合學習，多模態 AI 實現跨模態的深層理解與互補性應用
- (C) 融合學習僅指特徵串接（Feature Concatenation），無其他形式
- (D) 語意對齊只能用於文字與文字的相似度比對

**答案：(B)**
解析：多模態 AI「進一步透過模態間的語意對齊（Semantic Alignment）與融合學習（Fusion Learning），實現跨模態的深層理解與互補性應用」。（chunks line 15）

---

## 第二部分｜技術演進三階段與融合策略（Q7–Q12）

### Q7
最初的多模態系統採用「特徵串接（Feature Concatenation）」搭配傳統機器學習模型（如 SVM、決策樹），其**主要缺陷**為何？
- (A) 無法處理模態間的語意對齊與交互關係，且缺乏可擴展性
- (B) 過度依賴 Transformer 自注意力機制
- (C) 訓練成本太高，無法在 GPU 上執行
- (D) 僅能處理語音模態，無法接受文字輸入

**答案：(A)**
解析：早期特徵串接方式「雖簡單，卻無法處理模態間的語意對齊與交互關係，且缺乏可擴展性」。(B)(C) 屬當前 Transformer 階段，與早期特性矛盾。（chunks line 41）

---

### Q8
深度學習階段的多模態架構**通常**為各模態設計專屬網路，下列搭配何者**正確**？
- (A) CNN 處理文字、RNN 處理影像
- (B) CNN 處理影像、RNN 處理文字與語音
- (C) RNN 處理影像、SVM 處理文字
- (D) 決策樹處理影像、CNN 處理語音

**答案：(B)**
解析：教材明確指出「CNN 處理影像、RNN 處理文字與語音」，再透過融合層（Fusion Layer）整合 → 多模態深度學習（Multimodal Deep Learning）。常見干擾項把 CNN/RNN 任務互換。（chunks line 45）

---

### Q9
當前多模態 AI 採用 Transformer 與自注意力（Self-Attention）的代表性模型中，下列**何者**屬於「使用統一編碼器對影像與文字進行遮罩預訓練」的代表？
- (A) M3AE（Masked Multimodal Autoencoder）
- (B) ResNet
- (C) Word2Vec
- (D) Bag-of-Words

**答案：(A)**
解析：M3AE = Masked Multimodal Autoencoder，使用統一編碼器對影像與文字進行遮罩預訓練，學習兩者共享的語意結構。(B)(C)(D) 均屬單模態傳統技術。（chunks line 49）

---

### Q10
下列何者**屬於**當前階段（Transformer + 自注意力驅動）的多模態模型，採用多層次對齊與視覺-語言融合（Vision-Language Fusion）機制？
- (A) Flamingo、BLIP-2
- (B) SVM、決策樹
- (C) Word2Vec、TF-IDF
- (D) K-means、DBSCAN

**答案：(A)**
解析：教材列舉「Flamingo、BLIP-2 等，則進一步採用多層次對齊與視覺-語言融合（Vision-Language Fusion）機制」處理圖文問答、圖像生成敘述、跨模態檢索等任務。(B)(C)(D) 不屬多模態當前架構。（chunks line 49）

---

### Q11
感測資料的多模態融合中，「早期融合（Early Fusion）」與「晚期融合（Late Fusion）」的**主要差異**為何？
- (A) 早期融合 = 特徵層級整合；晚期融合 = 資料層級整合
- (B) 早期融合 = 資料層級整合；晚期融合 = 特徵層級整合
- (C) 兩者完全相同，只是名稱不同
- (D) 早期融合 = 僅針對文字；晚期融合 = 僅針對影像

**答案：(B)**
解析：教材定義「早期融合（Early Fusion，資料層級整合）」與「晚期融合（Late Fusion，特徵層級整合）」。常見干擾項把兩者層級互換。（chunks line 97）

---

### Q12
感測融合（Sensor Fusion）技術用於將異質感測資料整合至統一模型中，下列何者**並非**其依賴的關鍵基礎？
- (A) 資料同步
- (B) 特徵對齊
- (C) 透過早期融合或晚期融合進行整合
- (D) 完全棄用所有感測器資料，僅保留語音輸入

**答案：(D)**
解析：感測融合「依賴感測融合（Sensor Fusion）技術，透過資料同步與特徵對齊，將異質資料整合至統一模型中」；(D) 與感測融合定義矛盾。（chunks line 97）

---

## 第三部分｜CLIP 與代表性模型（Q13–Q18）

### Q13
CLIP（Contrastive Language-Image Pre-training）由哪家公司於 2021 年提出，採用何種學習方式實現圖片與文字的語意對齊？
- (A) Google／監督式學習
- (B) OpenAI／對比學習（Contrastive Learning）
- (C) Meta／強化學習
- (D) Microsoft／無監督分群

**答案：(B)**
解析：CLIP「由 OpenAI 於 2021 年提出」，透過對比學習（Contrastive Learning）實現圖片與文字的語意對齊。(A)(C)(D) 公司與學習方式皆錯。（chunks line 57）

---

### Q14
CLIP 訓練過程中**圖片編碼器**通常基於哪些架構？
- (A) Vision Transformer 或 ResNet
- (B) Word2Vec 或 TF-IDF
- (C) 決策樹或隨機森林
- (D) k-means 或 DBSCAN

**答案：(A)**
解析：CLIP 核心架構 = 圖片編碼器（基於 Vision Transformer 或 ResNet）+ 文字編碼器（基於 Transformer），透過對比損失（Contrastive Loss）共同優化。（chunks line 59）

---

### Q15
下列關於 CLIP 主要功能與應用的敘述，何者**錯誤**？
- (A) 圖文匹配（Image-Text Matching）：判斷圖片與文字描述是否相符
- (B) 圖文檢索（Image-Text Retrieval）：支援文字搜尋圖片或圖片反向搜尋描述
- (C) 圖片標題生成（Image Captioning）：根據圖片生成語意描述
- (D) 三維點雲（3D Point Cloud）即時重建並輸出 STL 檔案

**答案：(D)**
解析：CLIP 應用 = 圖文匹配／圖文檢索／圖片標題生成；3D 點雲重建非 CLIP 任務。（chunks line 63–67）

---

### Q16
CLIP 模型的核心**優勢**為何？
- (A) 零樣本（Zero-shot）學習能力強，無需針對特定任務重新訓練即可應用
- (B) 必須針對每一新任務重新訓練 4 億對圖文資料
- (C) 完全沒有任何訓練資料偏見的風險
- (D) 對複雜情境的細節理解能力完美無瑕

**答案：(A)**
解析：CLIP 優勢 = 零樣本學習能力強，使其成為後續生成模型（如 DALL·E）的基礎；(C)(D) 是限制反例（訓練資料偏見可能影響公平性、對複雜情境的細節理解有限）。（chunks line 69、71）

---

### Q17
下列關於多模態模型 BLIP / BLIP-2 的敘述，何者**正確**？
- (A) 由 Salesforce 發表，強化圖文問答（Visual Question Answering, VQA）與生成任務，支援圖片與文字的雙向理解
- (B) 由 OpenAI 發表，專注於純語音辨識
- (C) 由 DeepMind 發表，具強化學習能力
- (D) 為純粹的影像分類模型，不處理文字

**答案：(A)**
解析：BLIP（Bootstrapping Language-Image Pre-training）由 Salesforce 發表，強化 VQA 與生成任務、支援圖文雙向理解。(C) Flamingo 才是 DeepMind。（chunks line 115）

---

### Q18
下列關於 Flamingo 與 M3AE 模型特性，何者**錯誤**？
- (A) Flamingo 由 DeepMind 提出，具少樣本學習（Few-shot Learning）能力
- (B) Flamingo 可快速適應新圖文任務
- (C) M3AE 基於遮罩預訓練（Masked Pre-training）的多模態自編碼器
- (D) M3AE 是由 OpenAI 提出的純語音辨識模型

**答案：(D)**
解析：M3AE = Masked Multimodal Autoencoder，採遮罩預訓練支持多模態特徵提取與生成，與「OpenAI 純語音辨識」描述不符。（chunks line 117、119）

---

## 第四部分｜應用情境（Q19–Q24）

### Q19
在多模態 AI 整合語音模態的應用中，下列流程**順序**何者**正確**？
- (A) 語音輸入 → NLU 解析 → ASR 轉文字 → 生成回應
- (B) 語音輸入 → ASR 轉文字 → NLU 解析意圖 → 生成回應
- (C) NLU 解析 → 語音輸入 → 生成回應 → ASR 轉文字
- (D) 生成回應 → ASR 轉文字 → 語音輸入 → NLU 解析

**答案：(B)**
解析：教材示例「語音輸入 → ASR 轉文字 → NLU 解析意圖 → 生成回應」；常見干擾項打亂 ASR 與 NLU 先後順序。（chunks line 83）

---

### Q20
下列關於語音模態整合應用情境的敘述，何者**錯誤**？
- (A) 語音助理：如智慧音箱，結合 ASR 與 NLU 實現語音指令控制
- (B) 跨語言互動：整合多語言語音辨識與翻譯（TTS + Neural Machine Translation, NMT）
- (C) 客服系統：自動化語音回應，提升服務效率
- (D) 語音助理完全不需 ASR，僅靠 TTS 即可理解使用者語意

**答案：(D)**
解析：語音指令控制必須 ASR（語音轉文字）+ NLU（語意解析）；TTS（Text-to-Speech）負責輸出語音回應，不負責「理解」語意。常見干擾項把 ASR/TTS 互換。（chunks line 87–93）

---

### Q21
在智慧醫療多模態應用中，下列敘述何者**錯誤**？
- (A) 結合影像（如 CT、MRI）、電子病歷（EMR）與生理訊號（如 ECG、血糖、血壓）進行診斷
- (B) 可辨識肺部 CT 中結節並生成「疑似肺癌早期病灶」報告
- (C) 多模態醫療 AI 完全不需考慮資料隱私（如 HIPAA）規範
- (D) 適用於慢性病管理與重症監護（如 ICU 即時監控）

**答案：(C)**
解析：智慧醫療多模態應用面臨的「挑戰」明確包含「資料隱私（需符合 HIPAA 等規範）」；(C) 與教材直接矛盾。（chunks line 127、139）

---

### Q22
零售與顧客行為分析多模態應用中，下列**評估指標**搭配何者**正確**？
- (A) 推薦準確率（Precision）、動線分析的 IOU（Intersection over Union）、情感分析的 F1 分數
- (B) ROUGE 分數、WER（Word Error Rate）、Latency
- (C) FID 分數、BLEU 分數、Top-5 Accuracy
- (D) MAE、MSE、R²

**答案：(A)**
解析：零售情境評估指標 = Precision／IOU／F1；(B) 是醫療與互動情境用的；(C)(D) 屬其他領域。（chunks line 159）

---

### Q23
在虛實整合互動與沉浸式應用情境中，下列敘述何者**錯誤**？
- (A) 虛擬人偶（Avatar）根據使用者語音與手勢回應，提升沉浸體驗
- (B) 整合視覺與語音控制的數位助理
- (C) 應用於虛擬展覽、智慧教室、遠距協作
- (D) 系統挑戰與延遲、跨模態一致性、運算資源無關

**答案：(D)**
解析：教材明列虛實整合應用的「挑戰」包含「系統延遲、跨模態一致性、運算資源需求」；(D) 與教材直接矛盾。（chunks line 167–171、175）

---

### Q24
下列關於虛實整合應用的**評估指標**，何者**錯誤**？
- (A) 回應延遲（Latency）
- (B) 語音辨識的 WER（Word Error Rate）
- (C) 姿勢辨識的準確率
- (D) 醫療診斷準確率與假陽性率

**答案：(D)**
解析：(D) 屬「醫療領域」的評估指標（診斷準確率、假陽性率、ROUGE）；虛實整合互動的指標為 Latency／WER／姿勢辨識準確率。常見干擾項跨領域指標互換。（chunks line 141、177）

---

## 第五部分｜風險與未來趨勢（Q25–Q30）

### Q25
下列關於多模態資料對齊與標註的挑戰與解決策略，何者**正確**？
- (A) 時序對齊可採用 Dynamic Time Warping（DTW）；語意對齊可用 CLIP 的對比學習
- (B) 多模態標註成本低廉，幾乎不需專業知識
- (C) 高品質多模態標註資料供應充足，無需擔心稀缺
- (D) 不同模態資料的時間戳對齊並非技術瓶頸

**答案：(A)**
解析：教材列舉解決策略「時序對齊演算法（如 Dynamic Time Warping, DTW）與語意對齊技術（如 CLIP 的對比學習）」；(B)(C)(D) 與教材列舉的挑戰相反。（chunks line 189–209）

---

### Q26
多模態 AI 模型部署到「邊緣設備」時，**通常**會用到下列哪一組技術以維持效能？
- (A) 剪枝（Pruning）、量化（Quantization）、知識蒸餾（Knowledge Distillation）
- (B) 完全增加模型參數量到兆級
- (C) 完全不做任何模型優化
- (D) 改用 SVM 取代深度模型

**答案：(A)**
解析：教材明確指出「部署至邊緣設備需維持效能，涉及模型壓縮（如剪枝 Pruning）、量化（Quantization）或知識蒸餾（Knowledge Distillation）等技術」。（chunks line 219）

---

### Q27
多模態 AI 的混合部署（雲端 + 邊緣）策略**通常**為何？
- (A) 關鍵任務於邊緣執行，複雜推理交由雲端處理
- (B) 所有任務一律於雲端執行，從不使用邊緣
- (C) 所有任務一律於邊緣執行，從不使用雲端
- (D) 完全棄用雲端與邊緣，改採紙本紀錄

**答案：(A)**
解析：教材建議「混合部署：結合雲端與邊緣運算，關鍵任務於邊緣執行，複雜推理交由雲端處理」。常見干擾項把雲/邊角色顛倒或極端化。（chunks line 231）

---

### Q28
下列關於多模態 AI 隱私與法規風險的解決策略，何者**錯誤**？
- (A) 資料保護：實施匿名化（如遮罩人臉）與端到端加密（End-to-End Encryption）
- (B) 模型安全：加入對抗訓練（Adversarial Training）與生成內容檢測機制
- (C) 法規遵循：遵循 GDPR、台灣《個人資料保護法》等
- (D) 為節省成本，可將敏感生理訊號以明文上傳至公開雲端公共資料庫

**答案：(D)**
解析：(D) 與「敏感資料未經加密或匿名化，易遭竊取或誤用」直接矛盾，且違反 GDPR/個資法。教材建議 (A)(B)(C) 三項才是正確策略。（chunks line 241、251–255）

---

### Q29
下列何者**屬於**多模態 AI 的未來趨勢之一？
- (A) 統一架構發展：朝向通用架構，支援任意模態輸入
- (B) 永久回歸早期特徵串接方式，棄用 Transformer
- (C) 棄用自我監督學習，僅依賴人工標註
- (D) 與代理式 AI 完全脫鉤，避免融合

**答案：(A)**
解析：教材列出未來趨勢 = ① 統一架構發展 ② 即時與低資源環境部署 ③ 自主學習與自我監督機制 ④ 與代理式 AI 的整合 ⑤ 法規與倫理框架建置。(B)(C)(D) 與每一趨勢直接相反。（chunks line 261–279）

---

### Q30
下列關於 ImageBind（Meta）與 GPT-4 多模態能力的敘述，何者**正確**？
- (A) ImageBind 嘗試將多種感知模態（影像、聲音、深度、紅外線等）映射至「統一的向量空間」
- (B) GPT-4 完全無法處理圖像輸入，僅能接受純文字
- (C) ImageBind 僅支援文字模態，與其他模態無關
- (D) Meta 的 ImageBind 與 OpenAI 的 GPT-4 屬於早期特徵串接階段技術

**答案：(A)**
解析：教材明示「Meta 的 ImageBind 則嘗試將多種感知模態（包括影像、聲音、深度、紅外線等）映射至統一的向量空間中」、「OpenAI 的 GPT-4（及更新之版本）已具備文字與圖像輸入能力」。（chunks line 11）

---

## 答案速查表

| Q | 答 | Q | 答 | Q | 答 |
|---|---|---|---|---|---|
| 1 | B | 11 | B | 21 | C |
| 2 | D | 12 | D | 22 | A |
| 3 | D | 13 | B | 23 | D |
| 4 | D | 14 | A | 24 | D |
| 5 | A | 15 | D | 25 | A |
| 6 | B | 16 | A | 26 | A |
| 7 | A | 17 | A | 27 | A |
| 8 | B | 18 | D | 28 | D |
| 9 | A | 19 | B | 29 | A |
| 10 | A | 20 | D | 30 | A |

## 命題分布統計

| 章節 | 題號 | 題數 | 重點 |
|---|---|---:|---|
| 基礎概念與定義 | Q1–Q6 | 6 | Multimodal AI 定義／Modality 種類／Cross-modal Embeddings／語意對齊與融合學習 |
| 技術演進三階段與融合策略 | Q7–Q12 | 6 | 特徵串接 vs 模態專屬網路 vs Transformer 統一架構／Early vs Late Fusion |
| CLIP 與代表性模型 | Q13–Q18 | 6 | CLIP 對比學習／Vision Transformer 編碼器／BLIP-2／Flamingo／M3AE |
| 應用情境 | Q19–Q24 | 6 | 語音流程（ASR→NLU）／智慧醫療／零售／虛實整合與評估指標 |
| 風險與未來趨勢 | Q25–Q30 | 6 | 資料對齊（DTW/CLIP）／模型壓縮（剪枝/量化/蒸餾）／混合部署／隱私法規／統一架構與代理式 AI |
| **合計** | — | **30** | — |

## 易混淆考點清單（找混淆提示詞輸出）

| # | 易混淆對 | 差異 |
|---|---|---|
| 1 | Early Fusion vs Late Fusion | Early = 資料層級整合；Late = 特徵層級整合（Q11） |
| 2 | ASR vs NLU vs TTS | ASR = 語音→文字；NLU = 解析意圖；TTS = 文字→語音輸出（Q19/Q20） |
| 3 | CLIP（OpenAI）vs BLIP（Salesforce）vs Flamingo（DeepMind）vs M3AE | 公司與專長易張冠李戴（Q13/Q17/Q18） |
| 4 | Cross-modal Embeddings 核心目的 | 映射至同一語意空間，不是各模態獨立向量空間（Q5） |
| 5 | 早期特徵串接 vs Transformer 統一架構 | 早期無法處理語意對齊；當前可流暢處理跨模態任務（Q7） |
| 6 | CNN（影像）vs RNN（文字/語音） | 深度學習階段的模態專屬網路搭配易反（Q8） |
| 7 | CLIP Zero-shot 優勢 vs 訓練資料偏見限制 | 優勢是 Zero-shot；限制是訓練資料偏見、複雜情境細節有限（Q16） |
| 8 | 醫療指標（Accuracy/FPR/ROUGE）vs 零售指標（Precision/IOU/F1）vs 互動指標（Latency/WER/姿勢準確率） | 三領域指標跨領域對調最常考（Q22/Q24） |
| 9 | 剪枝 / 量化 / 知識蒸餾 vs 增加參數量 | 邊緣部署做減法（壓縮），不是加法（Q26） |
| 10 | 混合部署：邊緣（關鍵任務）+ 雲端（複雜推理） | 角色易顛倒或極端化（Q27） |

---

— 命題：Heiter（2026-05-12）
— 對應投影片版本：L21104 多模態人工智慧應用（共 15 頁 / 教材 3-73 ~ 3-88）