# L21103 生成式 AI 技術與應用 — 模擬試題 30 題

> 題型：四選一單選題（iPAS AI 規劃師中級 標準題型）
> 教材來源：`chunks/L21103.txt`（每題解析末標 chunks 行號）
> 命題原則：用易混淆概念設計干擾項（Generative vs Discriminative 對調、GAN 生成器/判別器互換、Diffusion 逐步去噪 vs 對抗訓練混淆、BLEU vs ROUGE 角色錯位）

---

## 第一部分｜生成式 AI 基礎概念與演進脈絡（Q1–Q8）

### Q1
下列關於生成式 AI（Generative AI）與鑑別式 AI（Discriminative AI）的比較，何者**正確**？
- (A) 生成式 AI 主要用於分類、辨識或預測；鑑別式 AI 用於生成新資料樣本
- (B) 生成式 AI 學習資料的分佈並生成新樣本（如文本、圖像、音訊）；鑑別式 AI 學習資料特徵進行分類或預測
- (C) 兩者完全相同，沒有差異
- (D) 生成式 AI 只能生成圖像，無法生成文字

**答案：(B)**
解析：Generative AI 強調「創造性」，學習資料分佈生成新樣本（GPT/VAE/GAN/Diffusion）；Discriminative AI 強調「分類/預測」（SVM/決策樹/RF/Logistic 迴歸）。常見干擾項把兩者角色對調。（chunks line 27、29–42）

---

### Q2
NVIDIA 黃仁勳於 2025 CES 提出 AI 的四個演進階段中，「能夠主動產生文本、圖像、影片、語音等多模態內容」對應的階段為何？
- (A) 感知 AI（Perception AI）
- (B) 生成式 AI（Generative AI）
- (C) 代理式 AI（Agentic AI）
- (D) 物理 AI（Physical AI）

**答案：(B)**
解析：四階段 = Perception（理解影像/語音/文字）→ Generative（主動產生多模態內容）→ Agentic（推理計畫自動完成任務）→ Physical（在真實世界移動操控）。（chunks line 11–19）

---

### Q3
下列關於生成式 AI 各應用類型與代表的對應，何者**錯誤**？
- (A) 文本生成：ChatGPT、Claude
- (B) 圖像生成：DALL·E、Midjourney、Stable Diffusion
- (C) 語音與音樂生成：ElevenLabs、MusicLM
- (D) 影片生成：ResNet、HMM

**答案：(D)**
解析：ResNet 是影像分類的 CNN 模型；HMM 是統計語言模型 — 兩者都不是影片生成代表。影片生成代表 = Runway、Sora。常見干擾項把鑑別式模型偷換成生成式。（chunks line 45–53）

---

### Q4
下列關於生成式 AI 演進五階段的對應，何者**錯誤**？
- (A) 初期階段（2013–2015）：VAE、RNN — 生成模糊、訓練困難
- (B) GAN 時代（2014–2020）：對抗訓練 — DCGAN、StyleGAN — 高寫實性、不穩定性
- (C) Transformer 崛起（2017 年起）：自注意力機制 — BERT、GPT — 高效語境建模
- (D) 擴散與多模態（2020 年起）：對抗訓練 — DALL·E、Stable Diffusion

**答案：(D)**
解析：擴散模型（Diffusion）核心是「逐步去噪（Denoising）」過程，不是對抗訓練；對抗訓練是 GAN 的特性。常見干擾項把 Diffusion 與 GAN 機制對調。（chunks line 63–69、107–113）

---

### Q5
下列關於 VAE（Variational Autoencoder）的敘述，何者**正確**？
- (A) VAE 透過變分推斷（Variational Inference）學習數據的潛在分佈，能從隨機噪聲中重建圖像或文本
- (B) VAE 透過生成器與判別器的對抗訓練學習
- (C) VAE 是 Transformer 的變體
- (D) VAE 完全等同於 GAN

**答案：(A)**
解析：VAE 利用變分推斷學潛在分佈（Latent Distribution），從噪聲重建圖像/文本；屬初期階段（2013–2015）。對抗訓練是 GAN 特性。常見干擾把 VAE/GAN 機制對調。（chunks line 73–75）

---

### Q6
下列關於 GAN（Generative Adversarial Network）核心訓練機制的描述，何者**正確**？
- (A) GAN 由 Ian Goodfellow 於 2014 年提出，透過「生成器（Generator）逼近真實分佈」與「判別器（Discriminator）區分生成 vs 真實資料」的對抗訓練形成動態平衡
- (B) GAN 由 Geoffrey Hinton 於 2017 年提出，僅有單一網路
- (C) GAN 的生成器負責區分真偽，判別器負責生成新樣本
- (D) GAN 是一種純機率模型，與神經網路無關

**答案：(A)**
解析：GAN = Generator（生成逼近真實）+ Discriminator（區分真偽）的對抗訓練動態平衡，由 Ian Goodfellow 2014 年提出。常見干擾項把 Generator/Discriminator 角色對調。（chunks line 81–85）

---

### Q7
下列關於 GAN 階段限制的敘述，何者**正確**？
- (A) GAN 訓練極度穩定，從不出現任何問題
- (B) GAN 訓練不穩定（如模式崩潰 Mode Collapse）、對超參數敏感，且難以生成結構複雜的長序列內容
- (C) GAN 不需要大量資料
- (D) GAN 只能生成黑白圖像

**答案：(B)**
解析：GAN 限制 = 訓練不穩定、Mode Collapse、超參數敏感、難生成結構複雜長序列。代表模型如 DCGAN、CycleGAN、StyleGAN。（chunks line 89–93）

---

### Q8
下列關於擴散模型（Diffusion Models）的核心生成機制，何者**正確**？
- (A) 採用對抗訓練（Generator vs Discriminator）逐步生成圖像
- (B) 通過「逐步去噪（Denoising）」過程從隨機噪聲生成細節豐富的圖像
- (C) 採用 RNN 序列生成，逐字輸出像素
- (D) 採用條件機率場（CRF）進行像素標註

**答案：(B)**
解析：Diffusion Models（如 DDPM、Stable Diffusion）通過「逐步去噪」從隨機噪聲生成高品質圖像。對抗訓練是 GAN 機制，不是 Diffusion。（chunks line 107–113）

---

## 第二部分｜LLM 與文本生成（Q9–Q13）

### Q9
下列關於 ChatGPT 的敘述，何者**正確**？
- (A) ChatGPT 由 OpenAI 開發，基於 GPT 架構，提供即時文本生成與多情境對話支持，並具備整合語言、圖像與工具調用的跨模態生成特性
- (B) ChatGPT 由 Google DeepMind 開發
- (C) ChatGPT 是一種 GAN 模型
- (D) ChatGPT 僅能生成圖像，無法生成文字

**答案：(A)**
解析：ChatGPT 為 OpenAI 開發、基於 GPT 架構的對話式 AI；Gemini 才是 Google DeepMind 開發。常見干擾項把廠商對調。（chunks line 145–151）

---

### Q10
下列關於 Claude（Anthropic）的特色，何者**正確**？
- (A) Claude 以安全性與長上下文處理能力著稱，強調模型與人類價值的對齊，適用於需要高可信度的情境
- (B) Claude 是 Meta 開發的開源模型
- (C) Claude 是一種影像生成工具
- (D) Claude 僅能處理英文

**答案：(A)**
解析：Claude 由 Anthropic 開發，特色 = 安全性 + 長上下文 + 對齊人類價值，適合高可信度情境。LLaMA 才是 Meta 開源模型。（chunks line 149）

---

### Q11
下列關於文本生成評估指標的對應，何者**正確**？
- (A) BLEU 主要應用於機器翻譯與文本生成，計算生成文本與參考文本之間的 n-gram 重疊程度
- (B) BLEU 是衡量摘要召回率的指標
- (C) BLEU 由 Lin 於 2004 年提出
- (D) BLEU 是人工評估方法

**答案：(A)**
解析：BLEU（Papineni 2002）= n-gram 重疊 + 簡短懲罰（Brevity Penalty），主要用於機器翻譯/文本生成；ROUGE 才是召回率指標。常見干擾項把 BLEU/ROUGE 對調。（chunks line 179–181）

---

### Q12
下列關於 ROUGE 的敘述，何者**正確**？
- (A) ROUGE 由 Papineni 於 2002 年提出，用於機器翻譯
- (B) ROUGE 由 Lin 於 2004 年提出，強調生成文本與參考文本的「召回率（Recall）」，主要用於自動摘要、內容生成與問答系統
- (C) ROUGE 只能用於圖像生成評估
- (D) ROUGE 是人工評估指標，與自動化無關

**答案：(B)**
解析：ROUGE（Recall-Oriented Understudy for Gisting Evaluation，Lin 2004）強調 Recall，用於自動摘要/問答；常見變體 = ROUGE-N、ROUGE-L、ROUGE-S。（chunks line 185–187）

---

### Q13
下列關於「模型幻覺（Hallucination）」對文本生成的挑戰，何者**正確**？
- (A) Hallucination 是指模型生成內容過於完美，超越人類水準
- (B) 生成內容的真實性與一致性挑戰 — 模型可能生成虛假/誤導/虛構資訊，且長文本的邏輯連貫性也是挑戰
- (C) Hallucination 與長文本邏輯連貫性無關
- (D) Hallucination 僅是 BLEU 指標的另一稱呼

**答案：(B)**
解析：文本生成主要挑戰 = 生成內容真實性與一致性（避免幻覺）+ 長文本邏輯連貫性。（chunks line 169）

---

## 第三部分｜圖像生成（Q14–Q19）

### Q14
下列關於圖像生成主流模型 Diffusion Models 的代表，何者**正確**？
- (A) Stable Diffusion、DALL·E 2、Imagen 透過「逐步降噪」過程生成圖像，具高自由度與真實感
- (B) Diffusion Models 主要為 SVM 與決策樹
- (C) Diffusion Models 完全等同於 BERT
- (D) Diffusion Models 僅能用於文字生成

**答案：(A)**
解析：Diffusion Models 代表 = Stable Diffusion、DALL·E 2、Imagen，透過逐步降噪生成圖像；具高自由度與真實感。（chunks line 199）

---

### Q15
下列關於 StyleGAN、BigGAN 的核心訓練機制，何者**正確**？
- (A) 透過逐步降噪過程生成圖像
- (B) 採用對抗訓練（Generator vs Discriminator）生成逼真的人臉、風景、藝術風格圖
- (C) 採用 RNN 逐字輸出像素
- (D) 採用 Self-Attention 編碼器處理圖像

**答案：(B)**
解析：StyleGAN/BigGAN 為 GAN（Generative Adversarial Network）家族，採對抗訓練；逐步降噪是 Diffusion 的特性。常見干擾項把 GAN/Diffusion 機制對調。（chunks line 201）

---

### Q16
下列關於 ControlNet / InstructPix2Pix 的用途，何者**正確**？
- (A) 用於控制圖像生成的姿態、邊緣、遮罩或修改局部內容
- (B) 用於從文字直接生成程式碼
- (C) 用於語音合成
- (D) 用於 NLP 中的詞性標注

**答案：(A)**
解析：ControlNet / InstructPix2Pix 提供圖像生成的「可控性」 — 控制姿態、邊緣、遮罩或局部修改。（chunks line 203）

---

### Q17
下列關於 Midjourney 的敘述，何者**正確**？
- (A) Midjourney 是基於雲端服務的圖像生成工具，可透過 Discord 平台或官網以自然語言提示產生具藝術感的插畫，背後融合擴散模型與風格優化算法
- (B) Midjourney 是 OpenAI 開發的對話式 AI
- (C) Midjourney 只能生成黑白圖像
- (D) Midjourney 完全等同於 ChatGPT

**答案：(A)**
解析：Midjourney = 雲端圖像生成（Discord 平台/官網）+ 擴散模型 + 風格優化算法，特色為高美學風格藝術感。（chunks line 207）

---

### Q18
下列關於 Stable Diffusion WebUI 的敘述，何者**正確**？
- (A) Stable Diffusion WebUI 是開源的本地部署工具，支援 LoRA 微調、ControlNet 邊緣控制與參數自定義
- (B) Stable Diffusion WebUI 是完全雲端閉源服務
- (C) Stable Diffusion WebUI 僅能用於語音合成
- (D) Stable Diffusion WebUI 不支援任何微調

**答案：(A)**
解析：Stable Diffusion WebUI = 開源 + 本地部署 + 圖形化介面 + 支援 LoRA 微調與 ControlNet。（chunks line 209）

---

### Q19
下列關於圖像生成應用情境的列舉，何者**錯誤**？
- (A) 品牌視覺設計：生成品牌標誌、廣告圖像
- (B) 社群圖文素材產生：自動生成社交媒體貼文圖像
- (C) 遊戲角色與場景創作：快速創建遊戲中角色、場景、概念藝術
- (D) 數據庫索引維護：直接使用 Diffusion 模型管理 SQL 索引

**答案：(D)**
解析：(D) 是資料庫範疇，與圖像生成無關。圖像生成典型應用 = 品牌視覺/社群素材/遊戲角色/影片預視化/藝術風格模仿。（chunks line 217–225）

---

## 第四部分｜語音合成（Q20–Q23）

### Q20
下列關於語音合成（Text-to-Speech, TTS）目標的描述，何者**正確**？
- (A) 將文字輸入轉換為自然語音輸出，模擬人類語言的表達方式
- (B) 將語音轉換為文字（這是 ASR 的功能）
- (C) 僅能轉換英文，不支援其他語言
- (D) 僅能輸出機械感濃厚的合成音

**答案：(A)**
解析：TTS（Text-to-Speech）= 將文字輸入轉為自然語音輸出，廣泛應用於虛擬助理、有聲書、配音、教育、智慧設備。（chunks line 229）

---

### Q21
下列關於 VITS（Variational Inference Text-to-Speech）的敘述，何者**正確**？
- (A) VITS 結合變分自編碼器（VAE）與生成對抗網路（GAN），通過端到端訓練直接從文字生成語音波形
- (B) VITS 僅使用 RNN，不採用 VAE 或 GAN
- (C) VITS 完全等同於 BERT
- (D) VITS 只能用於影像分割

**答案：(A)**
解析：VITS = VAE + GAN + 端到端訓練 → 直接從文字生成語音波形；音質細膩、適應多語者。（chunks line 239–241）

---

### Q22
下列關於 Whisper（OpenAI）的敘述，何者**正確**？
- (A) Whisper 主要為語音辨識（Speech-to-Text）模型，但常與語音合成搭配形成雙向語音應用流程
- (B) Whisper 是純圖像生成工具
- (C) Whisper 是 GAN 的變體，僅能生成圖像
- (D) Whisper 與語音處理完全無關

**答案：(A)**
解析：Whisper（OpenAI）主要為 STT（Speech-to-Text）模型，可與 TTS 搭配形成雙向語音流程（先辨識再合成）。（chunks line 243–245）

---

### Q23
下列關於語音合成關鍵指標 MOS（Mean Opinion Score）的描述，何者**正確**？
- (A) MOS 是人工評估語音自然度的平均分數（1-5 分）
- (B) MOS 衡量語音內容準確性的錯誤率
- (C) MOS 衡量從文字到語音的生成延遲
- (D) MOS 是 GAN 的訓練損失函數

**答案：(A)**
解析：MOS = 人工打分（1-5 分）評估語音自然度；WER 才是錯誤率；生成延遲是另一指標。（chunks line 287）

---

## 第五部分｜LLM 與 Agent 化趨勢（Q24–Q26）

### Q24
下列關於 LLM（Large Language Model）巨型模型與 Agent 化發展（2023 年起）的趨勢，何者**正確**？
- (A) 巨型參數規模、指令驅動（Instruction Tuning）、工具鏈整合（API 調用、RAG 檢索增強、記憶功能）
- (B) 巨型模型已完全不需指令理解
- (C) Agent 化發展與 RAG 完全無關
- (D) 巨型模型只能用於影像分類

**答案：(A)**
解析：2023 年起的趨勢 = 巨型參數（GPT-4/Claude 2/Gemini 1.5）+ 指令理解 + 多回合互動 + 工具整合（API/RAG/記憶）→ Autonomous Agent。（chunks line 121–127）

---

### Q25
下列關於「跨模態對齊」（如 CLIP 的圖文對應）的描述，何者**正確**？
- (A) 多模態模型依賴預訓練與跨模態對齊，將不同模態（如圖像、文本）映射到同一語意空間
- (B) 跨模態對齊僅能處理黑白圖像
- (C) 跨模態對齊就是 GAN 的對抗訓練
- (D) 跨模態對齊與生成式 AI 無關

**答案：(A)**
解析：多模態模型透過預訓練 + 跨模態對齊（如 CLIP 將圖文映射到同一語意空間）達成跨模態理解；常見代表 = CLIP、DALL·E、Flamingo、Gemini。（chunks line 109–113）

---

### Q26
下列關於 Prompt Engineering 的發展趨勢，何者**正確**？
- (A) Prompt Engineering 將逐步發展為一項關鍵技能，模型不僅要理解使用者意圖，還要能針對語氣、風格、長度、格式等多層次進行調整
- (B) Prompt Engineering 已被淘汰，未來不再重要
- (C) Prompt Engineering 與可控生成無關
- (D) Prompt Engineering 僅適用於圖像分類

**答案：(A)**
解析：可控生成 + Prompt Engineering 深化是未來趨勢 — 模型對語氣/風格/長度/格式進行多層次調整，Prompt Engineering 將成關鍵技能。（chunks line 323–325）

---

## 第六部分｜生成式 AI 風險與未來趨勢（Q27–Q30）

### Q27
下列關於「深偽（Deepfake）」技術濫用風險的描述，何者**正確**？
- (A) Deepfake 僅是學術概念，沒有實際社會影響
- (B) 結合圖像生成與語音合成技術產生的深偽影片，已成為詐騙與假訊息散播工具，需技術偵測與法律規範因應
- (C) Deepfake 是 LLM 的訓練技術
- (D) Deepfake 完全等同於 Prompt Engineering

**答案：(B)**
解析：Deepfake = 圖像生成 + 語音合成 → 詐騙/假訊息工具；需技術偵測 + 法律規範因應，是生成式 AI 五大風險之一。（chunks line 309–311）

---

### Q28
下列關於生成式 AI「智慧財產權與授權爭議」的描述，何者**正確**？
- (A) 生成式模型訓練資料若涉及受著作權保護的內容，未經授權使用可能衍生著作權糾紛
- (B) 生成式 AI 的訓練資料完全不涉及版權問題
- (C) 智財權問題只存在 NLP 任務中，與圖像生成無關
- (D) 生成式 AI 的所有輸出都自動擁有著作權

**答案：(A)**
解析：生成式模型常依賴大量資料訓練，若涉及著作權保護內容未經授權使用 → 著作權糾紛，是五大風險之一。（chunks line 301–303）

---

### Q29
下列關於「模型對齊與安全防護機制」未來發展的描述，何者**正確**？
- (A) 對齊性（Alignment）將透過 RLHF（人類回饋強化學習）、紅隊測試（Red Teaming）等技術，強化輸出內容的安全性與合規性
- (B) 模型對齊與 RLHF、紅隊測試完全無關
- (C) 模型對齊指的是模型參數對齊
- (D) 安全防護只是法規問題，與技術無關

**答案：(A)**
解析：未來模型對齊 + 防濫用機制 = RLHF（Reinforcement Learning with Human Feedback）+ Red Teaming → 強化安全性與合規性。（chunks line 331–333）

---

### Q30
下列關於「小型化與邊緣部署模型興起」的趨勢，何者**正確**？
- (A) 為因應運算資源與資料隱私考量，越來越多生成模型將朝向「可在地端執行」的小型模型發展，利於嵌入手機、PC 或 IoT 設備
- (B) 小型化模型完全無法用於生成式 AI
- (C) 邊緣部署只適合 CV，無法用於生成式 AI
- (D) 未來生成式 AI 只能在大型雲端運行

**答案：(A)**
解析：小型化 + 邊緣部署是因應運算資源 + 資料隱私 → 嵌入手機/PC/IoT 設備。（chunks line 327–329）

---

## 答案速查表

| Q | 答 | Q | 答 | Q | 答 |
|---|---|---|---|---|---|
| 1 | B | 11 | A | 21 | A |
| 2 | B | 12 | B | 22 | A |
| 3 | D | 13 | B | 23 | A |
| 4 | D | 14 | A | 24 | A |
| 5 | A | 15 | B | 25 | A |
| 6 | A | 16 | A | 26 | A |
| 7 | B | 17 | A | 27 | B |
| 8 | B | 18 | A | 28 | A |
| 9 | A | 19 | D | 29 | A |
| 10 | A | 20 | A | 30 | A |

## 命題分布統計

| 章節 | 題號 | 題數 | 重點 |
|---|---|---:|---|
| 生成式 AI 基礎概念與演進脈絡 | Q1–Q8 | 8 | Generative vs Discriminative/四階段 AI/應用類型對應/五階段演進/VAE/GAN/Diffusion |
| LLM 與文本生成 | Q9–Q13 | 5 | ChatGPT/Claude/BLEU vs ROUGE/Hallucination |
| 圖像生成 | Q14–Q19 | 6 | Diffusion 代表/GAN 訓練機制/ControlNet/Midjourney/Stable Diffusion WebUI/應用情境 |
| 語音合成 | Q20–Q23 | 4 | TTS 定義/VITS/Whisper/MOS |
| LLM 與 Agent 化趨勢 | Q24–Q26 | 3 | 巨型模型 + Agent 化/跨模態對齊/Prompt Engineering |
| 生成式 AI 風險與未來趨勢 | Q27–Q30 | 4 | Deepfake/智財授權/Alignment + RLHF + Red Teaming/邊緣部署 |
| **合計** | — | **30** | — |

## 易混淆考點清單

| # | 易混淆對 | 差異 |
|---|---|---|
| 1 | Generative AI vs Discriminative AI | Generative 生成新樣本（GPT/VAE/GAN/Diffusion）；Discriminative 分類預測（SVM/DT/RF/Logistic）（Q1） |
| 2 | GAN 生成器 vs 判別器 | Generator 生成逼近真實；Discriminator 區分真偽；對抗訓練動態平衡（Q6） |
| 3 | Diffusion 逐步去噪 vs GAN 對抗訓練 | Diffusion = Denoising 逐步去噪；GAN = Generator/Discriminator 對抗（Q4/Q8/Q15） |
| 4 | VAE vs GAN | VAE 變分推斷學潛在分佈；GAN 對抗訓練（Q5） |
| 5 | BLEU vs ROUGE | BLEU（Papineni 2002）n-gram 重疊 + Brevity Penalty 機器翻譯；ROUGE（Lin 2004）Recall 摘要/問答（Q11/Q12） |
| 6 | ChatGPT vs Claude vs Gemini | ChatGPT（OpenAI/GPT）；Claude（Anthropic/安全 + 長上下文 + 對齊）；Gemini（Google DeepMind/跨模態）（Q9/Q10） |
| 7 | TTS vs STT | TTS（Text-to-Speech）文字→語音；STT/ASR（如 Whisper）語音→文字（Q20/Q22） |
| 8 | LLM 五階段演進 | 初期 VAE/RNN（2013）→ GAN（2014）→ Transformer（2017）→ Diffusion + 多模態（2020）→ 巨型 + Agent（2023）（Q2/Q4/Q24） |
| 9 | Midjourney vs Stable Diffusion WebUI | Midjourney 雲端 + Discord/官網 + 高美學；Stable Diffusion WebUI 開源 + 本地 + LoRA/ControlNet（Q17/Q18） |
| 10 | 生成式 AI 五大風險 | 內容真偽/智財授權/偏見放大/Deepfake/可控性與輸出不確定性（Q27/Q28） |

---

— 命題：Heiter（2026-05-12）
— 對應教材：科目一 3.3 生成式 AI 技術與應用（頁碼 3-59 ~ 3-73）