# L23203 深度學習原理與框架 — 模擬試題 30 題

> 題型：四選一單選題（iPAS AI 規劃師中級 標準題型）
> 教材來源：`chunks/L23203.txt`（每題解析末標 chunks 行號）
> 視覺輔助：`output3/L23203_深度學習原理與框架v2/images/` 投影片
> 命題原則：用易混淆概念設計干擾項（同類項換位、屬性錯配、定義 partial swap）

---

## 第一部分｜前言與基本概念（Q1–Q3）

### Q1
下列關於深度學習（Deep Learning）相對於傳統機器學習的**關鍵差異**，何者**正確**？
- (A) 深度學習依賴大量人工特徵工程（Feature Engineering）
- (B) 深度學習透過多層神經網路結構，能**自動學習**數據中的高階抽象特徵
- (C) 深度學習只能處理結構化資料,無法處理影像或語音
- (D) 深度學習不需要任何運算資源即可訓練

**答案：(B)**
解析：深度學習透過多層神經網路自動學習高階抽象特徵；傳統機器學習才依賴手工特徵工程。(C)(D) 為錯誤敘述。（chunks line 9–11）

---

### Q2
人工神經元（Artificial Neuron）的「加權求和」階段，**除了**將輸入訊號乘以權重後相加之外，還會加上下列何者？
- (A) 學習率（Learning Rate）
- (B) 偏置項（Bias, b）
- (C) 損失值（Loss）
- (D) 殘差（Residual）

**答案：(B)**
解析：加權求和公式 Z = Σwᵢxᵢ + b，偏置項 b 允許神經元在沒有任何輸入訊號時也能被激活，或調整激活閾值。學習率屬於優化器超參、損失值屬於評估、殘差屬於 ResNet 連接概念。（chunks line 40–50）

---

### Q3
下列關於感知器（Perceptron）的敘述，何者**錯誤**？
- (A) 由 Frank Rosenblatt 於 1957 年提出，是最早的人工神經元模型之一
- (B) 通常使用步階函數（Step Function）作為激活函數
- (C) 能夠解決非線性可分的 XOR（互斥或）問題
- (D) 是一種二元分類器

**答案：(C)**
解析：感知器**無法**解決非線性可分問題（如 XOR），這是其著名限制；單個感知器只能處理線性可分問題。常見混淆考點。（chunks line 72–75、105–110）

---

## 第二部分｜激活函數、前向／反向傳播、損失與正則化（Q4–Q11）

### Q4
下列關於激活函數（Activation Function）**最根本作用**的敘述，何者**正確**？
- (A) 加快訓練速度，使模型不必使用梯度下降
- (B) 引入**非線性（Non-linearity）**，使神經網路能夠逼近並學習複雜的非線性函數關係
- (C) 提供分類結果的最終標籤
- (D) 取代損失函數的角色，計算預測誤差

**答案：(B)**
解析：激活函數最根本作用 = 引入非線性；若無激活函數或只用線性激活，整個多層網路就退化成單層線性模型，只能解決線性可分問題。（chunks line 120–124）

---

### Q5
下列何者對於 Sigmoid 與 ReLU 兩種激活函數**輸出特性**的敘述**正確**？
- (A) Sigmoid 將輸出壓縮至 [0, 1]；ReLU 則在輸入為正時直接輸出、為負時輸出 0，實現稀疏激活
- (B) Sigmoid 將輸出限制在 [-1, 1]；ReLU 將輸出限制在 [0, 1]
- (C) Sigmoid 和 ReLU 的輸出範圍相同
- (D) ReLU 將輸出壓縮至 0 到 1 之間，可視為機率

**答案：(A)**
解析：Sigmoid 輸出範圍 [0, 1]（可視為機率或激活強度）；ReLU 正輸入直接傳、負輸入歸 0 達成稀疏激活。Tanh 才是 [-1, 1]。（chunks line 131–138）

---

### Q6
神經網路訓練的「前向傳播（Forward Propagation）」與「反向傳播（Backpropagation）」分別**負責**何種任務？
- (A) 前向傳播 → 調整參數；反向傳播 → 做預測
- (B) 前向傳播 → 做預測；反向傳播 → 計算梯度並調整參數
- (C) 兩者都是做預測，差別僅在計算方向
- (D) 兩者都是調整參數，與預測無關

**答案：(B)**
解析：前向傳播 = 輸入資料逐層往前計算到輸出層做預測；反向傳播 = 計算損失梯度從輸出層往回傳，更新權重。兩者形成訓練循環。常見干擾項把兩者角色互換。（chunks line 155–161、188–196）

---

### Q7
反向傳播（Backpropagation）計算梯度時，所運用的**核心數學原理**為何？
- (A) 微積分的**連鎖律（Chain Rule）**
- (B) 拉格朗日乘子法（Lagrange Multiplier）
- (C) 傅立葉轉換（Fourier Transform）
- (D) 牛頓二項式定理（Binomial Theorem）

**答案：(A)**
解析：BP 將預測誤差從輸出端**反向傳遞**至每一層,透過鏈式法則（Chain Rule）逐層計算梯度。（chunks line 200、218）

---

### Q8
下列何者**適合**用於「**迴歸**問題」的損失函數？
- (A) 二元交叉熵（Binary Cross-Entropy）
- (B) 類別交叉熵（Categorical Cross-Entropy）
- (C) 均方誤差（Mean Squared Error, MSE）／平均絕對誤差（MAE）
- (D) Hinge Loss

**答案：(C)**
解析：迴歸問題（預測連續值）用 MSE / MAE；分類問題（預測離散類別）才用交叉熵。常見干擾：把分類損失誤套到迴歸任務。（chunks line 252–267）

---

### Q9
下列關於**過擬合（Overfitting）的「特徵」**，何者**正確**？
- (A) 模型在訓練集上的損失高、準確率低
- (B) 模型在訓練集上的損失很低、準確率高；但在驗證集（或測試集）上損失高、準確率顯著下降
- (C) 模型在訓練集與測試集表現都很差
- (D) 模型完全不需要驗證集即可確認過擬合

**答案：(B)**
解析：過擬合 = 訓練表現極佳但泛化能力差。「訓練集表現好+測試集落差大」為其典型特徵；(A)(C) 是欠擬合（Underfitting）特徵。（chunks line 290–293）

---

### Q10
下列關於 **L1 正則化（Lasso）與 L2 正則化（Ridge）**的差異敘述，何者**正確**？
- (A) L1 為權重平方和，能讓權重平滑；L2 為權重絕對值和，能將部分權重壓縮為零
- (B) L1 為權重絕對值和，能促使部分權重縮小為零達成特徵選擇；L2 為權重平方和,防止權重過大,使模型更平滑穩定
- (C) L1 與 L2 完全相同，無差別
- (D) L1 與 L2 都只能用於迴歸任務,無法應用於神經網路

**答案：(B)**
解析：L1 = 絕對值和、壓零做特徵選擇；L2 = 平方和、限制權重大小求平滑穩定。(A) 將兩者特性顛倒，是最常見干擾項。（chunks line 301–308）

---

### Q11
下列關於 **Dropout** 正則化技術的敘述，何者**正確**？
- (A) 訓練時**隨機屏蔽部分神經元**，避免神經元彼此過度依賴，降低過擬合風險
- (B) 在損失函數中加入權重平方和懲罰項
- (C) 在驗證集損失不再下降時提前停止訓練
- (D) 將神經元的輸出值壓縮到 [0,1] 區間

**答案：(A)**
解析：Dropout 核心 = 訓練時隨機關閉部分神經元；(B) 是 L2 正則化；(C) 是 Early Stopping；(D) 是 Sigmoid 激活函數作用。常見混淆。（chunks line 313–319）

---

## 第三部分｜深度學習模型架構（Q12–Q24）

### Q12
下列關於多層感知器（Multilayer Perceptron, MLP）**結構特性**的敘述，何者**錯誤**？
- (A) 屬於前饋（Feedforward）神經網路的典型代表
- (B) 層與層之間是全連接（Fully Connected）
- (C) 資訊只能單向從輸入層流向輸出層，中間沒有任何迴圈或反饋
- (D) 對輸入數據的順序或空間關係敏感,可保留像素或詞序資訊

**答案：(D)**
解析：MLP 假設輸入特徵獨立，會將輸入「攤平」成一維向量，**會丟失**空間（像素位置）或序列（單詞順序）資訊。常見干擾項。（chunks line 331–333、403–405）

---

### Q13
下列關於 MLP 輸出層**任務類型與激活函數的搭配**，何者**錯誤**？
- (A) 二元分類：1 個神經元 + Sigmoid 激活函數
- (B) 多類別分類：神經元數量 = 類別數 + Softmax 激活函數
- (C) 迴歸問題：通常使用 1 個或多個神經元，通常不使用激活函數或使用線性激活函數
- (D) 迴歸問題：必須使用 Softmax 激活函數輸出機率分佈

**答案：(D)**
解析：迴歸輸出**不需** Softmax（Softmax 用於多類別分類產生機率分佈）；迴歸通常用線性激活函數或不使用激活函數。常見干擾。（chunks line 358–369）

---

### Q14
下列關於 CNN「**卷積層**」核心特性的敘述,何者**錯誤**？
- (A) 卷積核（Kernel/Filter）在輸入數據上滑動，每次只關注輸入的一個小區域
- (B) 同一個卷積核在輸入數據的不同位置上**權重共享（Weight Sharing）**，可辨識位置不變的特徵
- (C) 每個卷積核會產生一個特徵映射（Feature Map）
- (D) 卷積層是全連接結構，每個神經元與前一層所有神經元相連

**答案：(D)**
解析：卷積層**不是**全連接 — 它採用「局部連接 + 權重共享」設計;全連接是 MLP / Dense Layer 的特性。常見干擾把 CNN 卷積層與 Dense Layer 搞混。（chunks line 445–459）

---

### Q15
下列關於 CNN 中**池化層（Pooling Layer）**的敘述，何者**正確**？
- (A) 用於增加特徵映射的尺寸，提升分辨率
- (B) **最大池化（Max Pooling）** 從核掃過區域中提取**最大值**，捕捉區域內最顯著的特徵
- (C) 池化層會大幅增加模型參數量,提升計算成本
- (D) 平均池化（Average Pooling）會選取區域內最大值

**答案：(B)**
解析：Max Pooling = 取最大值（最顯著特徵）；Average Pooling = 取平均值。池化目的是**縮減**特徵映射尺寸（降採樣）並增加平移不變性。常見干擾項把 Max/Avg 對調。（chunks line 466–474）

---

### Q16
下列 CNN 衍伸模型與其**核心技術創新**的對應，何者**錯誤**？
- (A) AlexNet（2012）→ 使用 ReLU 激活、Dropout、GPU 加速，開啟現代深度 CNN 時代
- (B) VGG → 用多個 3×3 小型卷積核堆疊取代大型卷積核
- (C) GoogLeNet（Inception）→ 引入「Inception 模塊」，並行執行不同大小的卷積核與池化操作
- (D) ResNet → 透過「Inception 模塊」解決梯度消失

**答案：(D)**
解析：ResNet 的核心創新是**殘差連接（Residual / Skip Connection）**,解決訓練極深層網路時的梯度消失和模型退化;Inception 模塊是 GoogLeNet 的特色。常見干擾把 ResNet/GoogLeNet 技術互換。（chunks line 556–574）

---

### Q17
下列關於 RNN（Recurrent Neural Network）**核心特點**的敘述，何者**正確**？
- (A) RNN 神經元之間**不存在**任何連接，與 MLP 結構相同
- (B) RNN 具有內部「記憶」機制；神經元之間存在**循環連接**（Recurrent Connections），當前時間步輸出依賴於當前輸入與過去時間步的計算結果
- (C) RNN 不能處理可變長度序列
- (D) RNN 跨時間步**不共享權重**

**答案：(B)**
解析：RNN 核心 = 內部記憶 + 循環連接 + 跨時間步權重共享 + 可處理可變長度序列。(A)(C)(D) 都是反例。（chunks line 584–588、620–623）

---

### Q18
RNN 在處理很長序列時，反向傳播過程中常面臨何種**長期依賴問題**？
- (A) 過擬合與欠擬合
- (B) 梯度消失（Vanishing Gradient）與梯度爆炸（Exploding Gradient）
- (C) 特徵縮放錯誤
- (D) 池化層尺寸過大

**答案：(B)**
解析：RNN 處理長序列時梯度在 BPTT 過程中可能呈指數級衰減（消失）或增長（爆炸）；這也是 LSTM/GRU 出現的主因。（chunks line 654–663）

---

### Q19
下列關於 **LSTM（Long Short-Term Memory）「門控機制」**的敘述，何者**正確**？
- (A) LSTM 只有一個門：輸出門（Output Gate）
- (B) LSTM 包含**輸入門（Input Gate）、遺忘門（Forget Gate）、輸出門（Output Gate）** 與獨立的細胞狀態（Cell State），可選擇性允許資訊流入、保留或移除
- (C) LSTM 完全摒棄了循環結構,改用注意力機制
- (D) LSTM 的記憶能力比標準 RNN 還差,無法解決梯度消失問題

**答案：(B)**
解析：LSTM 三大門 = Input / Forget / Output Gate + Cell State，這套設計有效解決梯度消失,使其能捕捉長期依賴。(C) 是 Transformer 特性。（chunks line 692–695）

---

### Q20
下列關於 **GRU（Gated Recurrent Unit）相對於 LSTM** 的差異，何者**正確**？
- (A) GRU 比 LSTM 多三個門，參數更多
- (B) GRU 是 LSTM 的簡化版本，**只包含兩個門（更新門 Update Gate 和重置門 Reset Gate）**，結構更為緊湊但仍能達到相當性能
- (C) GRU 完全沒有門控機制
- (D) GRU 是 CNN 的衍生模型,與 LSTM 屬於不同類別

**答案：(B)**
解析：GRU = LSTM 的簡化版,雙門結構（Update Gate + Reset Gate），減少參數但保留長期記憶能力。常見干擾把 GRU 門數搞錯或把它分到其他類別。（chunks line 697–700）

---

### Q21
**Transformer 架構**最核心的創新為何？
- (A) 卷積層（Convolutional Layer）+ 池化層（Pooling Layer）
- (B) 完全基於**注意力機制（Attention Mechanism）**,捨棄傳統 RNN 的循環結構與 CNN 的卷積結構
- (C) 強化學習中的策略梯度（Policy Gradient）
- (D) 階層式分群（Hierarchical Clustering）

**答案：(B)**
解析：Transformer 完全基於 Attention,並行化處理序列,透過自注意力捕捉任意位置間的長距離依賴。(A) 是 CNN；(C) 是強化學習；(D) 是非監督式學習。（chunks line 715–719）

---

### Q22
自注意力（Self-Attention）機制中，將輸入元素映射到三個向量空間，**分別代表**何種意義？
- (A) Loss / Gradient / Weight
- (B) **Query（Q，我在找什麼）／Key（K，我能提供什麼）／Value（V，被關注時提供什麼資訊）**
- (C) Input / Hidden / Output
- (D) Encoder / Decoder / Discriminator

**答案：(B)**
解析：Self-Attention 透過 Q/K/V 三個線性變換建立元素間關聯,允許模型直接建立序列中任意兩個元素之間的關係,解決長期依賴問題。（chunks line 815–821）

---

### Q23
Transformer 架構中，為了讓模型能感知序列中**詞語的順序**，採用何種機制？
- (A) 卷積核滑動
- (B) 循環連接（Recurrent Connections）
- (C) **位置編碼（Positional Encoding）**，透過將具特定模式（通常是正弦和餘弦函數）的位置向量加到原始詞嵌入上
- (D) Dropout 隨機屏蔽

**答案：(C)**
解析：Transformer 摒棄循環結構,本身無法感知順序,所以需要 Positional Encoding（通常用 sin / cos 函數）注入位置資訊。常考點。（chunks line 838–843）

---

### Q24
下列關於 Transformer 衍伸模型的對應，何者**錯誤**？
- (A) BERT → 採用雙向上下文預訓練(Masked LM + Next Sentence Prediction)，是 Transformer **編碼器**部分的代表性應用
- (B) GPT 系列 → 主要基於 Transformer 的**解碼器**部分，採用單向(自迴歸)預訓練
- (C) T5 → 使用完整的編碼器-解碼器架構，將所有 NLP 任務統一視為「文字到文字」問題
- (D) Vision Transformer (ViT) → 用於語音辨識任務，無法處理圖像

**答案：(D)**
解析：ViT 是把 Transformer 引入**電腦視覺**領域,將圖像切成 Patches 視為序列「詞語」輸入 Transformer。(D) 將其用途搞錯。（chunks line 925–948）

---

## 第四部分｜生成式模型與深度學習框架（Q25–Q30）

### Q25
**自編碼器（Autoencoder）**的訓練目標為何？
- (A) 最大化判別器將生成資料辨識為假資料的能力
- (B) 最小化**重構誤差（Reconstruction Error）** — 即原始輸入與解碼器輸出之間的差異
- (C) 最大化標籤分類的準確率
- (D) 最小化交叉熵損失（僅用於分類）

**答案：(B)**
解析：Autoencoder 透過 Encoder→瓶頸層→Decoder 結構,訓練目標是讓重構輸出接近原始輸入,常用 MSE（連續資料）或二元交叉熵（二元資料）。(A) 是 GAN 的生成器目標。（chunks line 975–980）

---

### Q26
下列關於 **GAN（Generative Adversarial Network）核心結構**的敘述，何者**正確**？
- (A) 由編碼器與解碼器兩個對應網路組成
- (B) 由**生成器（Generator）與判別器（Discriminator）** 兩個相互競爭的神經網路組成,進行「零和博弈（Zero-Sum Game）」訓練,直到達到平衡
- (C) 由多個卷積層堆疊而成
- (D) 僅由一個 RNN 構成

**答案：(B)**
解析：GAN 二元結構 = Generator（生成器把雜訊轉成像真實資料的樣本）+ Discriminator（判別器分真假）;兩者對抗訓練至 Nash Equilibrium。(A) 是 Autoencoder。（chunks line 1036–1037、1078–1079）

---

### Q27
GAN 訓練時，**生成器（Generator）的目標**為何？
- (A) 準確區分輸入是真實或生成資料
- (B) 將隨機噪聲（Latent Vector）轉換成像真實資料的樣本,並「**欺騙**」判別器讓其誤判為真
- (C) 從輸入資料中找出最佳卷積核
- (D) 對輸入序列計算 Query/Key/Value 注意力權重

**答案：(B)**
解析：Generator 從隨機雜訊出發產生樣本,目標是讓 Discriminator 對其輸出給出高分（接近 1）即把假當真。(A) 是 Discriminator 的目標;(C)(D) 屬其他架構。（chunks line 1041–1051、1072–1075）

---

### Q28
下列關於 GAN **缺點與限制**的敘述，何者**錯誤**？
- (A) 訓練不穩定,容易出現「模式崩潰（Mode Collapse）」 — 生成器只生成少數幾種類型的樣本
- (B) 對學習率、網路架構等超參數非常敏感
- (C) 缺乏客觀、公認的量化指標來評估生成樣本品質
- (D) **完全不需要**任何訓練資料,可從零生成新樣本

**答案：(D)**
解析：GAN 仍需大量真實資料作為判別器的「真實樣本」參考；(A)(B)(C) 才是 GAN 的真實限制。常見干擾項。（chunks line 1097–1107）

---

### Q29
下列關於 **TensorFlow 與 Keras 關係**的敘述，何者**正確**？
- (A) Keras 是 Google 自行開發的低階運算庫,與 TensorFlow 競爭
- (B) Keras 是一個**高階神經網路 API**,自 TensorFlow 2.0 起被完全整合為 TensorFlow 官方高階 API（tf.keras），設計強調極簡與模組化
- (C) Keras 與 TensorFlow 完全無關
- (D) Keras 不支援快速原型開發

**答案：(B)**
解析：Keras = 高階 API,自 TF 2.0 起以 tf.keras 形式整合,核心特性是極簡主義、模組化、易於原型開發。常見干擾項把兩者關係搞反。（chunks line 1153–1167）

---

### Q30
下列關於 **PyTorch** 的特性敘述,何者**錯誤**？
- (A) 由 Facebook AI Research（FAIR）開發
- (B) 採用**動態計算圖（Dynamic Computation Graph）**,運算在定義時立即執行,簡化調試與開發
- (C) 內建自動微分（Autograd）引擎,自動計算梯度
- (D) 完全採用**靜態計算圖**,需要先定義整個圖再執行,與早期 TensorFlow 1.x 相同

**答案：(D)**
解析：PyTorch **以動態計算圖（Define-by-Run）為核心特色**,與早期 TensorFlow 1.x 的靜態圖相反；正是動態圖讓 PyTorch 的行為更像標準 Python 代碼,廣受學術界喜愛。常見干擾項把動態/靜態對調。（chunks line 1175–1189）

---

## 答案速查表

| Q | 答 | Q | 答 | Q | 答 |
|---|---|---|---|---|---|
| 1 | B | 11 | A | 21 | B |
| 2 | B | 12 | D | 22 | B |
| 3 | C | 13 | D | 23 | C |
| 4 | B | 14 | D | 24 | D |
| 5 | A | 15 | B | 25 | B |
| 6 | B | 16 | D | 26 | B |
| 7 | A | 17 | B | 27 | B |
| 8 | C | 18 | B | 28 | D |
| 9 | B | 19 | B | 29 | B |
| 10 | B | 20 | B | 30 | D |

## 命題分布統計

| 章節 | 題號 | 題數 | 重點 |
|---|---|---:|---|
| 前言／基本概念 | Q1–Q3 | 3 | 深度學習特性／人工神經元加權求和+偏置／感知器限制 |
| 激活函數／前向反向傳播／損失與正則化 | Q4–Q11 | 8 | 激活函數非線性、Sigmoid vs ReLU、Forward vs BP、Chain Rule、損失函數任務搭配、過擬合特徵、L1 vs L2、Dropout |
| 深度學習模型架構 | Q12–Q24 | 13 | MLP 結構/輸出層搭配、CNN 卷積/池化/衍伸模型、RNN 循環/長期依賴、LSTM 三門、GRU 雙門、Transformer Attention / QKV / Positional Encoding / BERT/GPT/T5/ViT |
| 生成式模型與深度學習框架 | Q25–Q30 | 6 | Autoencoder 重構誤差、GAN 生成器/判別器、GAN 限制、TensorFlow+Keras、PyTorch 動態圖 |
| **合計** | — | **30** | — |

## 易混淆考點清單（找混淆提示詞輸出）

| # | 易混淆對 | 差異 |
|---|---|---|
| 1 | Sigmoid vs ReLU vs Tanh | Sigmoid [0,1]、ReLU 正→直傳負→0、Tanh [-1,1]（Q5） |
| 2 | Forward Propagation vs Backpropagation | Forward = 做預測；BP = 算梯度+調參，常考兩者角色互換（Q6） |
| 3 | L1（Lasso）vs L2（Ridge）正則化 | L1 絕對值壓零做特徵選擇；L2 平方和限制大小求平滑（Q10） |
| 4 | Dropout vs L2 vs Early Stopping | Dropout 隨機屏蔽神經元；L2 加平方和懲罰；Early Stopping 監控驗證集（Q11） |
| 5 | MLP 全連接 vs CNN 局部連接權重共享 | MLP Dense；CNN 卷積層用 weight sharing + 局部連接（Q12/Q14） |
| 6 | Max Pooling vs Average Pooling | Max = 取最大值；Avg = 取平均值（Q15） |
| 7 | ResNet 殘差連接 vs GoogLeNet Inception 模塊 | ResNet = skip connection 解梯度消失；Inception = 並行多卷積核（Q16） |
| 8 | LSTM 三門 vs GRU 雙門 | LSTM = Input/Forget/Output Gate + Cell State；GRU = Update + Reset Gate（Q19/Q20） |
| 9 | Transformer Q/K/V 角色 | Q「我找什麼」、K「我能提供什麼」、V「被關注時提供什麼資訊」(Q22) |
| 10 | Autoencoder vs GAN | AE 重構誤差最小化、Encoder-Decoder；GAN 對抗訓練、Generator-Discriminator（Q25/Q26） |

---

— 命題：Heiter（2026-05-12）
— 對應投影片版本：L23203v2 章節完整版（涵蓋基本概念、激活函數、前向/反向傳播、過擬合與正則化、MLP、CNN、RNN、Transformer、生成式模型、主流框架）