# L23304 模型調整與優化 — 模擬試題 30 題

> 題型：四選一單選題（iPAS AI 規劃師中級 標準題型）
> 教材來源：`chunks/L23304.txt`（每題解析末標 chunks 行號）
> 命題原則：用易混淆概念設計干擾項（同類項換位、屬性錯配、定義 partial swap）

---

## 第一部分｜前言與章節導覽（Q1）

### Q1
下列何者**不屬於**本章「模型調整與優化」的四大核心面向？
- (A) 超參數調校（Hyperparameter Tuning）
- (B) 正則化技術（Regularization）
- (C) 資料增強與重取樣（Data Augmentation & Resampling）
- (D) 特徵工程（Feature Engineering）

**答案：(D)**
解析：本章四大核心面向 = 超參數調校 + 正則化技術 + 資料增強與重取樣 + 模型壓縮與加速；特徵工程屬於 L23301 範疇。（chunks line 11–27）

---

## 第二部分｜超參數調校 — 學習率與批次大小（Q2–Q6）

### Q2
下列關於超參數（Hyperparameters）的敘述，何者**正確**？
- (A) 由模型在訓練過程中自動學習得出，無需人為干預
- (B) 是需由開發者手動指定的參數，並不由資料自動學習得出
- (C) 與權重和偏差是同一概念
- (D) 只在模型部署時才需要設定

**答案：(B)**
解析：超參數 = 開發者手動指定、非由資料自動學習；對訓練穩定性、收斂速度與最終效能影響深遠。常與「參數」（weights/bias）混淆。（chunks line 31）

---

### Q3
下列關於「學習率（Learning Rate）」設定的敘述，何者**錯誤**？
- (A) 學習率過高會造成模型參數大幅變動、訓練不穩定，甚至梯度爆炸
- (B) 學習率過低會收斂緩慢，無法有效跳出局部極小值
- (C) 學習率越大模型越穩定，收斂效果越好
- (D) 固定學習率無法兼顧訓練初期快速下降與後期細部微調的需求

**答案：(C)**
解析:(C) 錯反 — 學習率過大易跳過最小點、產生震盪甚至發散，並非「越大越穩定」。實務應在初期用較大值、後期用調度器降低。常見干擾項。（chunks line 55–63、67–81）

---

### Q4
為兼顧訓練初期快速下降與訓練後期細部微調，實務上常採用何種策略？
- (A) 固定學習率，不做任何調整
- (B) 將學習率設為極大值
- (C) 學習率退火（Annealing）或調度器（Scheduler）
- (D) 將學習率設為 0

**答案：(C)**
解析：實務常搭配學習率退火或 Scheduler — 初期較大學習率快速降低誤差，後期降低學習率以收斂至更佳參數區域。（chunks line 63、75–81）

---

### Q5
下列關於「批次大小（Batch Size）」的敘述，何者**正確**？
- (A) 小批次提供較高隨機性、有助於跳脫局部極小值，但梯度波動較大
- (B) 大批次必然產生比小批次更佳的泛化能力
- (C) 批次大小與學習率彼此獨立，調整其中一個不會影響另一個
- (D) 批次過大不會受 GPU 記憶體上限影響

**答案：(A)**
解析：小批次梯度波動大但有助跳出局部極小；大批次穩定但可能降低泛化、易陷入局部最小。批次大小與學習率高度耦合。常見干擾把大/小批次特性對調。（chunks line 97–123）

---

### Q6
若 GPU 訓練時遇到「訓練不穩定且震盪劇烈，但每次迭代很快」的情況，最可能的原因為何？
- (A) 批次過大
- (B) 批次過小，梯度估計不穩
- (C) 學習率過低
- (D) 訓練資料完全無噪聲

**答案：(B)**
解析：批次過小 → 梯度估計不穩 → 訓練震盪劇烈、迭代次數增加；(A) 批次過大反而梯度估計穩定但泛化下降。（chunks line 109–115）

---

## 第三部分｜超參數調校 — 網路結構、激活函數、優化器（Q7–Q14）

### Q7
網路深度（Network Depth）與寬度（Network Width）的**正確定義**為何？
- (A) 深度 = 每層神經元數量；寬度 = 神經網路層數
- (B) 深度 = 神經網路層數（含輸入/隱藏/輸出層）；寬度 = 每層神經元（或通道/單元）數量
- (C) 深度與寬度都指神經元總數
- (D) 深度與寬度僅適用於傳統決策樹模型

**答案：(B)**
解析：深度 = 層數；寬度 = 每層神經元數量。常見混淆是把兩者定義對調。此參數僅適用深度學習模型（MLP/CNN/RNN/Transformer 等）。（chunks line 129–137）

---

### Q8
若神經網路「結構過深」但未搭配適當初始化、Batch Normalization 或殘差連接，最可能出現何種問題？
- (A) 模型必然欠擬合
- (B) 容易出現梯度消失，使模型難以收斂
- (C) 訓練時間必然縮短
- (D) 自動形成更佳的泛化能力

**答案：(B)**
解析：結構過深若無 BN/殘差連接 → 梯度消失（或梯度爆炸），難以收斂。結構過寬 → 過擬合；結構過淺 → 欠擬合。（chunks line 150–156）

---

### Q9
下列關於激活函數的**對應**，何者**正確**？
- (A) Softmax 適用於多類別單選任務的輸出層，輸出為機率分佈且總和為 1
- (B) ReLU 輸出範圍為 [0, 1]
- (C) Sigmoid 將輸入壓縮到 [-1, 1] 之間
- (D) Tanh 輸出範圍為 [0, 1]

**答案：(A)**
解析：Softmax 為多類別單選輸出層（總和 = 1）；ReLU = max(0, x) 沒有固定範圍上限；Sigmoid → [0, 1]；Tanh → [-1, 1]。常見把 Sigmoid 與 Tanh 範圍對調。（chunks line 181–202、208–224、230–248、254–270）

---

### Q10
下列關於 ReLU 激活函數的敘述，何者**錯誤**？
- (A) 公式為 ReLU(x) = max(0, x)，將負數設為 0
- (B) 計算簡單快速，有助於解決梯度消失問題
- (C) 適合用於深度神經網路隱藏層
- (D) 輸出範圍固定在 [0, 1] 之間

**答案：(D)**
解析：ReLU 對正值保持不變，**沒有固定上限**；輸出範圍 [0, 1] 是 Sigmoid。常見干擾項。（chunks line 208–224）

---

### Q11
若任務為「多類別單選」（如手寫數字 0–9 分類），輸出層**最常採用**何種激活函數？
- (A) ReLU
- (B) Tanh
- (C) Softmax
- (D) Sigmoid（用於每個獨立類別）

**答案：(C)**
解析：多類別「單選」輸出層 = Softmax（機率分佈、互斥）；二元分類用 Sigmoid；多類別「多標籤」（不互斥）才用每個獨立 Sigmoid。（chunks line 179、193–202）

---

### Q12
下列關於優化器（Optimizer）的敘述，何者**錯誤**？
- (A) SGD 計算簡單、記憶體需求低，但易受噪聲影響、收斂較慢
- (B) Momentum 在 SGD 基礎上加入梯度累積，產生「慣性」減少震盪
- (C) Adagrad 為每個參數分配不同學習率，特別適合稀疏特徵
- (D) Adam 不會記錄梯度歷史，與 SGD 同等記憶體需求

**答案：(D)**
解析：Adam 結合 Momentum + RMSprop，計算一階動量（平均梯度）與二階動量（梯度平方），需額外記憶體儲存梯度歷史 → 記憶體需求較高。（chunks line 353–358、362–396、398–425、427–479）

---

### Q13
下列關於 Adam 優化器的特點，何者**正確**？
- (A) 結合了 Momentum 與 RMSprop 的優點，並進行偏差修正
- (B) 只計算一階動量，不考慮二階動量
- (C) 不需要學習率設定
- (D) 不適用於深度學習，只適合淺層線性模型

**答案：(A)**
解析：Adam = Adaptive Moment Estimation = Momentum（一階動量）+ RMSprop（二階動量）+ 偏差修正；幾乎所有深度學習都可用，被稱為「萬用優化器」。（chunks line 427–479）

---

### Q14
針對「稀疏特徵」場景（如文字、NLP），下列何種優化器**特別適合**？
- (A) Momentum
- (B) SGD
- (C) Adagrad — 為每個參數分配不同學習率，自動適應特徵分佈不均
- (D) 全量批次梯度下降

**答案：(C)**
解析：Adagrad 為每個參數調整不同學習率，累積梯度平方和後自動減小常被更新參數的學習步伐，特別適合稀疏特徵；缺點是學習率持續衰減可能停滯。（chunks line 398–425）

---

## 第四部分｜正則化技術（Q15–Q20）

### Q15
下列關於 L1 正則化（Lasso）的敘述，何者**正確**？
- (A) 在損失函數中加入所有參數的平方和
- (B) 在損失函數中加入所有參數絕對值的總和，能將部分權重壓縮為 0，可自動執行特徵選擇
- (C) 不能應用於高維特徵資料
- (D) 不會影響模型權重大小

**答案：(B)**
解析：L1 = Σ|θᵢ|（絕對值加總），能將不重要的權重縮到 0，自動執行特徵選擇；(A) 是 L2。常見干擾把 L1/L2 特性互換。（chunks line 535–555）

---

### Q16
下列關於 L2 正則化（Ridge）的敘述，何者**錯誤**？
- (A) 在損失函數中加入所有參數的平方和
- (B) 能穩定權重大小、防止過擬合
- (C) 會將部分參數直接壓縮為零，達到自動特徵選擇
- (D) λ 越大，權重值被壓抑得越小

**答案：(C)**
解析：L2 「不會」將參數直接壓為零 — 這是 L1 (Lasso) 的特性。L2 只是讓權重「變小」但不變零。常見混淆。（chunks line 573–588）

---

### Q17
下列關於 Elastic Net 的敘述，何者**正確**？
- (A) 只使用 L1 正則化，不使用 L2
- (B) 結合 L1 與 L2 的特性，保留 L1 特徵選擇能力 + L2 防止過度稀疏，對多重共線性問題特別有效
- (C) 對多重共線性問題完全無效
- (D) 不需要調整任何正則化係數

**答案：(B)**
解析：Elastic Net 結合 L1 + L2 雙重正則化，公式為 λ₁Σ|θᵢ| + λ₂Σθᵢ²；對多重共線性（Highly Correlated Features）特別有效；需同時調兩個 λ。（chunks line 604–619）

---

### Q18
下列關於 Dropout 的敘述，何者**錯誤**？
- (A) 在訓練過程中隨機將部分神經元暫時關閉，減少神經元之間的依賴
- (B) 訓練階段隨機將部分神經元輸出設為 0
- (C) 測試階段仍持續隨機丟棄神經元，以維持訓練狀態
- (D) Dropout 機率設定過高可能導致模型無法有效學習

**答案：(C)**
解析:(C) 錯反 — Dropout 測試階段**不再丟棄神經元**，而是將權重按保留率縮放、保持輸出期望值一致。這是常見混淆考點。（chunks line 622–655）

---

### Q19
下列關於 Early Stopping 的敘述，何者**正確**？
- (A) 透過修改網路架構達成防止過擬合
- (B) 透過「patience」參數決定可容忍多少次驗證集效能不進步，若連續未改善則提前終止訓練
- (C) patience 設得越短，模型表現必然越好
- (D) 訓練過程不需要監控驗證集效能

**答案：(B)**
解析：Early Stopping 是「訓練策略」（無需改模型架構），用 patience 控制可容忍幾次不進步；patience 過短 → 欠擬合，patience 過長 → 仍可能過擬合。（chunks line 657–672）

---

### Q20
下列關於正則化係數 λ 的敘述，何者**錯誤**？
- (A) 當 λ 變大，模型權重被壓縮得更小，模型變簡單但可能欠擬合
- (B) 當 λ 變小，權重可以變大，模型更靈活但容易過擬合
- (C) λ 用於控制「在損失函數中，正則化項的影響力」
- (D) λ 必須為負數才能發揮正則化效果

**答案：(D)**
解析：λ 為非負數（通常為正數）；λ 越大限制越強。正則化公式 = 原始損失 + λ × 正則化項。（chunks line 481–521）

---

## 第五部分｜資料增強與重取樣（Q21–Q24）

### Q21
下列關於「資料增強（Data Augmentation）」的敘述，何者**錯誤**？
- (A) 利用各種隨機變換手段人工擴增訓練資料
- (B) 影像常用方法：旋轉、平移、翻轉、縮放、裁切、添加雜訊
- (C) 文字常用方法：同義字替換、隨機刪詞、句子順序調整
- (D) 不當的變換絕對不會改變原始數據的語意或標註

**答案：(D)**
解析:(D) 錯反 — 不當的變換**可能**改變原始數據語意或標註，導致模型學錯誤資訊（如把貓的圖片過度旋轉，標註可能失效）。（chunks line 680–714）

---

### Q22
下列何者**屬於**「過採樣（Oversampling）」的方法？
- (A) 隨機減少多數類別的樣本
- (B) 使用 SMOTE（Synthetic Minority Over-sampling Technique）合成新樣本，或複製少數類別現有樣本
- (C) 調整類別權重，但不增減樣本數
- (D) 將所有類別樣本數壓縮到 1

**答案：(B)**
解析：過採樣 = 增加少數類別樣本（複製或 SMOTE 合成）；(A) 是欠採樣；(C) 是類別權重調整。常見混淆把 over/under 對調。（chunks line 724–742）

---

### Q23
下列關於「欠採樣（Undersampling）」的敘述，何者**錯誤**？
- (A) 減少多數類別的樣本數以達類別平衡
- (B) 降低計算成本、簡單易行
- (C) 可能丟失有價值的資料，導致模型準確度下降
- (D) 在少數類別本就稀少時仍然非常適用

**答案：(D)**
解析:(D) 錯 — 少數類別本就稀少時，欠採樣會進一步丟失資訊，**不適用**。常見干擾把欠採樣的限制反過來說。（chunks line 750–766）

---

### Q24
下列關於「類別權重調整（Class Weighting）」相較於 Over/Under-Sampling 的**優點**，何者**正確**？
- (A) 必須改變樣本數量，無法保留原始資料完整性
- (B) 不需更動樣本數、保留原始資料完整性，適用於資料量有限或無法輕易生成新樣本的情況
- (C) 計算資源消耗極高
- (D) 完全不需要調整任何參數

**答案：(B)**
解析：類別權重調整 = 不改樣本數、改損失函數中各類權重；保留原始資料完整性、計算資源消耗低；過大可能造成過度補償。（chunks line 768–786）

---

## 第六部分｜模型壓縮與加速（Q25–Q30）

### Q25
下列關於「知識蒸餾（Knowledge Distillation）」的核心思想，何者**正確**？
- (A) 將大型、高準確度的「教師模型（Teacher）」知識傳遞給較小、較輕量的「學生模型（Student）」
- (B) 將小模型的知識傳給大模型，使其變得更強大
- (C) 直接刪除神經網路中影響較小的權重
- (D) 將模型參數從高精度轉換為低精度

**答案：(A)**
解析：知識蒸餾 = Teacher → Student 知識傳遞；目標是學生模型體積更小、推論更快，但準確度接近原大模型。(C) 是模型剪枝；(D) 是量化。常見混淆。（chunks line 794–813）

---

### Q26
下列關於「模型剪枝（Pruning）」的兩種類型，何者**正確**？
- (A) 結構化剪枝移除整個神經元/卷積通道/層級，較容易與硬體加速器整合
- (B) 結構化剪枝移除零散的單一權重參數，較不利硬體支援
- (C) 非結構化剪枝必然優於結構化剪枝
- (D) 模型剪枝不會影響模型大小或運算效率

**答案：(A)**
解析：結構化剪枝 = 移除整個神經元/通道/層級（硬體加速器友善）；非結構化剪枝 = 移除零散權重（模型稀疏化，但硬體支援差）。常見混淆把兩者特性對調。（chunks line 819–841）

---

### Q27
下列關於「量化（Quantization）」的敘述，何者**錯誤**？
- (A) 將模型中高精度參數（如 32-bit 浮點數）轉換為較低精度格式（如 8-bit 整數）
- (B) 大幅降低模型儲存空間與記憶體需求
- (C) 直接量化必然完全無精度損失，無需任何補救
- (D) 常需搭配量化感知訓練（Quantization Aware Training, QAT）讓模型學習適應量化誤差

**答案：(C)**
解析:(C) 錯 — 直接量化「可能導致模型準確度下降」，因此常需搭配 QAT。常見干擾把量化說成完全無損。（chunks line 845–859）

---

### Q28
下列關於「混合精度訓練（Mixed Precision Training）」的敘述，何者**正確**？
- (A) 訓練過程同時使用不同數值精度（如 FP16 與 FP32），兼顧運算速度與模型精度
- (B) 全部採用 FP16，不使用 FP32
- (C) 不需要任何硬體支援
- (D) 對所有演算法都能無痛適用

**答案：(A)**
解析：混合精度 = 同時用 FP16 + FP32；加速訓練、減少記憶體佔用；需要硬體支援（如 NVIDIA Tensor Cores）；低精度可能引發數值不穩，需處理 Gradient Scaling。（chunks line 862–877）

---

### Q29
若 AI 模型欲部署至「行動裝置或邊緣運算節點」，並需在儲存空間有限、運算速度有限的條件下保持效能，下列何者**不是**主流的壓縮/加速技術？
- (A) 知識蒸餾（Knowledge Distillation）
- (B) 模型剪枝（Pruning）
- (C) 量化（Quantization）
- (D) 增加網路深度與寬度

**答案：(D)**
解析:(D) 反向操作 — 增加深度寬度反而會放大模型，不符合邊緣部署需求。主流壓縮技術 = 知識蒸餾 + 剪枝 + 量化 + 混合精度。（chunks line 788–877）

---

### Q30
下列關於「結構化剪枝 vs 非結構化剪枝」的對比，何者**錯誤**？
- (A) 結構化剪枝移除整個神經元、卷積通道或層級
- (B) 非結構化剪枝移除零散的單一權重參數，使模型稀疏化
- (C) 結構化剪枝較容易與硬體加速器整合
- (D) 非結構化剪枝因稀疏矩陣結構，所有硬體平台都能完美支援、效益必然最大

**答案：(D)**
解析:(D) 錯 — 非結構化剪枝雖能稀疏化但「部分硬體對稀疏矩陣支援有限」，實際效益有限。常見干擾項。（chunks line 823–841）

---

## 答案速查表

| Q | 答 | Q | 答 | Q | 答 |
|---|---|---|---|---|---|
| 1 | D | 11 | C | 21 | D |
| 2 | B | 12 | D | 22 | B |
| 3 | C | 13 | A | 23 | D |
| 4 | C | 14 | C | 24 | B |
| 5 | A | 15 | B | 25 | A |
| 6 | B | 16 | C | 26 | A |
| 7 | B | 17 | B | 27 | C |
| 8 | B | 18 | C | 28 | A |
| 9 | A | 19 | B | 29 | D |
| 10 | D | 20 | D | 30 | D |

## 命題分布統計

| 章節 | 題號 | 題數 | 重點 |
|---|---|---:|---|
| 前言／章節導覽 | Q1 | 1 | 章節四大核心面向 |
| 超參數-學習率/批次大小 | Q2–Q6 | 5 | Hyperparameters/LR/Annealing/Batch Size |
| 超參數-結構/激活/優化器 | Q7–Q14 | 8 | Depth&Width/Softmax/ReLU/Sigmoid/Tanh/SGD/Momentum/Adagrad/Adam |
| 正則化技術 | Q15–Q20 | 6 | L1 Lasso/L2 Ridge/Elastic Net/Dropout/Early Stopping/λ |
| 資料增強與重取樣 | Q21–Q24 | 4 | Augmentation/Oversampling/Undersampling/Class Weighting |
| 模型壓縮與加速 | Q25–Q30 | 6 | Knowledge Distillation/Pruning/Quantization/Mixed Precision |
| **合計** | — | **30** | — |

## 易混淆考點清單

| # | 易混淆對 | 差異 |
|---|---|---|
| 1 | L1（Lasso）vs L2（Ridge） | L1 用絕對值、能將權重壓 0 做特徵選擇；L2 用平方、只縮小但不壓 0（Q15/Q16） |
| 2 | Softmax vs Sigmoid | Softmax 多類別單選、總和=1、類別互斥；Sigmoid 二元/多標籤、每類獨立、不保證總和=1（Q9/Q11） |
| 3 | Sigmoid vs Tanh 範圍 | Sigmoid [0,1]；Tanh [-1,1]；ReLU [0, ∞)（Q9/Q10） |
| 4 | SGD/Momentum/Adagrad/Adam 特性 | SGD 簡單慢；Momentum 加慣性減震盪；Adagrad 稀疏特徵自適應；Adam = Momentum+RMSprop（Q12/Q13/Q14） |
| 5 | Dropout 訓練 vs 測試階段 | 訓練隨機關閉；測試「不丟棄」、權重按保留率縮放（Q18） |
| 6 | Oversampling vs Undersampling vs Class Weighting | Over=增少數（SMOTE）；Under=減多數；Class Weighting=不改樣本數改權重（Q22/Q23/Q24） |
| 7 | 結構化 vs 非結構化剪枝 | 結構化移除整個神經元/通道，硬體友善；非結構化移除零散權重，硬體支援差（Q26/Q30） |
| 8 | 知識蒸餾 vs 剪枝 vs 量化 | 蒸餾=Teacher→Student；剪枝=移除權重/神經元;量化=高精度→低精度（Q25/Q27） |
| 9 | 網路深度 vs 寬度 | 深度=層數；寬度=每層神經元數量（Q7） |
| 10 | 學習率大小的影響 | 過大→震盪/發散；過小→收斂慢/卡局部極小；越大≠越穩定（Q3） |

---

— 命題：Heiter（2026-05-12）
— 對應章節：5.4 模型調整與優化（chunks 5051–6040）
