# L23202 prompts.md ↔ chunks/L23202.txt 行號對照（output3 版）

本文件記錄 `output3/L23202_常見機器學習演算法/prompts.md` 中每一頁 prompt 對應到 `chunks/L23202.txt` 的行號範圍。

**output3 版的設計原則：章節命名與切頁嚴格沿用 chunks 原文 `#` heading**，每頁 1 對 1 對應一個原始章節（含節導讀 + 各 `（X）` 子小節）。本章 chunks 共 1503 行，是科目三各章中最大的，覆蓋 5 大章節（§1 前言 + §2 監督式-迴歸 + §3 監督式-分類 + §4 非監督式）以及共 17 個子小節 — 但 §2.（5）集成式迴歸與 §3.（6）集成式分類雖內部含 3–4 個子方法，仍維持「一頁對一個 `#` heading」原則，prompt 內版面切多區塊處理；待使用者看圖後再決定是否拆頁。

## 對照表

| Prompt | 主標題 | L23202.txt 行號 | 對應教材小節 |
|---|---|---:|---|
| P01 | 1. 前言與章節導覽 | 5–9 | `# 4.2 常見機器學習演算法` 頂層 + `# 1.前言與章節導覽` |
| P02 | 2. 監督式學習-迴歸任務 | 11–13 | `# 2.監督式學習-迴歸任務` 章節導讀 |
| P03 | 2.（1）線性迴歸 | 15–108 | `# （1）線性迴歸`（定義/公式/評估指標 5 項/假設 5 條/適用情境/使用限制） |
| P04 | 2.（2）Lasso 迴歸與嶺迴歸 | 110–206 | `# （2）Lasso 迴歸與嶺迴歸`（L1 vs L2 雙欄對照、公式、共通假設/評估指標、適用、限制） |
| P05 | 2.（3）支援向量迴歸（SVR） | 208–287 | `# （3）支援向量迴歸（SVR）`（ε-tube、最小化目標、線性/核函數迴歸、評估指標、假設、適用、限制） |
| P06 | 2.（4）決策樹迴歸 | 289–353 | `# （4）決策樹迴歸`（流程 a-b-c、葉節點平均值預測、評估指標、非參數假設、適用、限制） |
| P07 | 2.（5）集成式迴歸 | 355–487 | `# （5）集成式迴歸`（含 3 子方法：隨機森林迴歸 + 梯度提升迴歸 + 高效梯度提升 XGBoost/LightGBM） |
| P08 | 3. 監督式學習-分類任務 | 489–500 | `# 3.監督式學習-分類任務` 章節導讀 |
| P09 | 3.（1）邏輯迴歸 | 502–586 | `# （1）邏輯迴歸`（Sigmoid 公式、Log-Odds 線性可分、評估指標 5 項、假設 3 條、OvR/Multinomial 多類別擴展） |
| P10 | 3.（2）支援向量機（SVM） | 588–676 | `# （2）支援向量機（SVM）`（最大間隔超平面、4 種核函數、評估指標、假設、適用、C 與 γ 限制） |
| P11 | 3.（3）決策樹分類器 | 678–744 | `# （3）決策樹分類器`（流程 a-b-c、3 種分裂評估指標 Gini/Information Gain/Classification Error、假設、適用、限制） |
| P12 | 3.（4）K 最近鄰分類 | 746–831 | `# （4）K 最近鄰分類`（KNN 流程、距離度量、近朱者赤、特徵縮放、維度詛咒、適用、限制） |
| P13 | 3.（5）樸素貝式分類 | 833–918 | `# （5）樸素貝式分類`（貝式定理、後驗/似然/先驗/證據、條件獨立性、文本分類、拉普拉斯平滑） |
| P14 | 3.（6）集成式分類 | 920–1072 | `# （6）集成式分類`（Bagging vs Boosting + 3 子方法：隨機森林分類器 + 梯度提升分類器 + XGBoost/LightGBM；OvR/OvO/Softmax 多類別） |
| P15 | 4. 非監督式學習 | 1074–1085 | `# 4.非監督式學習` 章節導讀 |
| P16 | 4.（1）分群分析 | 1087–1195 | `# （1）分群分析`（含 3 子方法：k-means + 階層式（Agglomerative/Divisive）+ DBSCAN） |
| P17 | 4.（2）降維技術 | 1197–1316 | `# （2）降維技術`（含 3 子方法：PCA 線性 + t-SNE 非線性 + UMAP 非線性） |
| P18 | 4.（3）關聯規則學習 | 1318–1417 | `# （3）關聯規則學習`（Support/Confidence/Lift 三公式 + Apriori vs FP-Growth 雙方法） |
| P19 | 4.（4）異常偵測 | 1419–1497 | `# （4）異常偵測`（Isolation Forest 隔離法 + One-Class SVM 邊界學習 雙方法） |

合計 **19 頁**。

## 注意事項

### 1. 行號計算（本地 vs PDF 全域）

- 表內行號是 `chunks/L23202.txt` 內的**本地行號**（從 1 開始算）。
- chunks 檔頭標示「行數範圍：1299–2801」（PDF 全域）。對齊 PDF 全域行號公式：**PDF 全域行號 = 1299 + 本地行號 − 4**（檔頭 4 行 metadata 不算）。
- 範例：P03（線性迴歸）本地行號 15–108 → PDF 全域行號約 1310–1403。

### 2. 行號範圍涵蓋率

- **5–1497 行幾乎完整覆蓋**（除前 4 行檔頭 metadata + 1499 行後的 `<details>iPAS</details>` 收尾標籤）。
- 各頁行號**連續無斷層**：
  - P01 (5–9) → P02 (11–13) → P03 (15–108) → P04 (110–206) → P05 (208–287) → P06 (289–353) → P07 (355–487) → P08 (489–500) → P09 (502–586) → P10 (588–676) → P11 (678–744) → P12 (746–831) → P13 (833–918) → P14 (920–1072) → P15 (1074–1085) → P16 (1087–1195) → P17 (1197–1316) → P18 (1318–1417) → P19 (1419–1497)。
  - 每兩頁之間只差 1–2 行的章節空行（如 line 10、14、109、207、288、354、488、501、587、677、745、832、919、1073、1086、1196、1317、1418），不是內容跳過。
- 教材每一行內容都至少屬於一個 prompt。

### 3. 密集頁警示（單頁 ≥ 50 行）

本章除前言頁與 4 個章節導讀頁外，**其餘 14 頁全屬密集頁**（單頁 ≥ 50 行）。第一輪交付一律以 prompt 內「版面切多區塊」處理，待使用者看圖後決定是否進一步拆頁。具體列表：

| Prompt | 行數 | 子方法數 | 拆頁警戒等級 | 備註 |
|---|---:|---:|---|---|
| P03 線性迴歸 | 94 | 1 | 中 | 6 段固定結構（定義/公式/指標/假設/適用/限制） |
| P04 Lasso/嶺迴歸 | 97 | 2 | 中高 | L1 vs L2 雙欄結構，可考慮拆 P04a/P04b |
| P05 SVR | 80 | 1 | 中 | 三公式 + 6 段結構 |
| P06 決策樹迴歸 | 65 | 1 | 中低 | 結構單純 |
| **P07 集成式迴歸** | **133** | **3** | **高** | **隨機森林 / 梯度提升 / XGBoost+LightGBM 三方法**，最可能拆成 P07a/P07b/P07c |
| P09 邏輯迴歸 | 85 | 1 | 中 | Sigmoid + 6 段結構 |
| P10 SVM | 89 | 1 | 中 | 最大間隔 + 4 種核函數 |
| P11 決策樹分類器 | 67 | 1 | 中低 | 結構單純 |
| P12 KNN | 86 | 1 | 中 | 流程 + 維度詛咒警示 |
| P13 樸素貝式 | 86 | 1 | 中 | 貝式定理大公式為主視覺 |
| **P14 集成式分類** | **153** | **3** | **高** | **Bagging vs Boosting + 隨機森林 / 梯度提升 / XGBoost+LightGBM 三方法**，最可能拆成 P14a（Bagging vs Boosting 觀念 + RF）/ P14b（GB）/ P14c（XGB+LGB） |
| **P16 分群分析** | **109** | **3** | **高** | **k-means / 階層式 / DBSCAN 三方法**，可能拆成 P16a/P16b/P16c |
| **P17 降維技術** | **120** | **3** | **高** | **PCA / t-SNE / UMAP 三方法**，可能拆成 P17a（PCA 線性）/ P17b（t-SNE + UMAP 非線性對照） |
| P18 關聯規則 | 100 | 2 | 中高 | Apriori vs FP-Growth 雙方法 |
| P19 異常偵測 | 79 | 2 | 中 | Isolation Forest vs One-Class SVM 雙方法 |

**特別警戒：P07 / P14 / P16 / P17 四頁**因含 3 個獨立子方法、行數普遍 100+，第一輪實測若版面過擠，建議優先拆頁。拆頁原則參考 L23102 P11 拆頁實戰：**用「方法家族」當切點而非機械均分**，主標題仍沿用 chunks heading，副標標示子主題。

### 4. TERMS_RULE 覆寫頁清單

本章術語密度極高，多數頁都需要 inline 覆寫。共 **14 頁**有 TERMS_RULE 覆寫：

| Prompt | 覆寫鎖死的關鍵術語組 |
|---|---|
| P03 線性迴歸 | 5 條模型假設中英對照詞整組保留（線性關係/誤差常態/變異數齊一/誤差獨立/無多重共線性） |
| P04 Lasso/嶺迴歸 | Lasso 全名「Least Absolute Shrinkage and Selection Operator」、特徵選擇（Feature Selection） |
| P05 SVR | 支援向量迴歸（SVR）/ 支援向量機（SVM）/ 核函數（Kernel Function）/ ε-tube |
| P07 集成式迴歸 | Random Forest Regressor / Gradient Boosting Regressor / XGBoost / LightGBM / Bootstrap Sample / Weak Learners / Early Stopping / Hessian / Level-wise / Leaf-wise / Histogram-based |
| P08 分類任務導讀 | 分類（Classification）/ 二元分類 / 多類別問題 |
| P09 邏輯迴歸 | 邏輯迴歸（Logistic Regression）/ 二元分類（Binary Classification）/ 對數勝率（Log-Odds）/ OvR / Multinomial Logistic Regression / 線性可分性（Linearity in Log-Odds） |
| P10 SVM | SVM / 核函數 4 種（Linear / Polynomial / RBF Gaussian / Sigmoid）/ 間隔（Margin） |
| P11 決策樹分類器 | 基尼不純度（Gini Impurity）/ 資訊增益（Information Gain）/ 熵（Entropy）/ 分類誤差（Classification Error）/ Root Node / Leaf Node / `max_depth` / `min_samples_split` |
| P12 KNN | K 最近鄰分類（K Nearest Neighbors, KNN）/ 歐幾里得距離 / 曼哈頓距離 / 維度詛咒 |
| P13 樸素貝式 | 貝式定理（Bayes' Theorem）/ Posterior / Likelihood / Prior / Evidence / Conditional Independence of Features / Laplace Smoothing |
| P14 集成式分類 | Bagging（Bootstrap Aggregating）/ Random Forest Classifier / Gradient Boosting Classifier / OvR / OvO / Hessian / Level-wise / Leaf-wise / Histogram-based / Logloss / Softmax |
| P15 非監督式導讀 | 「監督式 = 有老師指導」vs「非監督式 = 自主探索與發現」對比文案保留 |
| P16 分群分析 | k-means / 階層式（Hierarchical Clustering）/ Agglomerative / Divisive / Dendrogram / DBSCAN / Centroid / Eps / MinPts |
| P17 降維技術 | PCA / t-SNE / UMAP / KL 散度 / Perplexity（困惑度）；PCA 中文必須寫「主成分分析」不寫「主成份分析」 |
| P18 關聯規則 | Apriori / FP-Growth / FP 樹（Frequent Pattern Tree）/ Support / Confidence / Lift / Conditional Pattern Base / Conditional FP Tree |
| P19 異常偵測 | Isolation Forest（孤立森林）/ iTree / One-Class SVM / Anomaly Detection / Outlier Detection |

### 5. 章節導讀頁（P02 / P08 / P15）內容偏輕

原文每段只有 5–10 句話，prompt 已加上「指向子小節入口」的設計讓版面有東西可呈現。如果嫌三張導讀頁佔頁數，可考慮各自合進該章 `（1）` 那頁，但會破壞 output3 「章節導讀獨立成頁」的一致性原則。

### 6. 與其他章節（L23102）的對照

- L23102 = 17 頁 / 5 大章節 / 16 子小節（密集頁 1 張：P11 後拆為 P11+P12）
- **L23202 = 19 頁 / 5 大章節 / 17 子小節**（密集頁 14 張，第一輪未拆，預期拆頁壓力 P07/P14/P16/P17）
- 結構特徵：L23102 是線性代數理論章節（單一概念展開），L23202 是演算法目錄章節（每節都是一個獨立演算法的 6 段結構），密度顯著高出 L23102。

## 用途

- 校對：每頁 prompt 是否漏掉教材原詞（特別是評估指標 5 項、模型假設 N 條），照行號回去抓教材原文補。
- 擴/減頁決策：第一輪交付後，若使用者反映 P07/P14/P16/P17 哪頁版面過擠，依該頁子方法家族性決定切點（參考 L23102 P11 拆頁邏輯：用方法家族而非機械均分）。
- 拆頁範例（若 P07 集成式迴歸要拆）：
  - P07a = 隨機森林迴歸（Bagging 家族 / 並行）
  - P07b = 梯度提升迴歸（Boosting 序列家族 / 序列）
  - P07c = XGBoost + LightGBM（高效實作對照 / Level-wise vs Leaf-wise）
- 跨章節參考：之後 L23203+ 章節可套同樣的「章節嚴格沿用 chunks heading + 密集小節必要時拆子頁」原則編 prompts.md + prompts_to_chunks.md。

— 編表：Heiter（2026-05-05）
