# L23202 prompts.md ↔ chunks/L23202.txt 行號對照（output3 v2 — 拆頁版）

本文件記錄 `output3/L23202_常見機器學習演算法v2/prompts.md` 中每一頁 prompt 對應到 `chunks/L23202.txt` 的行號範圍。

**output3 v2 設計原則**：相對於 v1 的「章節嚴格沿用 chunks 原文 `#` heading、每頁 1 對 1 對應一個 `#` heading」，v2 採**方案 A 輕拆**——只拆掉 v1 中 4 張單頁擠 3 個獨立子方法的高警戒頁（P07 / P14 / P16 / P17），其餘 15 頁維持單方法單頁不動。主標題仍沿用 chunks heading（不另創偽編號），副標標方法名以維持與教材對應。

> 19 頁（v1）→ **27 頁（v2 方案 A）**，淨增 12 張子頁。

## 對照表

| Prompt | 主標題 | L23202.txt 行號 | 對應教材小節 / 拆頁說明 |
|---|---|---:|---|
| P01 | 1. 前言與章節導覽 | 5–9 | `# 4.2 常見機器學習演算法` 頂層 + `# 1.前言與章節導覽` |
| P02 | 2. 監督式學習-迴歸任務 | 11–13 | `# 2.監督式學習-迴歸任務` 章節導讀 |
| P03 | 2.（1）線性迴歸 | 15–108 | `# （1）線性迴歸`（定義/公式/評估指標 5 項/假設 5 條/適用情境/使用限制） |
| P04 | 2.（2）Lasso 迴歸與嶺迴歸 | 110–206 | `# （2）Lasso 迴歸與嶺迴歸`（L1 vs L2 雙欄對照、公式、共通假設/評估指標、適用、限制） |
| P05 | 2.（3）支援向量迴歸（SVR） | 208–287 | `# （3）支援向量迴歸（SVR）`（ε-tube、最小化目標、線性/核函數迴歸、評估指標、假設、適用、限制） |
| P06 | 2.（4）決策樹迴歸 | 289–353 | `# （4）決策樹迴歸`（流程 a-b-c、葉節點平均值預測、評估指標、非參數假設、適用、限制） |
| **P07a** | 2.（5）集成式迴歸 — Random Forest Regressor | **355–381** | **拆 v1 的 P07** 第一段子方法：Bagging 家族、Bootstrap Sample、特徵重要性、可平行 |
| **P07b** | 2.（5）集成式迴歸 — Gradient Boosting Regressor | **382–401** | **拆 v1 的 P07** 第二段子方法：Boosting 序列、Weak Learners、Early Stopping、殘差修正 |
| **P07c** | 2.（5）集成式迴歸 — XGBoost + LightGBM | **402–487** | **拆 v1 的 P07** 第三段子方法：Hessian / Level-wise / Leaf-wise / Histogram-based |
| P08 | 3. 監督式學習-分類任務 | 489–500 | `# 3.監督式學習-分類任務` 章節導讀 |
| P09 | 3.（1）邏輯迴歸 | 502–586 | `# （1）邏輯迴歸`（Sigmoid 公式、Log-Odds 線性可分、評估指標 5 項、假設 3 條、OvR/Multinomial 多類別擴展） |
| P10 | 3.（2）支援向量機（SVM） | 588–676 | `# （2）支援向量機（SVM）`（最大間隔超平面、4 種核函數、評估指標、假設、適用、C 與 γ 限制） |
| P11 | 3.（3）決策樹分類器 | 678–744 | `# （3）決策樹分類器`（流程 a-b-c、3 種分裂評估指標 Gini/Information Gain/Classification Error、假設、適用、限制） |
| P12 | 3.（4）K 最近鄰分類 | 746–831 | `# （4）K 最近鄰分類`（KNN 流程、距離度量、近朱者赤、特徵縮放、維度詛咒、適用、限制） |
| P13 | 3.（5）樸素貝式分類 | 833–918 | `# （5）樸素貝式分類`（貝式定理、後驗/似然/先驗/證據、條件獨立性、文本分類、拉普拉斯平滑） |
| **P14a** | 3.（6）集成式分類 — Bagging vs Boosting + RF Classifier | **920–1004** | **拆 v1 的 P14** 第一段：上半 Bagging vs Boosting 觀念對照（雙欄）+ 投票/Softmax/OvR/OvO；下半 Random Forest Classifier |
| **P14b** | 3.（6）集成式分類 — Gradient Boosting Classifier | **1005–1034** | **拆 v1 的 P14** 第二段：序列建樹修錯、Logloss / Softmax、Early Stopping |
| **P14c** | 3.（6）集成式分類 — XGBoost / LightGBM | **1035–1072** | **拆 v1 的 P14** 第三段：Hessian / Level-wise / Leaf-wise / Histogram-based、Softmax 多類別 |
| P15 | 4. 非監督式學習 | 1074–1085 | `# 4.非監督式學習` 章節導讀 |
| **P16a** | 4.（1）分群分析 — k-means | **1087–1130** | **拆 v1 的 P16** 第一段：質心（Centroid）、初始化/分配/更新/重複、球形或凸形群集 |
| **P16b** | 4.（1）分群分析 — 階層式（Agglomerative / Divisive） | **1131–1161** | **拆 v1 的 P16** 第二段：樹狀圖（Dendrogram）、bottom-up vs top-down、合併/分裂無法撤銷 |
| **P16c** | 4.（1）分群分析 — DBSCAN | **1162–1195** | **拆 v1 的 P16** 第三段：Eps / MinPts、核心點/邊界點/噪聲點、密度可達 |
| **P17a** | 4.（2）降維技術 — PCA（線性） | **1197–1246** | **拆 v1 的 P17** 第一段：協方差矩陣 / 特徵值分解 / 主成分選擇 / 數據投影 |
| **P17b** | 4.（2）降維技術 — t-SNE（非線性） | **1247–1279** | **拆 v1 的 P17** 第二段：高斯 → t-分佈、KL 散度、Perplexity（困惑度） |
| **P17c** | 4.（2）降維技術 — UMAP（非線性） | **1280–1316** | **拆 v1 的 P17** 第三段：模糊拓撲結構、交叉熵、增量學習 |
| P18 | 4.（3）關聯規則學習 | 1318–1417 | `# （3）關聯規則學習`（Support/Confidence/Lift 三公式 + Apriori vs FP-Growth 雙方法） |
| P19 | 4.（4）異常偵測 | 1419–1497 | `# （4）異常偵測`（Isolation Forest 隔離法 + One-Class SVM 邊界學習 雙方法） |

合計 **27 頁**（v1: 19 → v2: 27，淨增 8 拆頁分頁 + 4 第一段 = 12 子頁；其中 P14a 涵蓋雙重內容（Bagging vs Boosting 觀念 + RF Classifier），故 P14 拆 3 子頁但承擔 4 個內容單元）。

## v2 拆頁原則

### 1. 切點選擇：方法家族而非機械均分

| 原頁 | 切點 | 切法依據 |
|---|---|---|
| P07 集成式迴歸 | Bagging / Boosting / 高效實作 | 教材本身按「方法家族」排序 — RF（Bagging 並行）→ GBR（Boosting 序列）→ XGBoost+LightGBM（GBDT 高效實作） |
| P14 集成式分類 | 觀念對照+RF / Boosting / 高效實作 | 同 P07 但分類視角；P14a 多帶上 Bagging vs Boosting 觀念對照（避免子頁太單薄） |
| P16 分群分析 | 質心 / 樹狀 / 密度 | 三大分群方法論的根本區別 — k-means（質心 centroid）/ Hierarchical（樹狀 dendrogram）/ DBSCAN（密度 density） |
| P17 降維技術 | 線性 / 非線性 KL / 非線性流形 | 教材本身的線性 vs 非線性切點 — PCA（線性協方差）/ t-SNE（非線性 KL）/ UMAP（非線性流形交叉熵） |

### 2. 主標題與副標規範

- **主標題保留 chunks 原文**：P07a/b/c 三頁主標都寫「2.（5）集成式迴歸」，副標標方法名（如「Random Forest Regressor」）；P14/P16/P17 同理。**不另創偽編號**（不寫「2.（5.1）」這種）。
- **左上 L_CODE 不變**：仍標「L23202」。
- **副標放方法名 + 一句話特徵**：例「梯度提升迴歸（Gradient Boosting Regressor）— 序列修錯」。

### 3. 過頁鉤子

每子頁尾需標明前一頁/下一頁，避免跨頁失去上下文。具體格式：

| 子頁 | 頁尾鉤子 |
|---|---|
| P07a | → 下一頁 P07b：梯度提升迴歸；→ P07c：XGBoost / LightGBM |
| P07b | ← 上一頁 P07a：Random Forest Regressor；→ 下一頁 P07c：XGBoost / LightGBM |
| P07c | ← 上一頁 P07b：梯度提升迴歸；本節 2.（5）集成式迴歸結束，下節 P08 進入監督式學習-分類任務 |
| P14a | → 下一頁 P14b：梯度提升分類器；→ P14c：XGBoost / LightGBM |
| P14b | ← 上一頁 P14a：Bagging vs Boosting + RF Classifier；→ 下一頁 P14c：XGBoost / LightGBM |
| P14c | ← 上一頁 P14b：梯度提升分類器；本節 3.（6）集成式分類結束，下節 P15 進入非監督式學習 |
| P16a | → 下一頁 P16b：階層式分群；→ P16c：DBSCAN |
| P16b | ← 上一頁 P16a：k-means；→ 下一頁 P16c：DBSCAN |
| P16c | ← 上一頁 P16b：階層式分群；本節 4.（1）分群分析結束，下節 P17 進入降維技術 |
| P17a | → 下一頁 P17b：t-SNE；→ P17c：UMAP |
| P17b | ← 上一頁 P17a：PCA 線性降維；→ 下一頁 P17c：UMAP |
| P17c | ← 上一頁 P17b：t-SNE；本節 4.（2）降維技術結束，下節 P18 進入關聯規則學習 |

### 4. TERMS_RULE 拆分

v1 的 P07/P14/P16/P17 各自有一大組 TERMS_RULE，拆 3 頁後依方法分派：

| 子頁 | 鎖死的關鍵術語組 |
|---|---|
| P07a Random Forest Regressor | Bagging（Bootstrap Aggregating）/ Random Forest Regressor / Bootstrap Sample（自助抽樣）/ 特徵重要性 |
| P07b Gradient Boosting Regressor | Gradient Boosting Regressor / Weak Learners / Early Stopping / 殘差（Residual） |
| P07c XGBoost + LightGBM Regressor | XGBoost (eXtreme Gradient Boosting) / LightGBM (Light Gradient Boosting Machine) / Hessian / Level-wise / Leaf-wise / Histogram-based |
| P14a Bagging vs Boosting + RF Classifier | Bagging（Bootstrap Aggregating）/ 隨機森林分類器（Random Forest Classifier）/ 投票機制（Voting）/ One-vs-Rest（OvR）/ One-vs-One（OvO）/ Softmax |
| P14b Gradient Boosting Classifier | 梯度提升分類器（Gradient Boosting Classifier）/ Logloss / Softmax / Early Stopping |
| P14c XGBoost + LightGBM Classifier | XGBoost / LightGBM / Hessian / Level-wise / Leaf-wise / Histogram-based / Softmax / Logloss / Early Stopping |
| P16a k-means | k-means / 質心（Centroid）/ 球形或凸形群集 |
| P16b 階層式分群 | 階層式分群（Hierarchical Clustering）/ 凝聚式（Agglomerative）/ 分裂式（Divisive）/ 樹狀圖（Dendrogram）|
| P16c DBSCAN | DBSCAN / Eps（epsilon）/ MinPts / 核心點 / 邊界點 / 噪聲點 / 密度可達 |
| P17a PCA | 主成分分析（Principal Component Analysis, PCA）/ 協方差矩陣 / 特徵值分解 / 主成分；不可寫「主成份分析」，要寫「主成分分析」 |
| P17b t-SNE | t-SNE / Kullback-Leibler（KL）散度 / Perplexity / 困惑度 / 擁擠問題 |
| P17c UMAP | UMAP / 模糊拓撲結構 / 交叉熵 / 增量學習 |

未拆頁（P03/P04/P05/P06/P09/P10/P11/P12/P13/P18/P19）的 TERMS_RULE 維持 v1 原樣，不變動。

## 注意事項

### 1. 行號計算（本地 vs PDF 全域）

- 表內行號是 `chunks/L23202.txt` 內的**本地行號**（從 1 開始算）。
- chunks 檔頭標示「行數範圍：1299–2801」（PDF 全域）。對齊 PDF 全域行號公式：**PDF 全域行號 = 1299 + 本地行號 − 4**。
- 範例：P07a（Random Forest Regressor）本地行號 355–381 → PDF 全域行號約 1650–1676。

### 2. 行號範圍涵蓋率

- 5–1497 行幾乎完整覆蓋（除前 4 行檔頭 metadata + 1499 行後的 `<details>iPAS</details>` 收尾標籤）。
- v2 拆頁不影響覆蓋率，僅將 v1 的 P07/P14/P16/P17 內部行號範圍切成 3 子段：
  - P07: 355–487 → P07a (355–381) + P07b (382–401) + P07c (402–487)
  - P14: 920–1072 → P14a (920–1004) + P14b (1005–1034) + P14c (1035–1072)
  - P16: 1087–1195 → P16a (1087–1130) + P16b (1131–1161) + P16c (1162–1195)
  - P17: 1197–1316 → P17a (1197–1246) + P17b (1247–1279) + P17c (1280–1316)
- 切點皆對齊 chunks 內部子標題（如「② 隨機森林迴歸」「② 階層式分群」），不從段落中切。

### 3. v2 拆頁後密度狀況

| 子頁 | 行數 | 警戒等級 | 備註 |
|---|---:|---|---|
| P07a Random Forest Regressor | 27 | 中低 | 1 方法獨享一頁 |
| P07b Gradient Boosting Regressor | 20 | 低 | 1 方法獨享一頁 |
| P07c XGBoost + LightGBM | 86 | 中高 | 雙方法對照（XGB vs LGB） |
| P14a Bagging vs Boosting + RF | 85 | 中高 | 觀念對照 + RF Classifier 雙重內容 |
| P14b Gradient Boosting Classifier | 30 | 中低 | 1 方法獨享一頁 |
| P14c XGBoost + LightGBM | 38 | 中低 | 雙方法對照（XGB vs LGB） |
| P16a k-means | 44 | 中 | 1 方法獨享一頁 |
| P16b 階層式 | 31 | 中低 | 雙模式對照（Agglomerative + Divisive） |
| P16c DBSCAN | 34 | 中低 | 1 方法獨享一頁 |
| P17a PCA | 50 | 中 | 1 方法獨享一頁 |
| P17b t-SNE | 33 | 中低 | 1 方法獨享一頁 |
| P17c UMAP | 37 | 中低 | 1 方法獨享一頁 |

12 張子頁中，僅 P07c / P14a 2 張仍屬中高警戒（含雙重內容），其餘 10 張皆已降到中低；相較 v1 的 4 張高警戒（133/153/109/120 行）+ 雙欄擠壓，v2 顯著降低閱讀密度。

### 4. 章節導讀頁（P02 / P08 / P15）內容偏輕

原文每段只有 5–10 句話，prompt 已加上「指向子小節入口」的設計讓版面有東西可呈現。三張導讀頁維持獨立成頁不合併，與 v1 一致。

### 5. 與 v1 / 其他章節的對照

- L23102 = 17 頁 / 5 大章節 / 16 子小節（密集頁 1 張：P11 後拆為 P11+P12）
- **L23202 v1 = 19 頁 / 5 大章節 / 17 子小節**（密集頁 14 張、4 高警戒頁未拆）
- **L23202 v2（本檔）= 27 頁**（v1 的 4 高警戒頁拆成 12 子頁，其餘 15 頁不動）
- 結構特徵：L23202 是演算法目錄章節（每節都是一個獨立演算法的 6 段結構），密度顯著高出其他章；v2 拆頁解掉 4 張單頁擠 3 子方法的根本問題。

## 用途

- 校對：每頁 prompt 是否漏掉教材原詞（特別是評估指標 5 項、模型假設 N 條），照行號回去抓教材原文補。
- 重生：4 高警戒頁的 12 張子頁全為新增頁，需從 0 重新生成；其餘 15 頁可沿用 v1 已生成的圖檔（檔名不變）。
- 跨章節參考：L23203+ 章節若也遇到「單頁擠 3 子方法」可比照本檔方案 A 切點原則拆頁。

— 編表：Heiter（2026-05-06）
— 拆頁基於 PLAN_v2.md 方案 A
