L23203 深度學習原理與框架
2人工神經元、感知器與激活函數
深度學習最底層的數學模型與「守門員」非線性
2.1人工神經元四要素
| 要素 | 內容 |
|---|---|
| ① 輸入 (x₁, x₂, ..., xₙ) | 接收來自其他神經元或外部數據的資訊 |
| ② 權重 (w₁, w₂, ..., wₙ) | 每個輸入訊號都與一個對應的權重相關聯,權重代表該輸入訊號的重要性 |
| ③ 加權求和 Weighted Sum | 將所有輸入訊號與其對應的權重相乘並求和,加上偏置項(Bias, b);允許神經元在沒有輸入時也能被激活,或調整激活閾值 |
| ④ 激活函數 Activation Function | 加權求和結果 Z 輸入到非線性激活函數,產生最終輸出;決定神經元是否「激活」 |
Z = w₁x₁ + w₂x₂ + ... + wₙxₙ + b = Σᵢ wᵢxᵢ + b Output = A(Z)
2.2感知器(Perceptron)
| 面向 | 內容 |
|---|---|
| 提出人/年代 | Frank Rosenblatt,1957 年 |
| 定位 | 最簡單、最早的人工神經元模型;可視為人工神經元的特定類型 |
| 任務類型 | 二元分類器(將輸入劃分為兩類) |
| 激活函數 | 步階函數(Step Function) — Z ≥ 0 輸出 1,Z < 0 輸出 0(閾值為 0 時) |
| 學習方式 | 迭代調整權重與偏置;預測錯時依錯誤大小與方向微調 → 感知器學習規則 |
| 優勢 | 概念簡單,能解決線性可分(Linearly Separable)問題 |
| 致命限制 | 無法解決非線性可分問題,XOR(互斥或)是經典反例 → 單個感知器無法構成更複雜模型 |
2.3激活函數三大功能
| 功能 | 說明 | 代表函數 |
|---|---|---|
| ① 引入非線性 Introduce Non-linearity | 最根本、最重要的作用;若無激活函數或只用線性激活,多層網路 = 單層線性模型,僅能解線性可分問題 | —(所有非線性函數) |
| ② 決定激活狀態 | 依加權求和結果決定神經元最終輸出;模擬生物神經元在足夠刺激時才「發射」 | Sigmoid(0~1,激活強度/機率)/ReLU(正值通、負值 0,稀疏激活) |
| ③ 壓縮輸出範圍 Compress Output Range | 把輸出壓到特定範圍 → ① 穩定訓練(避免梯度爆炸/消失)② 解釋性(輸出層可解釋為機率) | Sigmoid([0, 1])/Tanh([-1, 1]) |
3前向傳播 + 反向傳播 = 訓練循環
前向做預測,反向調參數 — 深度學習的「學習」本質
3.1前向 vs 反向傳播對照
| 面向 | 前向傳播 Forward Propagation | 反向傳播 Backpropagation |
|---|---|---|
| 目標 | 做預測 | 調整參數(權重與偏置) |
| 方向 | 輸入層 → 輸出層 | 輸出層 → 輸入層 |
| 運算內容 | 加權求和 + 激活函數,層層計算 | 計算損失函數對每個權重的梯度,反向傳遞修正資訊 |
| 核心數學 | 線性代數(矩陣乘法)+ 非線性激活 | 連鎖律(Chain Rule,微積分) |
| 產出 | 預測結果(分類標籤 / 機率 / 連續值) | 每層權重和偏置的梯度 |
3.2反向傳播三步驟
| 步驟 | 做什麼 |
|---|---|
| a. 計算損失 | 用損失函數比較預測結果與真實標籤,得出量化誤差(損失值) |
| b. 計算梯度 | 透過連鎖律(Chain Rule)從輸出層反向傳遞到輸入層,計算損失對每個權重和偏置的導數(梯度) |
| c. 權重更新 | 優化器(如梯度下降法)依預設學習率,沿梯度相反方向(損失下降最快方向)微調權重和偏置 |
3.3訓練循環(迭代學習)
| 階段 | 內容 |
|---|---|
| ① 前向 | 輸入數據 → 加權求和 + 激活 → 輸出預測 |
| ② 計算損失 | 比較預測 vs 真實值 → 量化誤差 |
| ③ 反向 | 連鎖律 → 計算所有權重梯度 |
| ④ 更新 | 優化器 + 學習率 → 沿梯度相反方向調整參數 |
| ⑤ 重複 | 數千甚至數百萬次迭代,直到損失值收斂或達到預設訓練次數 |
4損失函數、優化器與正則化
量誤差 + 修參數 + 防過擬合 三件套
4.1損失函數選用對照
| 任務類型 | 損失函數 | 說明 |
|---|---|---|
| 迴歸 (預測連續值) | 均方誤差 MSE Mean Squared Error | 計算預測值與真實值之差的平方平均值 |
| 平均絕對誤差 MAE Mean Absolute Error | 計算預測值與真實值之差的絕對值平均值,對極端值(離群值)敏感度較低 | |
| 分類 (預測離散類別) | 二元交叉熵 Binary Cross-Entropy | 用於判斷是或否的二元分類 |
| 類別交叉熵 Categorical Cross-Entropy | 用於多種不同類別的多分類問題 |
4.2優化器與梯度下降
| 角色 | 功能 |
|---|---|
| 損失函數 | ① 評估誤差(量尺)② 指引優化(提供依據) |
| 優化器(Optimizer) | 調整模型參數(權重和偏置),使損失函數的值達到最小;代表方法為梯度下降法 |
| 更新方向 | 沿梯度相反方向 — 也就是損失函數下降最快的方向 |
4.3過擬合:發生原因與情況特徵
| 過擬合(Overfitting) | 說明 |
|---|---|
| 定義 | 模型在訓練資料上表現極好,但在未見過的新數據上表現顯著下降 |
| 原因 ① 模型過於複雜 | 參數數量過多、網路層次過深 → 模型「記憶」訓練數據中的噪聲與特有模式,而非學習普遍規律 |
| 原因 ② 訓練數據不足 | 數據量相對模型複雜度太少 → 無法從足夠多樣的例子中學到通用特徵 |
| 原因 ③ 訓練時間過長 | 即使模型和資料都適中,過長訓練也會使模型過度適應訓練數據 |
| 情況特徵 | 訓練集 → 損失低、準確率高;驗證/測試集 → 損失高、準確率顯著低於訓練集 |
4.4五項正則化技術
| 技術 | 做什麼 | 效果 |
|---|---|---|
| ① L1 正則化 L1 / Lasso Regularization | 損失函數加入「權重的絕對值總和」 | 促使部分權重縮小為零 → 達到特徵選擇效果 |
| ② L2 正則化 L2 / Ridge Regularization | 損失函數加入「權重平方和」 | 防止權重過大 → 模型更平滑、穩定 |
| ③ Elastic Net | 結合 L1 和 L2 正則化 | 兼具特徵選擇 + 權重平滑,平衡兩種效果 |
| ④ Dropout | 訓練過程中隨機屏蔽部分神經元 | 避免神經元彼此過度依賴,降低過擬合風險 |
| ⑤ 早停法 Early Stopping | 在驗證集損失不再下降時提前停止訓練 | 防止模型在訓練集上過度擬合 |
5MLP 多層感知器 + CNN 卷積神經網路
結構化資料 vs 影像/空間資料 兩大基礎架構
5.1MLP 核心特徵
| 面向 | 內容 |
|---|---|
| 定位 | 最基礎也是最經典的深度學習模型;前饋(Feedforward)神經網路的典型代表 |
| 連接方式 | 全連接(Fully Connected) — 每層神經元都與前一層的所有神經元相連 |
| 資訊流 | 單向從輸入層流向輸出層,沒有任何迴圈或反饋 |
| 核心結構 | 至少三層:輸入層 → 隱藏層(一個或多個,深度的來源) → 輸出層 |
5.2MLP 輸出層配置(依任務)
| 任務 | 神經元數量 | 激活函數 | 輸出 |
|---|---|---|---|
| 二元分類 | 1 個 | Sigmoid | 單一機率值 |
| 多類別分類 | = 類別數量 | Softmax | 每個類別的機率分佈(Σpᵢ = 1) |
| 迴歸 | 1 個或多個(依輸出維度) | 不使用(或線性激活) | 連續數值 |
5.3MLP 四大限制
| 限制 | 說明 |
|---|---|
| 對順序/空間不敏感 | 把輸入「攤平」成一維向量處理 → 丟失空間(像素位置)或序列(單詞順序)資訊 |
| 參數量多、計算成本高 | 全連接導致權重數急劇增加 → 訓練時間長且易過擬合 |
| 易受過擬合影響 | 參數眾多,訓練數據不足或模型過於複雜時很容易過擬合 |
| 缺乏可解釋性 | 模型決策過程如「黑箱」,難以直接理解每個權重學到什麼 |
5.4CNN 四大組件
| 組件 | 功能 | 關鍵 |
|---|---|---|
| ① 卷積層 Convolutional Layer | CNN 核心,自動學習並提取輸入數據的局部特徵;卷積核滑動運算 | 卷積核/濾波器(Kernel/Filter)產生特徵映射(Feature Map);權重共享(Weight Sharing)使 CNN 能辨識位置不變特徵 |
| ② 激活函數層 | 對特徵映射應用非線性函數 | 最常用 ReLU |
| ③ 池化層 Pooling Layer | 縮減特徵映射尺寸(降採樣),減少計算量,保留最重要特徵;增加平移不變性 | 最大池化(Max Pooling)取區域最大值/平均池化(Average Pooling)取平均 |
| ④ 全連接層 Dense Layer | 把高層次抽象特徵「扁平化」為一維向量,組合特徵進行最終分類/迴歸 | 分類任務後接 Softmax 輸出層 |
5.5CNN 衍伸模型演進
| 模型 | 關鍵突破 |
|---|---|
| AlexNet | 2012 ImageNet ILSVRC 冠軍,現代深度 CNN 的奠基者;引入ReLU 激活、Dropout 正則化、GPU 加速 |
| VGG Visual Geometry Group | 極深且結構簡單,使用多個 3×3 小型卷積核堆疊取代大型卷積核 → 加深網路深度並提升非線性能力 |
| GoogLeNet | 引入「Inception 模塊」,同一層並行執行不同大小的卷積核和池化操作後拼接 → 有效利用計算資源並捕捉多尺度特徵 |
| ResNet Residual Network | 引入「殘差連接(跳躍連接)」 → 解決深層網路訓練的梯度消失與模型退化問題,使構建數百層神經網路成為可能 |
| DenseNet | 每層與其所有前面層的特徵映射連接 → 實現特徵極大重用,緩解梯度消失,減少參數 |
| MobileNet / EfficientNet | 著重模型效率:MobileNet 用深度可分離卷積輕量化;EfficientNet 自動搜索最佳網路縮放比例 → 適合移動設備與資源受限環境 |
6RNN 遞迴神經網路與序列建模
處理可變長度序列 — NLP / 時序預測 / 語音的核心架構
6.1RNN 核心特性
| 面向 | 內容 |
|---|---|
| 定位 | 專門設計用於處理可變長度序列輸入數據(Sequential Data)的深度學習模型 |
| 關鍵差異 | 與 MLP/CNN 等前饋網路不同,RNN 具有內部「記憶」機制,能捕捉時間依賴性與上下文資訊 |
| 核心結構 | 神經元之間存在循環連接(Recurrent Connections),允許資訊在網路內部持續流動 |
| 運算公式 | 當前時間步輸出 = f(當前輸入 Xₜ + 上一時間步隱藏狀態 Hₜ₋₁);激活函數常用 Tanh 或 ReLU |
| 權重共享 | 處理不同時間步時共享同一套權重 → 能處理任意長度序列(參數不會隨序列長度增加) |
6.2BPTT 與長期依賴問題
| 概念 | 說明 |
|---|---|
| 展開視角 Unrolled View | 將循環結構在時間維度上「展開」為深層前饋網路,每個時間步對應一個「層」,共享相同權重 |
| BPTT Backpropagation Through Time | RNN 的反向傳播形式:在時間維度展開後,用連鎖律從最後一個時間步開始,沿時間軸反向傳播梯度,更新共享權重 |
| 梯度消失 Vanishing Gradient | 長序列反向傳播時,梯度指數級衰減 → 網路難以學遠距離依賴(「記憶」太短) |
| 梯度爆炸 Exploding Gradient | 相反地,梯度也可能指數級增長 → 訓練不穩定 |
| 訓練速度慢 | 循環結構本質為串行,難以平行化計算 |
6.3RNN 衍伸模型四大派系
| 模型 | 關鍵結構 | 解決什麼 |
|---|---|---|
| LSTM Long Short-Term Memory | 三門控機制:輸入門 Input Gate / 遺忘門 Forget Gate / 輸出門 Output Gate + 獨立的細胞狀態(Cell State) | 解決梯度消失,能捕捉並記憶長期依賴關係 |
| GRU Gated Recurrent Unit | LSTM 的簡化版,兩個門:更新門 Update Gate / 重置門 Reset Gate | 結構更緊湊、計算複雜度與參數較少,性能常與 LSTM 相當 |
| Bi-RNN Bidirectional RNN | 同時訓練正向 + 反向兩個 RNN,將隱藏狀態結合 | 預測時能同時考慮過去和未來上下文;對命名實體辨識等上下文敏感任務有用 |
| Deep RNN | 堆疊多層 RNN,每層的隱藏狀態作為下一層輸入 | 學習更複雜的時序特徵 |
6.4RNN 適用情境
| 領域 | 應用 |
|---|---|
| 自然語言處理 NLP | 機器翻譯、語音辨識、文本生成、情感分析、命名實體辨識(傳統上是 RNN 及其變種的主要應用領域) |
| 語音辨識 | 處理音頻序列和聲學模型 |
| 時間序列預測 | 股票價格、天氣預報、傳感器數據、醫療數據趨勢 |
| 影片處理 | 動作辨識、影片內容理解 |
7Transformer 架構與注意力機制
2017 Attention Is All You Need — 顛覆 RNN/LSTM 的序列建模新典範
7.1Transformer 定位與動機
| 面向 | 內容 |
|---|---|
| 提出方/年代 | Google,2017 年論文《Attention Is All You Need》 |
| 定位 | 完全基於注意力機制(Attention Mechanism)的深度學習模型;捨棄傳統 RNN 的循環結構和 CNN 的卷積結構 |
| 設計動機 ① | 解決 RNN/LSTM 在處理長序列時的長期依賴問題(梯度消失) |
| 設計動機 ② | 解決 RNN 串行結構的並行化困難 → 提供能並行處理且能處理長距離依賴的方法 |
7.2Encoder-Decoder 架構
| 堆疊 | 功能 | 核心組件 |
|---|---|---|
| 編碼器堆疊 Encoder Stack | 「理解者」/「特徵提取器」 — 將輸入序列每個元素轉換成富含上下文資訊的高維度「上下文表示」 | ① 多頭自注意力機制 ② 前饋網路 FFN |
| 解碼器堆疊 Decoder Stack | 接收編碼器的上下文表示 + 已生成的部分目標序列,自迴歸地生成連貫輸出序列 | ① 帶遮罩的多頭自注意力(不能偷看未來詞) ② 編碼器-解碼器注意力(關注編碼器輸出) ③ 前饋網路 FFN |
7.3注意力機制 QKV
| 向量 | 角色 | 意義 |
|---|---|---|
| Query(Q) | 查詢向量 | 「我在找什麼?」「我的興趣是什麼?」 |
| Key(K) | 鍵向量 | 「我能提供什麼?」「我的內容是什麼?」 |
| Value(V) | 值向量 | 「如果我被關注了,我會提供什麼資訊?」 |
7.4四大關鍵組件
| 組件 | 做什麼 | 為什麼 |
|---|---|---|
| ① 多頭注意力 Multi-Head Attention | 並行執行多次(多個「頭」)獨立的自注意力運算,每個頭有自己的 QKV 權重矩陣,學習不同的注意力模式;最後拼接 + 線性轉換 | 捕捉多樣關係,增強表示能力(多視角的上下文表示) |
| ② 位置編碼 Positional Encoding | 透過正弦/餘弦函數(sinusoidal / cosine)的位置向量加到原始詞嵌入上 | Transformer 摒棄循環結構,無法直接感知序列順序 → 需注入位置資訊 |
| ③ 前饋網路 Feed-Forward Network | 兩個線性層 + 中間 ReLU 激活的全連接網路;對每個位置獨立應用 | 進一步轉換和處理注意力層提取的資訊 |
| ④ 殘差連接 + 層歸一化 Residual + LayerNorm | 子層輸入直接加到輸出(Output = Input + Sublayer(Input)),再做歸一化 | 殘差緩解梯度消失、允許構建極深網路;LayerNorm 穩定訓練、減少內部協變偏移(ICS);不依賴批次大小適合 NLP |
7.5Transformer 衍伸 — 四大預訓練語言模型
| 模型 | 提出方 | 架構部分 | 核心特色 |
|---|---|---|---|
| BERT Bidirectional Encoder Representations from Transformers | 編碼器部分 | 雙向上下文預訓練(Masked Language Model + Next Sentence Prediction),擅長語言理解任務 | |
| GPT 系列 Generative Pre-trained Transformer | OpenAI | 解碼器部分 | 單向(自迴歸)預訓練;擅長文本生成,展現驚人的零樣本(Zero-shot)和少樣本(Few-shot)學習能力(GPT-2/3/4/5) |
| T5 Text-to-Text Transfer Transformer | 完整 Encoder-Decoder | 將所有 NLP 任務統一視為「文字到文字」問題(分類/摘要/問答/翻譯皆轉為生成另一文本)→ 通用性強 | |
| ViT Vision Transformer | — | Transformer | 將圖像切成固定大小的圖像塊(Patches)當「詞語」直接輸入 Transformer → 證明 Transformer 處理網格狀資料的潛力,挑戰 CNN 在影像任務的主導地位 |
| 長序列 Transformer Longformer / Reformer / Performer | — | 稀疏注意力等 | 解決原始 Transformer 自注意力計算複雜度 O(L²) 的問題,透過稀疏/局部注意力使其能處理數千甚至數萬 tokens |
7.6Transformer 四大限制
| 限制 | 說明 |
|---|---|
| 計算複雜度高 | 自注意力的計算複雜度與序列長度平方 O(L²) 成正比 → 處理極長序列時計算量和記憶體消耗巨大 |
| 記憶體消耗大 | 需儲存注意力權重矩陣,長序列佔用大量記憶體 |
| 數據飢渴 | 大型 Transformer 需要大量標註或未標註資料才能充分發揮效能,否則易過擬合 |
| 缺乏內建序列歸納偏置 | 與 RNN 不同,Transformer 需額外引入位置編碼來提供順序資訊 |
8生成式模型:Autoencoder & GAN
學習數據底層分佈,生成全新樣本
8.1自編碼器(Autoencoder)
| 面向 | 內容 |
|---|---|
| 定位 | 學習輸入數據高效表示(Encoding)的非監督式學習模型;透過嘗試重構自身輸入來達到學習目的 |
| ① 編碼器(Encoder) | 將高維度輸入數據編碼為低維度潛在空間向量 → 通常稱為瓶頸層(Bottleneck Layer) |
| ② 解碼器(Decoder) | 將潛在空間向量解碼回原始輸入數據的維度 |
| 訓練目標 | 最小化重構誤差(Reconstruction Error) — 衡量原始輸入與重構輸出的相似度 |
| 常用損失函數 | MSE 用於連續數據;二元交叉熵用於二元數據 |
8.2自編碼器四大應用
| 應用 | 說明 |
|---|---|
| ① 降維 | 學習數據的低維潛在表示,達到降維與資料壓縮效果 |
| ② 特徵學習 | 潛在表示可作為原始資料的抽象特徵 → 作為無監督預訓練,為後續分類/聚類提供特徵工程 |
| ③ 數據去噪 | 去噪自編碼器:從帶噪聲的輸入中重構出乾淨的數據 |
| ④ 異常偵測 | 對正常數據重構誤差小、對異常數據重構誤差大 → 用重構誤差辨識離群值 |
8.3GAN 生成對抗網路
| 面向 | 內容 |
|---|---|
| 核心機制 | 兩個神經網路的「對抗」過程 — 在「零和博弈(Zero-Sum Game)」中訓練至平衡 |
| ① 生成器 Generator | 輸入:隨機噪聲向量(通常從高斯分佈採樣) 功能:把隨機噪音轉換成看起來像真實數據的樣本 → 試圖「欺騙判別器」 |
| ② 判別器 Discriminator | 輸入:真實訓練數據樣本 + 生成器生成的假樣本 功能:二元分類器,目標是準確區分「真實」vs「生成」 |
| 訓練終態 | 達到「納什均衡(Nash Equilibrium)」 — 生成器生成的數據高度逼真,判別器幾乎無法區分 |
8.4GAN 訓練流程(迭代)
| 階段 | 做什麼 |
|---|---|
| ① 訓練判別器 | 最大化區分真實與生成資料的能力 → 對真實數據給高分(≈1)、對生成數據給低分(≈0) |
| ② 訓練生成器 | 判別器參數固定,生成器試圖最小化判別器將其輸出辨識為假的能力 → 讓判別器對假數據也給高分(≈1) |
| ③ 重複 | 不斷重複直到達到納什均衡 |
8.5Autoencoder vs GAN 對照
| 面向 | Autoencoder | GAN |
|---|---|---|
| 核心結構 | Encoder + Bottleneck + Decoder | Generator vs Discriminator |
| 學習方式 | 非監督式 — 最小化重構誤差 | 對抗式 — 零和博弈,達納什均衡 |
| 主要用途 | 降維、特徵學習、去噪、異常偵測 | 生成高品質新樣本、跨模態生成、風格遷移、超解析度、圖像上色 |
| 限制 | 重構而非生成新數據;潛在空間缺乏結構 | 訓練不穩定(模式崩潰);超參數敏感;評估困難 |
9深度學習主流框架
TensorFlow + Keras / PyTorch / JAX·MXNet·PaddlePaddle
9.1TensorFlow + Keras
| 框架 | 提出方/年代 | 核心特性 |
|---|---|---|
| TensorFlow | Google,2015 發布 | ① 計算圖:早期靜態圖,TF 2.x 轉向即時執行(Eager Execution) ② 跨平台部署:CPU / GPU / TPU(Google 自研張量處理單元) / 行動裝置(TF Lite)/ 物聯網(TF Lite Micro)/ 網頁(TF.js) ③ 生產級部署:TFX(管道管理)+ TensorFlow Serving(模型服務) |
| Keras | 高階 API | TF 2.0 起完全整合為 tf.keras(TensorFlow 官方高階 API) ① 極簡主義(最少代碼建構模型)② 模組化(自由組合層/激活/優化器)③ 易於原型開發(快速試驗)④ 靈活後端(早期支援 TF/Theano/CNTK) |
9.2PyTorch
| 面向 | 內容 |
|---|---|
| 提出方 | Facebook AI Research(FAIR) |
| 最大特點 | 動態計算圖(Dynamic Computation Graph) — 運算在定義時立即執行,不像早期 TensorFlow 先構建完整圖形再運行 |
| ① 即時執行 | 行為更像標準 Python 代碼 → 簡化調試、開發與實驗 |
| ② Pythonic 介面 | API 設計高度貼合 Python 用法 |
| ③ 自動微分 | 內建 Autograd 引擎,自動計算梯度(反向傳播必備) |
| ④ 豐富生態系 | torchvision(視覺)/ torchtext(NLP)/ torchaudio(語音)/ PyTorch Lightning / Hugging Face Transformers |
| 主要應用領域 | 學術研究 + 快速原型開發的首選 |
9.3其他框架簡介
| 框架 | 提出方 | 定位 |
|---|---|---|
| JAX | 機器學習轉換(ML Transformations)框架,結合NumPy 易用性 + 自動微分 + GPU/TPU 高效利用;非傳統端到端框架,更像數值計算庫,提供高效能數值運算與函數式程式設計 | |
| MXNet | Apache(AWS 主要支持) | 靈活高效的深度學習框架;支援多種程式語言綁定;提供混合式程式設計(兼具符號式和命令式風格) |
| PaddlePaddle | — | 由特定組織支持的開源深度學習框架,在特定領域有其獨特優勢和定位 |
9.4TensorFlow vs PyTorch 對照
| 面向 | TensorFlow | PyTorch |
|---|---|---|
| 提出方 | Google(2015) | Facebook AI Research(FAIR) |
| 計算圖 | 早期靜態圖,TF 2.x 改 Eager Execution | 動態圖(定義即執行) |
| API 風格 | 較工程取向,含完整生產生態系 | Pythonic,貼合 Python 習慣 |
| 主戰場 | 業界 + 學術;生產級部署(TFX/Serving/Lite) | 學術研究 + 快速原型開發 |
| 高階 API | tf.keras(TF 2.0 起整合) | PyTorch Lightning(社群) |
| 硬體 | CPU / GPU / TPU / 行動 / 物聯網 / 網頁 | CPU / GPU |
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23203 深度學習原理與框架 · v1.0(2026-05 表格化精簡版)