91网首页-91网页版-91网在线观看-91网站免费观看-91网站永久视频-91网站在线播放

<menu id="amsq6"></menu><object id="amsq6"></object>

<optgroup id="amsq6"></optgroup>

<tr id="amsq6"><td id="amsq6"></td></tr>

400 186 1886

神經網絡算法：一文搞懂Transformer本質、原理、架構改進

當前位置：點晴教程→知識管理交流 →『技術文檔交流』

admin

2025年6月18日 9:2 本文熱度 87

本文將從Transformer的本質、Transformer的原理、Transformer架構改進三個方面，帶您一文搞懂Transformer。

一、Transformer的本質

Transformer架構：主要由輸入部分（輸入輸出嵌入與位置編碼）、多層編碼器、多層解碼器以及輸出部分（輸出線性層與Softmax）四大部分組成。

Transformer架構

輸入部分：
源文本嵌入層：將源文本中的詞匯數字表示轉換為向量表示，捕捉詞匯間的關系。
位置編碼器：為輸入序列的每個位置生成位置向量，以便模型能夠理解序列中的位置信息。
目標文本嵌入層（在解碼器中使用）：將目標文本中的詞匯數字表示轉換為向量表示。
編碼器部分：
由N個編碼器層堆疊而成。
每個編碼器層由兩個子層連接結構組成：第一個子層是一個多頭自注意力子層，第二個子層是一個前饋全連接子層。每個子層后都接有一個規范化層和一個殘差連接。
解碼器部分：
由N個解碼器層堆疊而成。
每個解碼器層由三個子層連接結構組成：第一個子層是一個帶掩碼的多頭自注意力子層，第二個子層是一個多頭注意力子層（編碼器到解碼器），第三個子層是一個前饋全連接子層。每個子層后都接有一個規范化層和一個殘差連接。
輸出部分：
線性層：將解碼器輸出的向量轉換為最終的輸出維度。
Softmax層：將線性層的輸出轉換為概率分布，以便進行最終的預測。

Encoder-Decoder（編碼器-解碼器）：左邊是N個編碼器，右邊是N個解碼器，Transformer中的N為6。

Encoder-Decoder（編碼器-解碼器）

Encoder編碼器：
Transformer中的編碼器部分一共6個相同的編碼器層組成。

每個編碼器層都有兩個子層，即多頭自注意力層(Multi-Head Attention)層和逐位置的前饋神經網絡(Position-wise Feed-Forward Network)。在每個子層后面都有殘差連接（圖中的虛線）和層歸一化（LayerNorm）操作，二者合起來稱為Add&Norm操作。

?

Encoder（編碼器）架構

Decoder解碼器：
Transformer中的解碼器部分同樣一共6個相同的解碼器層組成。

每個解碼器層都有三個子層，掩蔽自注意力層(Masked Self-Attention)、Encoder-Decoder注意力層、逐位置的前饋神經網絡。同樣，在每個子層后面都有殘差連接（圖中的虛線）和層歸一化（LayerNorm）操作，二者合起來稱為Add&Norm操作。

Decoder（解碼器）架構

二、Transformer的原理

Transformer工作原理

Multi-Head Attention（多頭注意力）：它允許模型同時關注來自不同位置的信息。通過分割原始的輸入向量到多個頭（head），每個頭都能獨立地學習不同的注意力權重，從而增強模型對輸入序列中不同部分的關注能力。

Multi-Head Attention（多頭注意力）

輸入線性變換：對于輸入的Query（查詢）、Key（鍵）和Value（值）向量，首先通過線性變換將它們映射到不同的子空間。這些線性變換的參數是模型需要學習的。
分割多頭：經過線性變換后，Query、Key和Value向量被分割成多個頭。每個頭都會獨立地進行注意力計算。
縮放點積注意力：在每個頭內部，使用縮放點積注意力來計算Query和Key之間的注意力分數。這個分數決定了在生成輸出時，模型應該關注Value向量的部分。
注意力權重應用：將計算出的注意力權重應用于Value向量，得到加權的中間輸出。這個過程可以理解為根據注意力權重對輸入信息進行篩選和聚焦。
拼接和線性變換：將所有頭的加權輸出拼接在一起，然后通過一個線性變換得到最終的Multi-Head Attention輸出。

Scaled Dot-Product Attention（縮放點積注意力）：它是Transformer模型中多頭注意力機制的一個關鍵組成部分。

Scaled Dot-Product Attention（縮放點積注意力）

Query、Key和Value矩陣：

Query矩陣（Q）：表示當前的關注點或信息需求，用于與Key矩陣進行匹配。
Key矩陣（K）：包含輸入序列中各個位置的標識信息，用于被Query矩陣查詢匹配。
Value矩陣（V）：存儲了與Key矩陣相對應的實際值或信息內容，當Query與某個Key匹配時，相應的Value將被用來計算輸出。

點積計算：

通過計算Query矩陣和Key矩陣之間的點積（即對應元素相乘后求和），來衡量Query與每個Key之間的相似度或匹配程度。

縮放因子：

由于點積操作的結果可能非常大，尤其是在輸入維度較高的情況下，這可能導致softmax函數在計算注意力權重時進入飽和區。為了避免這個問題，縮放點積注意力引入了一個縮放因子，通常是輸入維度的平方根。點積結果除以這個縮放因子，可以使得softmax函數的輸入保持在一個合理的范圍內。

Softmax函數：

將縮放后的點積結果輸入到softmax函數中，計算每個Key相對于Query的注意力權重。Softmax函數將原始得分轉換為概率分布，使得所有Key的注意力權重之和為1。

加權求和：

使用計算出的注意力權重對Value矩陣進行加權求和，得到最終的輸出。這個過程根據注意力權重的大小，將更多的關注放在與Query更匹配的Value上。

三、Transformer架構改進

BERT：BERT是一種基于Transformer的預訓練語言模型，它的最大創新之處在于引入了雙向Transformer編碼器，這使得模型可以同時考慮輸入序列的前后上下文信息。

BERT架構

輸入層（Embedding）：

Token Embeddings：將單詞或子詞轉換為固定維度的向量。
Segment Embeddings：用于區分句子對中的不同句子。
Position Embeddings：由于Transformer模型本身不具備處理序列順序的能力，所以需要加入位置嵌入來提供序列中單詞的位置信息。

編碼層（Transformer Encoder）：BERT模型使用雙向Transformer編碼器進行編碼。
輸出層（Pre-trained Task-specific Layers）：

MLM輸出層：用于預測被掩碼（masked）的單詞。在訓練階段，模型會隨機遮蓋輸入序列中的部分單詞，并嘗試根據上下文預測這些單詞。
NSP輸出層：用于判斷兩個句子是否為連續的句子對。在訓練階段，模型會接收成對的句子作為輸入，并嘗試預測第二個句子是否是第一個句子的后續句子。

GPT：GPT也是一種基于Transformer的預訓練語言模型，它的最大創新之處在于使用了單向Transformer編碼器，這使得模型可以更好地捕捉輸入序列的上下文信息。

GPT架構

輸入層（Input Embedding）：

將輸入的單詞或符號轉換為固定維度的向量表示。
可以包括詞嵌入、位置嵌入等，以提供單詞的語義信息和位置信息。

編碼層（Transformer Encoder）：GPT模型使用單向Transformer編碼器進行編碼和生成。
輸出層（Output Linear and Softmax）：

線性輸出層將最后一個Transformer Decoder Block的輸出轉換為詞匯表大小的向量。
Softmax函數將輸出向量轉換為概率分布，以便進行詞匯選擇或生成下一個單詞。

該文章在 2025/6/18 9:02:38 編輯過

關鍵字查詢

網絡

架構

算法

相關文章

正在查詢...

點晴ERP是一款針對中小制造業的專業生產管理軟件系統,系統成熟度和易用性得到了國內大量中小企業的青睞。

點晴PMS碼頭管理系統主要針對港口碼頭集裝箱與散貨日常運作、調度、堆場、車隊、財務費用、相關報表等業務管理，結合碼頭的業務特點，圍繞調度、堆場作業而開發的。集技術的先進性、管理的有效性于一體，是物流碼頭及其他港口類企業的高效ERP管理信息系統。

點晴WMS倉儲管理系統提供了貨物產品管理,銷售管理,采購管理,倉儲管理,倉庫管理,保質期管理,貨位管理,庫位管理,生產管理,WMS管理系統,標簽打印,條形碼,二維碼管理,批號管理軟件。

點晴免費OA是一款軟件和通用服務都免費，不限功能、不限時間、不限用戶的免費OA協同辦公管理系統。

Copyright 2010-2025 ClickSun All Rights Reserved

主站蜘蛛池模板：国产主播一 | 日韩精品一区不卡 | 成人黄页 | 精品三级 | 成人精品HD| 国产乱伦视频网站 | 家庭乱码伦区中 | 国产精品第79页 | 精品在线热| 区不卡αv| 日韩v高清 | 国产精品一区二区三 | 中文字幕在线第一页 | 日本成年人视频网站 | 91精品成人影院 | 国产精品伦理在线 | 日韩精品动漫一区 | 国产网友| 韩国电影美人图 | 国产欧美日韩在线 | 九色国产熟女 | 国产伦子伦对白视频 | 日韩午夜剧场人畜 | 日韩制服 | 日本高清成人 | 国产精品亚洲美女 | 午夜福利在线 | 成人深夜视频 | 国产大片免费观看 | 日本不卡在线免费 | 无码精品久久久久久人妻中字 | 国产乱对白刺激视频 | 国产超污精 | 国产精品看片在线 | 国产黄大片在线观看 | 午夜福利日韩在线 | 午夜福利92| 亚洲无码av午夜在线观看 | 91免費黃色| 国产极品翘臀在线观 | 国产综合第一页 |

^{<menu id="iwkew"></menu>}

<center id="iwkew"></center>