91网首页-91网页版-91网在线观看-91网站免费观看-91网站永久视频-91网站在线播放

LOGO OA教程 ERP教程 模切知識交流 PMS教程 CRM教程 開發文檔 其他文檔  
 
網站管理員

神經網絡算法:一文搞懂Transformer本質、原理、架構改進

admin
2025年6月18日 9:2 本文熱度 87
本文將從Transformer的本質、Transformer的原理Transformer架構改進三個方面,帶您一文搞懂Transformer。

一、Transformer的本質

Transformer架構主要由輸入部分(輸入輸出嵌入與位置編碼)、多層編碼器、多層解碼器以及輸出部分(輸出線性層與Softmax)四大部分組成。

Transformer架構

  • 輸入部分:

  • 源文本嵌入層:將源文本中的詞匯數字表示轉換為向量表示,捕捉詞匯間的關系。

  • 位置編碼器:為輸入序列的每個位置生成位置向量,以便模型能夠理解序列中的位置信息。

  • 目標文本嵌入層(在解碼器中使用):將目標文本中的詞匯數字表示轉換為向量表示。

  • 編碼器部分:

  • 由N個編碼器層堆疊而成。

  • 每個編碼器層由兩個子層連接結構組成:第一個子層是一個多頭自注意力子層,第二個子層是一個前饋全連接子層。每個子層后都接有一個規范化層和一個殘差連接。

  • 解碼器部分:

  • 由N個解碼器層堆疊而成。

  • 每個解碼器層由三個子層連接結構組成:第一個子層是一個帶掩碼的多頭自注意力子層,第二個子層是一個多頭注意力子層(編碼器到解碼器),第三個子層是一個前饋全連接子層。每個子層后都接有一個規范化層和一個殘差連接。

  • 輸出部分:

  • 線性層:將解碼器輸出的向量轉換為最終的輸出維度。

  • Softmax層:將線性層的輸出轉換為概率分布,以便進行最終的預測。

Encoder-Decoder(編碼器-解碼器):左邊是N個編碼器,右邊是N個解碼器,Transformer中的N為6。

Encoder-Decoder(編碼器-解碼器)

  • Encoder編碼器

  • Transformer中的編碼器部分一共6個相同的編碼器層組成。

    每個編碼器層都有兩個子層,即多頭自注意力層(Multi-Head Attention)層和逐位置的前饋神經網絡(Position-wise Feed-Forward Network)。在每個子層后面都有殘差連接(圖中的虛線)和層歸一化(LayerNorm)操作,二者合起來稱為Add&Norm操作。

?

Encoder(編碼器)架構

  • Decoder解碼器

  • Transformer中的解碼器部分同樣一共6個相同的解碼器層組成。

    每個解碼器層都有三個子層,掩蔽自注意力層(Masked Self-Attention)、Encoder-Decoder注意力層逐位置的前饋神經網絡。同樣,在每個子層后面都有殘差連接(圖中的虛線)和層歸一化(LayerNorm)操作,二者合起來稱為Add&Norm操作。

Decoder(解碼器)架構

二、Transformer的原理

Transformer工作原理

Multi-Head Attention(多頭注意力)它允許模型同時關注來自不同位置的信息。通過分割原始的輸入向量到多個頭(head),每個頭都能獨立地學習不同的注意力權重,從而增強模型對輸入序列中不同部分的關注能力。

Multi-Head Attention(多頭注意力)

  1. 輸入線性變換:對于輸入的Query(查詢)、Key(鍵)和Value(值)向量,首先通過線性變換將它們映射到不同的子空間。這些線性變換的參數是模型需要學習的。

  2. 分割多頭:經過線性變換后,Query、Key和Value向量被分割成多個頭。每個頭都會獨立地進行注意力計算。

  3. 縮放點積注意力:在每個頭內部,使用縮放點積注意力來計算Query和Key之間的注意力分數。這個分數決定了在生成輸出時,模型應該關注Value向量的部分。

  4. 注意力權重應用:將計算出的注意力權重應用于Value向量,得到加權的中間輸出。這個過程可以理解為根據注意力權重對輸入信息進行篩選和聚焦。

  5. 拼接和線性變換:將所有頭的加權輸出拼接在一起,然后通過一個線性變換得到最終的Multi-Head Attention輸出。

Scaled Dot-Product Attention縮放點積注意力它是Transformer模型中多頭注意力機制的一個關鍵組成部分。

Scaled Dot-Product Attention縮放點積注意力

  • Query、Key和Value矩陣

    • Query矩陣(Q):表示當前的關注點或信息需求,用于與Key矩陣進行匹配。

    • Key矩陣(K):包含輸入序列中各個位置的標識信息,用于被Query矩陣查詢匹配。

    • Value矩陣(V):存儲了與Key矩陣相對應的實際值或信息內容,當Query與某個Key匹配時,相應的Value將被用來計算輸出。

  • 點積計算

    • 通過計算Query矩陣和Key矩陣之間的點積(即對應元素相乘后求和),來衡量Query與每個Key之間的相似度或匹配程度。

  • 縮放因子

    • 由于點積操作的結果可能非常大,尤其是在輸入維度較高的情況下,這可能導致softmax函數在計算注意力權重時進入飽和區。為了避免這個問題,縮放點積注意力引入了一個縮放因子,通常是輸入維度的平方根。點積結果除以這個縮放因子,可以使得softmax函數的輸入保持在一個合理的范圍內。

  • Softmax函數

    • 將縮放后的點積結果輸入到softmax函數中,計算每個Key相對于Query的注意力權重。Softmax函數將原始得分轉換為概率分布,使得所有Key的注意力權重之和為1。

  • 加權求和

    • 使用計算出的注意力權重對Value矩陣進行加權求和,得到最終的輸出。這個過程根據注意力權重的大小,將更多的關注放在與Query更匹配的Value上。

三、Transformer架構改進

BERT:BERT是一種基于Transformer的預訓練語言模型,它的最大創新之處在于引入了雙向Transformer編碼器,這使得模型可以同時考慮輸入序列的前后上下文信息。

BERT架構

  1. 輸入層(Embedding)

    • Token Embeddings:將單詞或子詞轉換為固定維度的向量。

    • Segment Embeddings:用于區分句子對中的不同句子。

    • Position Embeddings:由于Transformer模型本身不具備處理序列順序的能力,所以需要加入位置嵌入來提供序列中單詞的位置信息。

  2. 編碼層(Transformer Encoder)BERT模型使用雙向Transformer編碼器進行編碼。

  3. 輸出層(Pre-trained Task-specific Layers)

    • MLM輸出層:用于預測被掩碼(masked)的單詞。在訓練階段,模型會隨機遮蓋輸入序列中的部分單詞,并嘗試根據上下文預測這些單詞。

    • NSP輸出層:用于判斷兩個句子是否為連續的句子對。在訓練階段,模型會接收成對的句子作為輸入,并嘗試預測第二個句子是否是第一個句子的后續句子。

GPT:GPT也是一種基于Transformer的預訓練語言模型,它的最大創新之處在于使用了單向Transformer編碼器,這使得模型可以更好地捕捉輸入序列的上下文信息。

GPT架構

  1. 輸入層(Input Embedding)

    • 將輸入的單詞或符號轉換為固定維度的向量表示。

    • 可以包括詞嵌入、位置嵌入等,以提供單詞的語義信息和位置信息。

  2. 編碼層(Transformer Encoder):GPT模型使用單向Transformer編碼器進行編碼和生成。

  3. 輸出層(Output Linear and Softmax)

    • 線性輸出層將最后一個Transformer Decoder Block的輸出轉換為詞匯表大小的向量。

    • Softmax函數將輸出向量轉換為概率分布,以便進行詞匯選擇或生成下一個單詞。


該文章在 2025/6/18 9:02:38 編輯過
關鍵字查詢
相關文章
正在查詢...
點晴ERP是一款針對中小制造業的專業生產管理軟件系統,系統成熟度和易用性得到了國內大量中小企業的青睞。
點晴PMS碼頭管理系統主要針對港口碼頭集裝箱與散貨日常運作、調度、堆場、車隊、財務費用、相關報表等業務管理,結合碼頭的業務特點,圍繞調度、堆場作業而開發的。集技術的先進性、管理的有效性于一體,是物流碼頭及其他港口類企業的高效ERP管理信息系統。
點晴WMS倉儲管理系統提供了貨物產品管理,銷售管理,采購管理,倉儲管理,倉庫管理,保質期管理,貨位管理,庫位管理,生產管理,WMS管理系統,標簽打印,條形碼,二維碼管理,批號管理軟件。
點晴免費OA是一款軟件和通用服務都免費,不限功能、不限時間、不限用戶的免費OA協同辦公管理系統。
Copyright 2010-2025 ClickSun All Rights Reserved

主站蜘蛛池模板: 国产主播一 | 日韩精品一区不卡 | 成人黄页 | 精品三级 | 成人精品HD| 国产乱伦视频网站 | 家庭乱码伦区中 | 国产精品第79页 | 精品在线热| 区不卡αv| 日韩v高清 | 国产精品一区二区三 | 中文字幕在线第一页 | 日本成年人视频网站 | 91精品成人影院 | 国产精品伦理在线 | 日韩精品动漫一区 | 国产网友| 韩国电影美人图 | 国产欧美日韩在线 | 九色国产熟女 | 国产伦子伦对白视频 | 日韩午夜剧场人畜 | 日韩制服 | 日本高清成人 | 国产精品亚洲美女 | 午夜福利在线 | 成人深夜视频 | 国产大片免费观看 | 日本不卡在线免费 | 无码精品久久久久久人妻中字 | 国产乱对白刺激视频 | 国产超污精 | 国产精品看片在线 | 国产黄大片在线观看 | 午夜福利日韩在线 | 午夜福利92| 亚洲无码av午夜在线观看 | 91免費黃色| 国产极品翘臀在线观 | 国产综合第一页 |