那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

RoPE可能是LLM時代的Resnet

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-07-14 16:58 ? 次閱讀

因為和蘇神做過一段時間同事,所以2021年就知道RoPE了,當時也沒太在意,因為位置編碼是在為transformer類模型提供位置信息,在我實際實驗中不同位置編碼對最終效果差別很小。

2023年LLM大爆發,facebook開源了LLAMA模型,并且采用了RoPE,我也第一時間用上了LLAMA,那會感覺RoPE有點東西,但是還是心理覺得位置編碼沒那么重要

直到最近fb發了一篇文章《EXTENDING CONTEXT WINDOW OF LARGE LANGUAGE MODELS VIA POSITION INTERPOLATION》通過線性插值+少量微調的方式將LLAMA原始2k的模型輕松拓展到了32k,這時候我感覺到RoPE的強大之處。

進NLP群—>加入NLP交流群

通過線性插值RoPE擴張LLAMA context長度最早其實是在llamacpp項目中被人發現,有人在推理的時候直接通過線性插值將LLAMA由2k拓展到4k,性能沒有下降,引起了很多人關注。fb的論文給這個發現提供了理論和實驗支撐,進一步發現通過線性插值+微調可以擴展到32k長度。實現非常簡單,只需要對位置編碼進行線性插值,初始化的時候增加幾行代碼就行

defRotaryEmbedding(torch.nn.Module):
def__init__(self,dim,max_position_embeddings=2048,base=10000,device=None):
super().__init__()
inv_freq=1.0/(base**(torch.arange(0,dim,2).float().to(device)/dim))
self.register_buffer("inv_freq",inv_freq)

max_position_embeddings=8192

#Buildheretomake`torch.jit.trace`work.
self.max_seq_len_cached=max_position_embeddings
t=torch.arange(
self.max_seq_len_cached,
device=self.inv_freq.device,
dtype=self.inv_freq.dtype,
)

self.scale=1/4
t*=self.scale

freqs=torch.einsum("i,j->ij",t,self.inv_freq)
#Differentfrompaper,butitusesadifferentpermutationinordertoobtainthesamecalculation
emb=torch.cat((freqs,freqs),dim=-1)
self.register_buffer(
"cos_cached",emb.cos()[None,None,:,:],persistent=False
)
self.register_buffer(
"sin_cached",emb.sin()[None,None,:,:],persistent=False
)

這兩天reddit上又出現了ntk RoPE通過引入新的插值的scale,來擴展context,甚至微調都不需要!讓人震撼。實現也是極其簡單

importtransformers

old_init=transformers.models.llama.modeling_llama.LlamaRotaryEmbedding.__init__
defntk_scaled_init(self,dim,max_position_embeddings=2048,base=10000,device=None):

#Themethodisjustthesethreelines
max_position_embeddings=16384
a=8#Alphavalue
base=base*a**(dim/(dim-2))#Basechangeformula

old_init(self,dim,max_position_embeddings,base,device)


transformers.models.llama.modeling_llama.LlamaRotaryEmbedding.__init__=ntk_scaled_init

具體解釋可以參考蘇神自己寫的文章[1]

為什么說RoPE會成為LLM時代的Resnet,首先是兩者解決的問題有相似性。

Resnet解決了卷積模型變深之后梯度消失的問題,使的深度模型大放光彩。

RoPE類似的也解決了LLM context過長之后引起的上下文無法關聯問題。

兩者都有結構簡單,方法有效的優點,這個在工程上有極大的優勢,個人預感RoPE將會被大規模采用。如同當年Resnet一樣。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3313

    瀏覽量

    49229
  • resnet
    +關注

    關注

    0

    文章

    12

    瀏覽量

    3195
  • LLM
    LLM
    +關注

    關注

    0

    文章

    299

    瀏覽量

    400

原文標題:RoPE可能是LLM時代的Resnet

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    labview中while循環不執行可能是什么原因

    請教一下,labvlew中while循環不執行可能是什么原因?
    發表于 05-13 18:29

    請問這個可能是什么IC

    請問這個可能是什么IC
    發表于 02-15 10:23

    IPv6協議棧中AH可能是和諧的嗎

    在IPv6協議棧中,AH可能是和諧的嗎?如果你使用的是MZ芯片上的密碼?隨著最近基于物聯網的攻擊,安全性成為了一個大話題。
    發表于 04-26 09:28

    基于resnet10+ssd的虹膜檢測方式

    基于resnet10+ssd的虹膜檢測
    發表于 05-01 15:17

    這個三腳的元器件可能是什么東西

    這個三腳的東西可能是什么,在電路板上是個很小的元件,一開始猜是個穩壓管,但是上側的二極管和電阻說不通
    發表于 05-15 20:33

    伺服電機異響可能是哪方面的原因?

    伺服電機異響可能是哪方面的原因?
    發表于 11-15 07:02

    5G難改手機市場格局 更大的可能是強者恒強

    4G時代國內手機市場形成了華米歐維新四大,有人認為5G時代的到來或將如4G時代一樣導致國內智能手機市場的變局,不過筆者認為這種可能性不大,更大的可能
    的頭像 發表于 07-30 10:10 ?3102次閱讀

    移動空間可能是Microsoft面臨的最大問題之一

    移動空間可能是Microsoft面臨的最大問題之一。該公司的Windows Mobile平臺仍在由創新的觸摸屏平臺(如Apple的iOS和Google的Android操作系統)主導的市場中苦苦掙扎。
    的頭像 發表于 04-16 14:51 ?2807次閱讀

    單片機程序死機,可能是這幾個原因

    單片機程序死機,可能是這幾個原因
    的頭像 發表于 06-19 17:18 ?8984次閱讀
    單片機程序死機,<b class='flag-5'>可能是</b>這幾個原因

    基于ResNet的手勢識別邊緣計算項目

    電子發燒友網站提供《基于ResNet的手勢識別邊緣計算項目.zip》資料免費下載
    發表于 06-14 14:53 ?0次下載
    基于<b class='flag-5'>ResNet</b>的手勢識別邊緣計算項目

    PLC指示燈異常閃爍可能是哪些原因造成的?

    PLC指示燈異常閃爍可能是由多種原因造成的。以下是一些常見的可能原因
    的頭像 發表于 12-05 09:03 ?1.6w次閱讀

    英特爾攜手騰訊云用CPU打造LLM時代數據中樞,共筑AGI基建

    英特爾攜手騰訊云用CPU打造LLM時代數據中樞,共筑AGI基建
    的頭像 發表于 05-27 11:53 ?568次閱讀
    英特爾攜手騰訊云用CPU打造<b class='flag-5'>LLM</b><b class='flag-5'>時代</b>數據中樞,共筑AGI基建

    什么是LLMLLM的工作原理和結構

    隨著人工智能技術的飛速發展,大型語言模型(Large Language Model,簡稱LLM)逐漸成為自然語言處理(NLP)領域的研究熱點。LLM以其強大的文本生成、理解和推理能力,在文本
    的頭像 發表于 07-02 11:45 ?9050次閱讀

    LLM模型的應用領域

    在本文中,我們將深入探討LLM(Large Language Model,大型語言模型)的應用領域。LLM是一種基于深度學習的人工智能技術,它能夠理解和生成自然語言文本。近年來,隨著計算能力的提高
    的頭像 發表于 07-09 09:52 ?733次閱讀

    什么是LLMLLM在自然語言處理中的應用

    隨著人工智能技術的飛速發展,自然語言處理(NLP)領域迎來了革命性的進步。其中,大型語言模型(LLM)的出現,標志著我們對語言理解能力的一次飛躍。LLM通過深度學習和海量數據訓練,使得機器能夠以前
    的頭像 發表于 11-19 15:32 ?1093次閱讀
    狼2老虎机清零密码| 百家乐官网网络娱乐场开户注册| 百家乐官网是咋玩法| 网络赌博平台| 岳阳市| 真人百家乐官网皇冠网| 百家乐官网视频下载| 免费百家乐官网游戏机| 百家乐官网平台网| 百家乐官网千术手法| 皇家百家乐官网的玩法技巧和规则| 网络百家乐官网可靠吗| 百家乐官网怎样做弊| 百家乐官网游戏机破解方法| 淘宝博百家乐官网的玩法技巧和规则| 三元风水24山水法| 网上百家乐| 威尼斯人娱乐上网导航| 大发888娱乐场解码器| 大发888开户xa11| 香港六合彩号码| 百家乐官网的关键技巧| 百家乐官网赌博赌博网站| 24山坐向| 博彩百家乐的玩法技巧和规则 | 长治县| 百家乐官网详情| 真人百家乐网站接口| 威尼斯人娱乐中心老品牌| 球探比分 | 赌博百家乐官网的乐趣| 网上百家乐官网乐代理| 百家乐娱乐网备用网址| 娱网棋牌大厅下载| 百家乐官网路单破解方法| 都坊百家乐官网的玩法技巧和规则| 百家乐投注平台信誉排行| 游戏百家乐的玩法技巧和规则 | 百家乐官网高手论坛| 澳门百家乐路子分析| 大发888棋牌官网|