那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

智能開源大模型baichuan-7B技術(shù)改進(jìn)

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 2023-06-17 14:14 ? 次閱讀

baichuan-7B 主要是參考LLaMA進(jìn)行的改進(jìn),且模型架構(gòu)與LLaMA一致。而在開源大模型中,LLaMA無(wú)疑是其中最閃亮的星,但LLaMA存在如下問(wèn)題:

LLaMA 原生僅支持 Latin 或 Cyrillic 語(yǔ)系,只使用了少量中文數(shù)據(jù)集進(jìn)行訓(xùn)練,因此,對(duì)于中文支持不是特別理想。

原版LLaMA模型的詞表大小是32K,僅有少量中文詞,對(duì)于中文的解碼效率較低。

baichuan-7B的改進(jìn)如下:

效果改進(jìn):用于提升模型的效果以及解碼效率。

分詞改進(jìn):詞表大小為64K(使用2000萬(wàn)條以中英為主的多語(yǔ)言語(yǔ)料訓(xùn)練分詞模型,顯著提升對(duì)于中文的壓縮率),而LLaMA詞表大小為32K。

數(shù)據(jù)集改進(jìn):使用了大約 1.2T 中英 tokens 進(jìn)行訓(xùn)練(基于開源的中英文數(shù)據(jù)和自行抓取的中文互聯(lián)網(wǎng)數(shù)據(jù)以及部分高質(zhì)量知識(shí)性數(shù)據(jù)進(jìn)行的數(shù)據(jù)清洗),而 LLaMA 7B 使用 1T 英文 tokens 進(jìn)行訓(xùn)練。

技術(shù)改進(jìn):用于提升訓(xùn)練穩(wěn)定性和吞吐量。

算子優(yōu)化技術(shù):采用更高效算子,如 Flash-attention,NVIDIA apex 的 RMSNorm 等。

算子切分技術(shù):將部分計(jì)算算子進(jìn)行切分,減小內(nèi)存峰值。

混合精度技術(shù):降低在不損失模型精度的情況下加速計(jì)算過(guò)程。

訓(xùn)練容災(zāi)技術(shù):訓(xùn)練平臺(tái)和訓(xùn)練框架聯(lián)合優(yōu)化,IaaS + PaaS 實(shí)現(xiàn)分鐘級(jí)的故障定位和任務(wù)恢復(fù)。

通信優(yōu)化技術(shù),具體包括:

采用拓?fù)涓兄募贤ㄐ潘惴?,避?a target="_blank">網(wǎng)絡(luò)擁塞問(wèn)題,提高通信效率。

根據(jù)卡數(shù)自適應(yīng)設(shè)置 bucket size,提高帶寬利用率。

根據(jù)模型和集群環(huán)境,調(diào)優(yōu)通信原語(yǔ)的觸發(fā)時(shí)機(jī),從而將計(jì)算和通信重疊。

此外,該模型開源可商用,也算是一個(gè)優(yōu)勢(shì)吧。

可以看到,現(xiàn)在的大模型,從算法層面改進(jìn)的空間似乎很小了,更多的是從工程和數(shù)據(jù)層面上進(jìn)行改進(jìn)從而來(lái)提升其性能。

最后,希望國(guó)產(chǎn)大模型越來(lái)越好~~
責(zé)任編輯:彭菁

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 帶寬
    +關(guān)注

    關(guān)注

    3

    文章

    953

    瀏覽量

    41076
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3402

    瀏覽量

    42711
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3305

    瀏覽量

    49220

原文標(biāo)題:百川智能開源大模型baichuan-7B剖析

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    中國(guó)人工智能開源軟件前生今生到底如何?

    為推動(dòng)人工智能開源軟件快速而健康的發(fā)展,中國(guó)人工智能開源軟件發(fā)展聯(lián)盟召集中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院、上海軟件中心、北京大學(xué)、微眾銀行、螞蟻金服、京東等企事業(yè)單位,研究梳理人工智能開源軟件
    的頭像 發(fā)表于 07-11 16:27 ?5726次閱讀

    汽車智能開源分享

    電子發(fā)燒友網(wǎng)站提供《汽車智能開源分享.zip》資料免費(fèi)下載
    發(fā)表于 12-13 09:56 ?0次下載
    汽車<b class='flag-5'>智能開源</b>分享

    百川智能獲阿里騰訊小米等3億美元投資

    百川智能推出了4款開源baichuan-7b/13b、baichuan 2-7b/13
    的頭像 發(fā)表于 10-17 10:15 ?794次閱讀

    寒武紀(jì)的思元(MLU)云端智能加速卡與百川智能完成大模型適配,攜手創(chuàng)新生成式AI

    近日,寒武紀(jì)思元(MLU)系列云端智能加速卡與百川智能旗下的大模型Baichuan2-53BBaichuan2-13B、
    的頭像 發(fā)表于 11-06 20:32 ?1529次閱讀
    寒武紀(jì)的思元(MLU)云端<b class='flag-5'>智能</b>加速卡與百川<b class='flag-5'>智能</b>完成大<b class='flag-5'>模型</b>適配,攜手創(chuàng)新生成式AI

    百川智能發(fā)布超千億大模型Baichuan 3

    百川智能近日發(fā)布了超千億參數(shù)的大語(yǔ)言模型Baichuan 3,引發(fā)了業(yè)界的廣泛關(guān)注。這款模型在多個(gè)權(quán)威通用能力評(píng)測(cè)中表現(xiàn)卓越,展現(xiàn)了其強(qiáng)大的語(yǔ)義理解和生成能力。
    的頭像 發(fā)表于 01-31 14:58 ?922次閱讀

    IBM在watsonx上提供開源的Mistral AI模型

    IBM 提供 Mixtral-8x7B 的優(yōu)化版本,該版本可將延遲時(shí)間最多縮短 75% IBM、第三方和開源模型的目錄不斷增加,為客戶提供更多選擇和靈活性 是 watsonx 人工智能
    的頭像 發(fā)表于 03-12 19:10 ?1364次閱讀

    高通推出第三代驍龍7+移動(dòng)平臺(tái)

    高通技術(shù)公司重磅推出了全新的第三代驍龍?7+移動(dòng)平臺(tái),這一創(chuàng)新成果成功將終端側(cè)生成式AI技術(shù)引入至驍龍7系,開啟了全新的智能時(shí)代。這款移動(dòng)平
    的頭像 發(fā)表于 03-22 14:13 ?2286次閱讀

    百川智能發(fā)布Baichuan 4大模型及首款A(yù)I助手“百小應(yīng)”

    百川智能近日發(fā)布了其新一代基座大模型Baichuan 4,并同步推出了首款A(yù)I助手“百小應(yīng)”。這款A(yù)I助手是在Baichuan 4強(qiáng)大能力的基礎(chǔ)上,結(jié)合先進(jìn)的搜索
    的頭像 發(fā)表于 05-23 14:15 ?675次閱讀

    亞馬遜云科技接入百川智能和零一萬(wàn)物基礎(chǔ)模型

    近日,亞馬遜云科技在中國(guó)峰會(huì)上宣布,兩大中文基礎(chǔ)模型——百川智能Baichuan2-7B和零一萬(wàn)物的Yi-1.5 6B/9B/34
    的頭像 發(fā)表于 06-04 11:53 ?620次閱讀

    高通第三代驍龍7s移動(dòng)平臺(tái)發(fā)布,賦能中端智能手機(jī)以卓越AI新體驗(yàn)

    式AI技術(shù),并兼容包括Baichuan-7B及擁有10億參數(shù)的Llama 2在內(nèi)的大型語(yǔ)言模型(LLM),極大地推動(dòng)了智能手機(jī)智能化進(jìn)程的新高度。
    的頭像 發(fā)表于 08-21 15:42 ?2320次閱讀

    阿里通義千問(wèn)代碼模型全系列開源

    近日,阿里云通義大模型團(tuán)隊(duì)宣布了一項(xiàng)重大決策:將通義千問(wèn)代碼模型全系列正式開源。此次開源模型系列共包含6款Qwen2.5-Coder
    的頭像 發(fā)表于 11-14 15:26 ?439次閱讀

    圖森未來(lái)發(fā)布“Ruyi”視頻大模型,Ruyi-Mini-7B版本現(xiàn)已開源

    重大獻(xiàn)禮。 尤為值得一提的是,圖森未來(lái)已經(jīng)將Ruyi的Mini-7B版本正式開源,用戶現(xiàn)在可以通過(guò)huggingface平臺(tái)輕松下載并使用這一強(qiáng)大的工具。這一舉措無(wú)疑將極大地推動(dòng)視頻大模型在更廣泛領(lǐng)域的應(yīng)用和發(fā)展。 “Ruyi”
    的頭像 發(fā)表于 12-20 15:19 ?877次閱讀

    百川智能發(fā)布Baichuan4-Finance金融大模型

    近日,百川智能正式推出了其全鏈路領(lǐng)域增強(qiáng)的金融大模型——Baichuan4-Finance。這一創(chuàng)新產(chǎn)品的發(fā)布,標(biāo)志著百川智能在金融智能化領(lǐng)
    的頭像 發(fā)表于 12-25 10:11 ?267次閱讀

    百川智能發(fā)布全場(chǎng)景深度思考模型Baichuan-M1-preview

    1月24日,百川智能正式發(fā)布了全場(chǎng)景深度思考模型Baichuan-M1-preview。 Baichuan-M1-preview同時(shí)具備語(yǔ)言、視覺(jué)和搜索三大領(lǐng)域推理能力的
    的頭像 發(fā)表于 01-24 14:40 ?656次閱讀

    百川智能發(fā)布全場(chǎng)景深度思考模型Baichuan-M1-preview

    近日,百川智能正式發(fā)布了國(guó)內(nèi)首個(gè)全場(chǎng)景深度思考模型——Baichuan-M1-preview。這一創(chuàng)新成果標(biāo)志著我國(guó)在人工智能領(lǐng)域取得了重要突破,特別是在語(yǔ)言、視覺(jué)和搜索三大領(lǐng)域的推理
    的頭像 發(fā)表于 02-05 13:51 ?150次閱讀
    百家乐投注平台信誉排名| bet365最新网址| 澳门百家乐官网的公式| 博彩百家乐心得| 梁平县| 24分金| 博彩公司排名| 百家乐官网现金网最好的系统哪里有可靠吗| 大发888娱乐场备用| 678百家乐官网博彩娱乐网| 百家乐棋牌游戏币| 百家乐官网下路教学| 威尼斯人娱乐备用622| 百家乐官网一般多大码| 大发888掉线| 新东泰百家乐官网的玩法技巧和规则 | 手机百家乐的玩法技巧和规则 | 网络百家乐骗局| 百家乐官网视频官网| 保单百家乐游戏机厂家| 百家乐官网怎么玩了| 全讯网百家乐的玩法技巧和规则 | 百家乐如何洗吗| 网上百家乐官网真实吗| 网络百家乐的玩法技巧和规则| 真人百家乐官网试玩账号 | 太阳城百家乐如何看路| e世博百家乐官网技巧| 百家乐网页游戏| 鑫鑫百家乐官网的玩法技巧和规则| 网上赌博| 百家乐平台信誉| 百家乐官网娱乐城游戏| 免费百家乐计划软件| 百家乐官网真人博彩的玩法技巧和规则 | 百家乐官网变牌桌| 大发888开户注册平台| 百家乐桌蓝盾在线| 百家乐官网视频双扣游戏| 外围赌球软件| 百家乐规则技法|