那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Optimum Intel三步完成Llama3在算力魔方的本地量化和部署

英特爾物聯網 ? 來源:英特爾物聯網 ? 2024-05-10 10:34 ? 次閱讀

01

Llama3簡介

Llama3 是Meta最新發布的開源大語言模型(LLM), 當前已開源8B和70B參數量的預訓練模型權重,并支持指令微調。詳情參見:

https://ai.meta.com/blog/meta-llama-3/

Llama3性能優異,8B和70B參數模型的性能在chatbot-arena-leaderboard中皆進入前十;LLama-3-70b-Instruct僅次于閉源的GPT-4系列模型。

排行榜鏈接:

https://chat.lmsys.org/?leaderboard

b3bd5d62-0dfd-11ef-a297-92fbcf53809c.png

魔搭社區已提供Llama3 8B和70B模型的預訓練權重下載,實測下載速度平均34MB/s。

b3d29b8c-0dfd-11ef-a297-92fbcf53809c.png

請讀者用下面的命令把Meta-Llama-3-8B模型的預訓練權重下載到本地待用。

git clone https://www.modelscope.cn/LLM-Research/Meta-Llama-3-8B.git
git clone https://www.modelscope.cn/LLM-Research/Meta-Llama-3-70B.git

算力魔方是一款可以DIY的迷你主機,采用了抽屜式設計,后續組裝、升級、維護只需要拔插模塊。通過選擇不同算力的計算模塊,再搭配不同的 IO 模塊可以組成豐富的配置,適應不同場景。

性能不夠時,可以升級計算模塊提升算力;IO 接口不匹配時,可以更換 IO 模塊調整功能,而無需重構整個系統。

本文以下所有步驟將在帶有英特爾i7-1265U處理器的算力魔方上完成驗證。

02

三步完成Llama3的INT4量化和本地部署

把Meta-Llama-3-8B模型的預訓練權重下載到本地后,接下來本文將依次介紹基于Optimum Intel工具將Llama進行INT4量化,并完成本地部署。

Optimum Intel作為Transformers和Diffusers庫與Intel提供的各種優化工具之間的接口層,它給開發者提供了一種簡便的使用方式,讓這兩個庫能夠利用Intel針對硬件優化的技術,例如:OpenVINO、IPEX等,加速基于Transformer或Diffusion構架的AI大模型在英特爾硬件上的推理計算性能。

Optimum Intel代碼倉連接:

https://github.com/huggingface/optimum-intel。

01

第一步,搭建開發環境

請下載并安裝Anaconda,然后用下面的命令創建并激活名為optimum_intel的虛擬環境:

conda create -n optimum_intel python=3.11 #創建虛擬環境
conda activate optimum_intel        #激活虛擬環境
python -m pip install --upgrade pip     #升級pip到最新版

由于Optimum Intel代碼迭代速度很快,請用從源代碼安裝的方式,安裝Optimum Intel和其依賴項openvino與nncf。

python -m pip install "optimum-intel[openvino,nncf]"@git+https://github.com/huggingface/optimum-intel.git

02

第二步,用optimum-cli對Llama3模型進行INT4量化

optimum-cli是Optimum Intel自帶的跨平臺命令行工具,可以不用編寫量化代碼,實現對Llama3模型的量化。

執行命令將Llama3-8B模型量化為INT4 OpenVINO格式模型:

optimum-cli export openvino --model D:llama3Meta-Llama-3-8B --task text-generation-with-past --weight-format int4 --group-size 128 --ratio 0.8 --sym llama3_int4_ov_model

b40612c8-0dfd-11ef-a297-92fbcf53809c.png

03

第三步:編寫推理程序llama3_int4_ov_infer.py

基于Optimum Intel工具包的API函數編寫Llama3的推理程序,非常簡單,只需要調用六個API函數:

1.

初始化OpenVINO Core對象:ov.Core()

2.

編譯并載入Llama3模型到指定DEVICE:OVModelForCausalLM.from_pretrained()

3.

實例化Llama3模型的Tokenizer:tok=AutoTokenizer.from_pretrained()

4.

將自然語言轉換為Token序列:tok(question, return_tensors="pt", **{})

5.

生成答案的Token序列:ov_model.generate()

6.

將答案Token序列解碼為自然語言:tok.batch_decode()

完整范例程序如下所示,下載鏈接:

import openvino as ov
from transformers import AutoConfig, AutoTokenizer
from optimum.intel.openvino import OVModelForCausalLM


# 初始化OpenVINO Core對象
core = ov.Core()
ov_config = {"PERFORMANCE_HINT": "LATENCY", "NUM_STREAMS": "1", "CACHE_DIR": ""}
model_dir = "d:\llama3_int4_ov_model" #llama3 int4模型路徑
DEVICE = "CPU" #可更換為"GPU", "AUTO"...
# 編譯并載入Llama3模型到DEVICE
ov_model = OVModelForCausalLM.from_pretrained(
  model_dir,
  device=DEVICE,
  ov_config=ov_config,
  config=AutoConfig.from_pretrained(model_dir, trust_remote_code=True),
  trust_remote_code=True,
)
# 載入Llama3模型的Tokenizer
tok = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
# 設置問題
question = "What's the OpenVINO?" 
# 將自然語言轉換為Token序列
input_tokens = tok(question, return_tensors="pt", **{})
# 生成答案的Token序列
answer = ov_model.generate(**input_tokens, max_new_tokens=128)
# 將答案Token序列解碼為自然語言并顯示
print(tok.batch_decode(answer, skip_special_tokens=True)[0])

運行llama3_int4_ov_infer.py:

python llama3_int4_ov_infer.py

運行結果,如下所示:

b41a8794-0dfd-11ef-a297-92fbcf53809c.png

03

構建圖形化的Llama3 demo

請先安裝依賴軟件包:

pip install gradio mdtex2html streamlit -i https://mirrors.aliyun.com/pypi/simple/

下載范例程序:

然后運行:

python llama3_webui.py

運行結果如下:

b5465e9a-0dfd-11ef-a297-92fbcf53809c.png

b574c000-0dfd-11ef-a297-92fbcf53809c.jpg

04

總結

Optimum Intel工具包簡單易用,僅需三步即可完成開發環境搭建、LLama模型INT4量化和推理程序開發?;贠ptimum Intel工具包開發Llama3推理程序僅需調用六個API函數,方便快捷的實現將Llama3本地化部署在基于英特爾處理器的算力魔方上。



審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19406

    瀏覽量

    231160
  • python
    +關注

    關注

    56

    文章

    4807

    瀏覽量

    85035
  • LLM
    LLM
    +關注

    關注

    0

    文章

    299

    瀏覽量

    398
  • OpenVINO
    +關注

    關注

    0

    文章

    95

    瀏覽量

    225
  • AI大模型
    +關注

    關注

    0

    文章

    320

    瀏覽量

    349

原文標題:Optimum Intel三步完成Llama3在算力魔方的本地量化和部署 | 開發者實戰

文章出處:【微信號:英特爾物聯網,微信公眾號:英特爾物聯網】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    能RADXA微服務器試用體驗】+ GPT語音與視覺交互:1,LLM部署

    。環境變量的配置,未來具體項目中我們會再次提到。 下面我們正式開始項目。項目從輸入到輸出分別涉及了語音識別,圖像識別,LLM,TTS這幾個與AI相關的模塊。先從最核心的LLM開始。 由于LLAMA3
    發表于 06-25 15:02

    菱FX3U接入MQTT平臺的三步

    菱FX3U接入MQTT平臺的三步第一:PLC網關通過串口采集菱FX3U的數據 第二
    發表于 11-11 16:01 ?1179次閱讀
    <b class='flag-5'>三</b>菱FX<b class='flag-5'>3</b>U接入MQTT平臺的<b class='flag-5'>三步</b>

    使用OpenVINO?魔方上加速stable diffusion模型

    魔方一款可以DIY的迷你主機,采用了抽屜式設計,后續組裝、升級、維護只需要拔插模塊。通過選擇計算模塊的版本,再搭配不同額IO模塊可以組成豐富的配置,適應不同場景。
    的頭像 發表于 05-25 14:34 ?767次閱讀
    使用OpenVINO?<b class='flag-5'>在</b><b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>魔方</b>上加速stable diffusion模型

    如何本地部署大模型

    近期,openEuler A-Tune SIGopenEuler 23.09版本引入llama.cpp&chatglm-cpp兩款應用,以支持用戶本地
    的頭像 發表于 10-18 11:48 ?2679次閱讀
    如何<b class='flag-5'>本地</b><b class='flag-5'>部署</b>大模型

    Llama 3 王者歸來,Airbox 率先支持部署

    前天,智領域迎來一則令人振奮的消息:Meta正式發布了備受期待的開源大模型——Llama3。Llama3的卓越性能Meta表示,Llama3
    的頭像 發表于 04-22 08:33 ?716次閱讀
    <b class='flag-5'>Llama</b> <b class='flag-5'>3</b> 王者歸來,Airbox 率先支持<b class='flag-5'>部署</b>

    使用OpenVINO?在你的本地設備上離線運行Llama3之快手指南

    人工智能領域,大型語言模型(LLMs)的發展速度令人震驚。2024年4月18日,Meta正式開源了LLama系列的新一代大模型Llama3,在這一領域中樹立了新的里程碑。
    的頭像 發表于 04-26 09:42 ?911次閱讀
    使用OpenVINO?在你的<b class='flag-5'>本地</b>設備上離線運行<b class='flag-5'>Llama3</b>之快手指南

    【AIBOX上手指南】快速部署Llama3

    Firefly開源團隊推出了Llama3部署包,提供簡易且完善的部署教程,過程無需聯網,簡單快捷完成本地部署。點擊觀看
    的頭像 發表于 06-06 08:02 ?791次閱讀
    【AIBOX上手指南】快速<b class='flag-5'>部署</b><b class='flag-5'>Llama3</b>

    源2.0-M32大模型發布量化版 運行顯存僅需23GB 性能可媲美LLaMA3

    北京2024年8月23日?/美通社/ -- 近日,浪潮信息發布源2.0-M32大模型4bit和8bit量化版,性能比肩700億參數的LLaMA3開源大模型。4bit量化版推理運行顯存僅需
    的頭像 發表于 08-25 22:06 ?371次閱讀
    源2.0-M32大模型發布<b class='flag-5'>量化</b>版 運行顯存僅需23GB 性能可媲美<b class='flag-5'>LLaMA3</b>

    使用OpenVINO 2024.4魔方部署Llama-3.2-1B-Instruct模型

    前面我們分享了《三步完成Llama3魔方
    的頭像 發表于 10-12 09:39 ?704次閱讀
    使用OpenVINO 2024.4<b class='flag-5'>在</b><b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>魔方</b>上<b class='flag-5'>部署</b><b class='flag-5'>Llama</b>-3.2-1B-Instruct模型

    Meta發布Llama 3.2量化版模型

    近日,Meta開源Llama 3.2的1B與3B模型后,再次為人工智能領域帶來了新進展。10月24日,Meta正式推出了這兩個模型的量化版本,旨在進一
    的頭像 發表于 10-29 11:05 ?468次閱讀

    從零開始訓練一個大語言模型需要投資多少錢?

    關于訓練技巧和模型評估的文章,但很少有直接告訴你如何估算訓練時間和成本的。前面分享了一些關于大模型/本地知識庫的安裝部署方法,無需編寫代碼,即可使用 Ollama+AnythingLLM搭建企業私有知識庫 ,或者, 三步
    的頭像 發表于 11-08 14:15 ?323次閱讀
    從零開始訓練一個大語言模型需要投資多少錢?

    用Ollama輕松搞定Llama 3.2 Vision模型本地部署

    Ollama 是一個開源的大語言模型服務工具,它的核心目的是簡化大語言模型(LLMs)的本地部署和運行過程,請參考《Gemma 2+Ollama
    的頭像 發表于 11-23 17:22 ?1618次閱讀
    用Ollama輕松搞定<b class='flag-5'>Llama</b> 3.2 Vision模型<b class='flag-5'>本地</b><b class='flag-5'>部署</b>

    魔方本地部署Phi-4模型

    ?作者:魔方創始人/英特爾邊緣計算創新大使 劉 前面我們分享了《Meta重磅發布Llama 3.3 70B:開源AI模型的新里程碑》,
    的頭像 發表于 01-15 11:05 ?98次閱讀
    <b class='flag-5'>在</b><b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>魔方</b>上<b class='flag-5'>本地</b><b class='flag-5'>部署</b>Phi-4模型

    如何在邊緣端獲得GPT4-V的能力:魔方+MiniCPM-V 2.6

    作者:魔方創始人/英特爾邊緣計算創新大使 劉 前面我們分享了《
    的頭像 發表于 01-20 13:40 ?132次閱讀
    如何在邊緣端獲得GPT4-V的能力:<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>魔方</b>+MiniCPM-V 2.6

    趕緊本地運行與OpenAI-o1能力近似的DeepSeek-R1模型

    ?作者:魔方創始人/英特爾邊緣計算創新大使 劉 前面我們分享了《
    的頭像 發表于 01-21 14:29 ?2664次閱讀
    趕緊<b class='flag-5'>在</b><b class='flag-5'>本地</b>運行與OpenAI-o1能力近似的DeepSeek-R1模型
    杰克百家乐玩法| 百家乐技巧打| 世界各国赌场美女| 百家乐买闲打法| 迪威百家乐官网赌场娱乐网规则 | 威尼斯人娱乐城官网| 玩百家乐官网掉房| 当阳市| 大发888真人网站| 百家乐园云顶娱乐主页| 易球百家乐官网娱乐城| 阿拉善右旗| 德州扑克 术语| 传奇百家乐的玩法技巧和规则| 百家乐游戏出售| 百家乐椅子| 金锁玉关24山砂水断| 百家乐官网怎么发牌| 百家乐官网博彩安全吗| 折式百家乐官网赌台| 大赢家足球即时比分| 大发888老虎机手机版| 全讯网.com| 百家乐平六亿财富网| 百家乐8点| 如何看百家乐的路纸| 线上百家乐官网怎么玩| 罗浮宫百家乐官网的玩法技巧和规则| 百家乐官网路有几家| 百家乐官网轮盘| 太阳城百家乐官网网址--| 真人百家乐官网好不好玩| 皇冠足球| 托克逊县| 百家乐官网几点开奖| 百家乐官网注码调整| 百家乐官网路单破解器| 霞浦县| 百家乐官网游戏必赢法| 百家乐官网的庄闲概率| 真人百家乐官网轮盘|