澳门博彩赔率特点,贯通棋牌世界,福建棋牌游戏大厅(中国)·官方网站

Llama3簡介

Llama3 是Meta最新發布的開源大語言模型(LLM), 當前已開源8B和70B參數量的預訓練模型權重，并支持指令微調。詳情參見：

https://ai.meta.com/blog/meta-llama-3/

Llama3性能優異，8B和70B參數模型的性能在chatbot-arena-leaderboard中皆進入前十；LLama-3-70b-Instruct僅次于閉源的GPT-4系列模型。

排行榜鏈接：

https://chat.lmsys.org/?leaderboard

魔搭社區已提供Llama3 8B和70B模型的預訓練權重下載，實測下載速度平均34MB/s。

請讀者用下面的命令把Meta-Llama-3-8B模型的預訓練權重下載到本地待用。

git clone https://www.modelscope.cn/LLM-Research/Meta-Llama-3-8B.git
git clone https://www.modelscope.cn/LLM-Research/Meta-Llama-3-70B.git

算力魔方是一款可以DIY的迷你主機，采用了抽屜式設計，后續組裝、升級、維護只需要拔插模塊。通過選擇不同算力的計算模塊，再搭配不同的 IO 模塊可以組成豐富的配置，適應不同場景。

性能不夠時，可以升級計算模塊提升算力；IO 接口不匹配時，可以更換 IO 模塊調整功能，而無需重構整個系統。

本文以下所有步驟將在帶有英特爾i7-1265U處理器的算力魔方上完成驗證。

三步完成Llama3的INT4量化和本地部署

把Meta-Llama-3-8B模型的預訓練權重下載到本地后，接下來本文將依次介紹基于Optimum Intel工具將Llama進行INT4量化，并完成本地部署。

Optimum Intel作為Transformers和Diffusers庫與Intel提供的各種優化工具之間的接口層，它給開發者提供了一種簡便的使用方式，讓這兩個庫能夠利用Intel針對硬件優化的技術，例如：OpenVINO、IPEX等，加速基于Transformer或Diffusion構架的AI大模型在英特爾硬件上的推理計算性能。

Optimum Intel代碼倉連接：

https://github.com/huggingface/optimum-intel。

第一步，搭建開發環境

請下載并安裝Anaconda，然后用下面的命令創建并激活名為optimum_intel的虛擬環境：

conda create -n optimum_intel python=3.11 #創建虛擬環境
conda activate optimum_intel        #激活虛擬環境
python -m pip install --upgrade pip     #升級pip到最新版本

由于Optimum Intel代碼迭代速度很快，請用從源代碼安裝的方式，安裝Optimum Intel和其依賴項openvino與nncf。

python -m pip install "optimum-intel[openvino,nncf]"@git+https://github.com/huggingface/optimum-intel.git

第二步，用optimum-cli對Llama3模型進行INT4量化

optimum-cli是Optimum Intel自帶的跨平臺命令行工具，可以不用編寫量化代碼，實現對Llama3模型的量化。

執行命令將Llama3-8B模型量化為INT4 OpenVINO格式模型：

optimum-cli export openvino --model D:llama3Meta-Llama-3-8B --task text-generation-with-past --weight-format int4 --group-size 128 --ratio 0.8 --sym llama3_int4_ov_model

第三步：編寫推理程序llama3_int4_ov_infer.py

基于Optimum Intel工具包的API函數編寫Llama3的推理程序，非常簡單，只需要調用六個API函數：

初始化OpenVINO Core對象：ov.Core()

編譯并載入Llama3模型到指定DEVICE：OVModelForCausalLM.from_pretrained()

實例化Llama3模型的Tokenizer：tok=AutoTokenizer.from_pretrained()

將自然語言轉換為Token序列：tok(question, return_tensors="pt", **{})

生成答案的Token序列：ov_model.generate()

將答案Token序列解碼為自然語言：tok.batch_decode()

完整范例程序如下所示，下載鏈接：

import openvino as ov
from transformers import AutoConfig, AutoTokenizer
from optimum.intel.openvino import OVModelForCausalLM


# 初始化OpenVINO Core對象
core = ov.Core()
ov_config = {"PERFORMANCE_HINT": "LATENCY", "NUM_STREAMS": "1", "CACHE_DIR": ""}
model_dir = "d:\llama3_int4_ov_model" #llama3 int4模型路徑
DEVICE = "CPU" #可更換為"GPU", "AUTO"...
# 編譯并載入Llama3模型到DEVICE
ov_model = OVModelForCausalLM.from_pretrained(
  model_dir,
  device=DEVICE,
  ov_config=ov_config,
  config=AutoConfig.from_pretrained(model_dir, trust_remote_code=True),
  trust_remote_code=True,
)
# 載入Llama3模型的Tokenizer
tok = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
# 設置問題
question = "What's the OpenVINO?" 
# 將自然語言轉換為Token序列
input_tokens = tok(question, return_tensors="pt", **{})
# 生成答案的Token序列
answer = ov_model.generate(**input_tokens, max_new_tokens=128)
# 將答案Token序列解碼為自然語言并顯示
print(tok.batch_decode(answer, skip_special_tokens=True)[0])

運行llama3_int4_ov_infer.py：

python llama3_int4_ov_infer.py

運行結果，如下所示：

構建圖形化的Llama3 demo

請先安裝依賴軟件包：

pip install gradio mdtex2html streamlit -i https://mirrors.aliyun.com/pypi/simple/

下載范例程序：

然后運行：

python llama3_webui.py

運行結果如下：

總結

Optimum Intel工具包簡單易用，僅需三步即可完成開發環境搭建、LLama模型INT4量化和推理程序開發?；贠ptimum Intel工具包開發Llama3推理程序僅需調用六個API函數，方便快捷的實現將Llama3本地化部署在基于英特爾處理器的算力魔方上。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

處理器

處理器

+關注

關注
68

文章
19406

瀏覽量
231160
python

python

+關注

關注
56

文章
4807

瀏覽量
85035
LLM

LLM

+關注

關注
0

文章
299

瀏覽量
398
OpenVINO

OpenVINO

+關注

關注
0

文章
95

瀏覽量
225
AI大模型

AI大模型

+關注

關注
0

文章
320

瀏覽量
349

原文標題：Optimum Intel三步完成Llama3在算力魔方的本地量化和部署 | 開發者實戰

文章出處：【微信號：英特爾物聯網，微信公眾號：英特爾物聯網】歡迎添加關注！文章轉載請注明出處。

【算能RADXA微服務器試用體驗】+ GPT語音與視覺交互：1，LLM部署

。環境變量的配置，未來在具體項目中我們會再次提到。下面我們正式開始項目。項目從輸入到輸出分別涉及了語音識別，圖像識別，LLM，TTS這幾個與AI相關的模塊。先從最核心的LLM開始。由于LLAMA3

發表于 06-25 15:02

三菱FX3U接入MQTT平臺的三步

三菱FX3U接入MQTT平臺的三步第一步：PLC網關通過串口采集三菱FX3U的數據第二

發表于 11-11 16:01 ?1179次閱讀

<b class='flag-5'>三</b>菱FX<b class='flag-5'>3</b>U接入MQTT平臺的<b class='flag-5'>三步</b>

使用OpenVINO?在算力魔方上加速stable diffusion模型

算力魔方一款可以DIY的迷你主機，采用了抽屜式設計，后續組裝、升級、維護只需要拔插模塊。通過選擇計算模塊的版本，再搭配不同額IO模塊可以組成豐富的配置，適應不同場景。

發表于 05-25 14:34 ?767次閱讀

使用OpenVINO?<b class='flag-5'>在</b><b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>魔方</b>上加速stable diffusion模型

如何本地部署大模型

近期，openEuler A-Tune SIG在openEuler 23.09版本引入llama.cpp&chatglm-cpp兩款應用，以支持用戶在本地

發表于 10-18 11:48 ?2679次閱讀

如何<b class='flag-5'>本地</b><b class='flag-5'>部署</b>大模型

Llama 3 王者歸來，Airbox 率先支持部署

前天，智算領域迎來一則令人振奮的消息：Meta正式發布了備受期待的開源大模型——Llama3。Llama3的卓越性能Meta表示，Llama3在

發表于 04-22 08:33 ?716次閱讀

使用OpenVINO?在你的本地設備上離線運行Llama3之快手指南

在人工智能領域，大型語言模型（LLMs）的發展速度令人震驚。2024年4月18日，Meta正式開源了LLama系列的新一代大模型Llama3，在這一領域中樹立了新的里程碑。

發表于 04-26 09:42 ?911次閱讀

【AIBOX上手指南】快速部署Llama3

Firefly開源團隊推出了Llama3部署包，提供簡易且完善的部署教程，過程無需聯網，簡單快捷完成本地化部署。點擊觀看

發表于 06-06 08:02 ?791次閱讀

源2.0-M32大模型發布量化版運行顯存僅需23GB 性能可媲美LLaMA3

北京2024年8月23日?/美通社/ -- 近日，浪潮信息發布源2.0-M32大模型4bit和8bit量化版，性能比肩700億參數的LLaMA3開源大模型。4bit量化版推理運行顯存僅需

發表于 08-25 22:06 ?371次閱讀

使用OpenVINO 2024.4在算力魔方上部署Llama-3.2-1B-Instruct模型

前面我們分享了《三步完成Llama3在算力魔方的

發表于 10-12 09:39 ?704次閱讀

Meta發布Llama 3.2量化版模型

近日，Meta在開源Llama 3.2的1B與3B模型后，再次為人工智能領域帶來了新進展。10月24日，Meta正式推出了這兩個模型的量化版本，旨在進一

發表于 10-29 11:05 ?468次閱讀

從零開始訓練一個大語言模型需要投資多少錢？

關于訓練技巧和模型評估的文章，但很少有直接告訴你如何估算訓練時間和成本的。前面分享了一些關于大模型/本地知識庫的安裝部署方法，無需編寫代碼，即可使用 Ollama+AnythingLLM搭建企業私有知識庫，或者，三步

發表于 11-08 14:15 ?323次閱讀

用Ollama輕松搞定Llama 3.2 Vision模型本地部署

Ollama 是一個開源的大語言模型服務工具，它的核心目的是簡化大語言模型（LLMs）的本地部署和運行過程，請參考《Gemma 2+Ollama在算

發表于 11-23 17:22 ?1618次閱讀

在算力魔方上本地部署Phi-4模型

?作者：算力魔方創始人/英特爾邊緣計算創新大使劉力前面我們分享了《Meta重磅發布Llama 3.3 70B：開源AI模型的新里程碑》，

發表于 01-15 11:05 ?98次閱讀

如何在邊緣端獲得GPT4-V的能力：算力魔方+MiniCPM-V 2.6

作者：算力魔方創始人/英特爾邊緣計算創新大使劉力前面我們分享了《在算

發表于 01-20 13:40 ?132次閱讀

趕緊在本地運行與OpenAI-o1能力近似的DeepSeek-R1模型

?作者：算力魔方創始人/英特爾邊緣計算創新大使劉力前面我們分享了《在算

發表于 01-21 14:29 ?2664次閱讀