GPT-3難以復現，為什么說PyTorch走上了一條“大彎路”？

2020 年，最轟動的 AI 新聞莫過于 OpenAI 發布的 GPT-3 了。它的1750億參數量及其在眾多NLP任務上超過人類的出眾表現讓人們開始堅信：大模型才是未來。但與之帶來的問題是，訓練超大模型所需的算力、存儲已不再是單機就能搞定。

據 NVIDIA 估算，如果要訓練GPT-3 ，即使單個機器的顯存/內存能裝得下，用 8 張 V100 的顯卡，訓練時長預計要 36 年；即使用 512 張 V100 ，訓練也需要將近 7 個月；如果擁有 1024 張 80GB A100，那么完整訓練 GPT-3 的時長可以縮減到 1 個月。

除去硬件資源這個經濟問題，在技術層面，意味著訓練大模型一定是一個分布式問題。因為算力需求還是一個相對容易解決的問題，畢竟擁有大集群的組織并不只 OpenAI 一家，而如何解決上千塊 GPU 的分布式訓練問題才是關鍵。

根據目前業界已有的分布式訓練方案，即便你是一位非常優秀的數據科學家，知曉并能解決 Transformer 相關的所有算法問題，但如果你不知道如何解決分布式訓練時上百臺服務器之間的通信、拓撲、模型并行、流水并行等問題，你甚至都無法啟動這次訓練。一定程度上，這解釋了GPT-3發布時隔一年，卻只有 NVIDIA 、微軟等大企業可以復現 GPT-3 。

目前，開源的 GPT 模型庫主要是 NVIDIA開發的 Megatron-LM 和經過微軟深度定制開發的 DeepSpeed，其中，DeepSpeed 的模型并行等內核取自 Megatron，它們都是專門為支持 PyTorch 分布式訓練 GPT 而設計。

不過在實際訓練中，PyTorch 、 Megatron、DeepSpeed 都走了一條非常長的彎路。不僅是彎路，你會發現 Megatron 的代碼只能被 NVIDIA 的分布式訓練專家所復用，它對于 PyTorch 的算法工程師而言門檻極高，以至于任何想要用 PyTorch 復現一個分布式大模型的算法工程師，都得先等 NVIDIA 開發完才能再使用 Megatron 提供的模型。

作為新一代深度學習開源框架，致力于“大模型分布式”高效開發的 OneFlow 框架用一套通用設計非常簡單清晰地解決了GPT模型的分布式訓練難題，同時還在已有的測試規模上性能超過 NVIDIA 的 Megatron，這為大規模分布式訓練框架提出了更優的設計理念和路徑。

一、PyTorch 分布式訓練GPT的痛點是什么？

此前，NVIDIA 放出了一篇重量級的論文：Efficient Large-Scale Language Model Training on GPU Clusters ，用 3072 張 80 GB A100 訓練 GPT，最大規模的模型參數量達到了 1T，這是 GPT-3 原版規模的 5 倍。

NVIDIA 訓練 GPT-3 最大到 1T 參數規模

論文里，NVIDIA 介紹了分布式訓練超大規模模型的三種必須的并行技術：

· 數據并行（Data Parallelism）

· 模型并行（Tensor Model Parallelism）

· 流水并行（Pipeline Model Parallelism）

其中，數據并行是最常見的并行方式。而模型并行是對某一層（如 Linear/Dense Layer 里的 Variable ）的模型 Tensor 切分，從而將大的模型 Tensor 分成多個相對較小的 Tensor 進行并行計算；流水并行，是將整個網絡分段（stage），不同段在不同的設備上，前后階段流水分批工作，通過一種“接力”的方式并行。

對于 1T 規模的模型，NVIDIA 一共使用了 384 臺 DGX-A100 機器（每臺裝有 8 張 80GB A100 GPU），機器內部各 GPU 間使用超高速 NVLink 和 NVSwitch 互聯，每臺機器裝有 8 個 200Gbps 的 InfiniBand （IB）網卡，可以說是硬件集群頂配中的頂配。

那么，這些機器是如何協同工作的？GPT 網絡是由很多層 Transformer Layer 組成，每一層內部是一個由多層 MLP 和 attention 機制組成的子圖，對于參數規模 1T 的 GPT 而言就有 128 層的 Transformer Layer，這個超大超深的網絡被分割成了 64 個 stage （階段），每個 stage 跑在 6 臺 DGX-A100 上，其中 6 臺機器之間進行數據并行，每臺機器內部的 8 張卡之間做模型并行，整個集群的 3072 張 A100 按照機器拓撲被劃分成了［6 x 8 x 64］的矩陣，同時使用數據并行 & 模型并行 & 流水并行進行訓練。

3072 張 A100 集群拓撲

GPipe、梯度累加、重計算（Checkpointing）和 1F1B（One Forward pass followed by One Backward pass）是分布式訓練 GPT 的流水并行的核心技術。無論是 NVIDIA 的Megatron（PyTorch），還是 OneFlow、PaddlePaddle、MindSpore ，都是通過不同的設計實現了上述相同的功能。

基于 PyTorch 開發的 Megatron，本質上是一個專用于 GPT 的模型庫，所有的代碼都是 Python 腳本，NVIDIA 為 GPT 專門定制了分布式訓練所需的算子、流水并行調度器、模型并行所需的通信原語等功能，在 GPU 上的性能表現上，Megatron已經非常優異。可以說，NVIDIA 在使用 PyTorch 做分布式訓練上已經做到極致了。

但是，用 PyTorch 做分布式訓練，真的好用嗎？

具體來說，從PyTorch 在分布式并行上的設計以及開放給用戶的接口來看，PyTorch 分布式的有以下困境：

· PyTorch 只有物理視角（Physical View），沒有邏輯視角（Logical View）。PyTorch 的用戶想要做分布式并行，任何時候都需要自己推導深度學習模型中哪處需要跟其他的物理設備進行通信和數據同步操作，既要推導通信所在的位置，又要推導通信的操作類型，還要推導跟其他哪些設備通信。這個在簡單的數據并行下可以使用 DDP 或 Horovod 來實現，但是在復雜的模型并行、混合并行下，做并行的門檻非常高。

NVIDIA 模型并行通信推導

· PyTorch 沒有將模型網絡的算法邏輯和分布式并行訓練的通信邏輯解耦出來，導致用戶需要在算子的 kernel 實現中，搭網絡的腳本里到處插入通信原語。這些手寫通信原語的操作不僅繁瑣、易錯、而且沒法復用，是根據特定模型、特定腳本位置、特定算子特判得到的。

· PyTorch 在非對稱的并行方式里（如流水并行，PyTorch 需要人工排線和精細控制流水），各個設備的調度邏輯需要用戶自己手寫。用戶需要自己精細的控制每個設備上的啟動以及執行邏輯，且執行邏輯把前后向執行和send/recv通信操作糅合在一起，即使在最規整的 Transformer Layer 的流水并行下也很復雜，想要擴展到其他模型上的工作量也很大。

模型并行度和流水并行度對性能的影響

· PyTorch 沒有機制保證分布式并行訓練中的正確性和數學一致性。即使用戶寫錯了通信操作，插錯了位置，跟錯誤的設備進行通信，PyTorch也檢查不出來。

上述困境使得普通算法工程師使用 PyTorch 開發復雜分布式訓練的腳本極為困難。其實，NVIDIA、微軟、 PyTorch 都被繞進了一個大坑：在沒有一致性視角（ Consistent View ）的情況下做復雜的分布式并行非常困難，往往只能做一些具體網絡、具體場景、具體算子的特判和分析，通過簡單的通信原語來實現分布式。

那么，OneFlow如何解決這些困境？

二、OneFlow 用一致性視角輕松填平分布式訓練難的鴻溝

對于分布式集群環境（多機多卡訓練場景），OneFlow 會把整個分布式集群抽象成一個超級設備，用戶只需要在這個超級設備上搭建深度學習模型即可。這個虛擬出來的超級設備稱之為邏輯視角，而實際上的分布式集群的多機多卡就是物理視角，OneFlow維護邏輯視角和物理視角之間的數學上的正確性就稱之為一致性視角。

基于分布式訓練難的鴻溝，OneFlow通過一致性視角下的 Placement（流水并行） + SBP （數據和模型的混合并行），非常簡單的實現了通用的復雜并行支持。當然，這離不開 OneFlow 的兩大獨特設計：

1. 運行時 Actor 機制

2. 編譯期一致性視角，通過 Placement + SBP + Boxing 解決分布式易用性的問題。

一致性視角（Consistent View）抽象

理想情況下，抽象出來的超級設備（邏輯視角）的算力是所有物理視角下的設備算力之和（如果算力完全用滿，就是線性加速比）；邏輯視角下的顯存資源也是所有物理設備的顯存資源之和。

總體而言，基于一致性視角的 OneFlow 分布式有以下易用性體現：

· OneFlow 的一致性視角將分布式訓練下的多機通信和算法邏輯解耦，使得用戶可以不用關心分布式訓練的細節，降低了分布式訓練的使用門檻。

· 相比其他框架和高級定制用戶在所有分布式并行上的努力，OneFlow 通過 Placement + SBP 機制解決了分布式訓練中任意并行場景的需求。用戶只需要配置 op 的 Placement 就可以完成流水并行，只需要配置 Tensor 的 SBP 就可以實現數據并行、模型并行和混合并行。并且，任何并行方式都是 Placement + SBP 的一種特例， OneFlow 從系統層面不需要做任何的特判，SBP 才是各種分布式并行的本質。

上圖展示了一個 Placement 例子，用于 GPU0 和 GPU1 之間的流水并行。圖中負責在 CPU 和 GPU、GPU 與 GPU 之間進行數據搬運的Op（CopyH2D、CopyD2D）是 OneFlow 系統自動添加的。

· OneFlow 的通信邏輯可以復用，不需要為任何特定網絡和特定算子實現相應的通信邏輯。通信邏輯由 OneFlow 的 Boxing 機制完成，與具體的算子和模型無關。

· OneFlow 的 SBP 還保證了數學上的一致性。相同的邏輯上的模型腳本，使用任意的并行方式（數據并行、模型并行、流水并行）、使用任意的集群拓撲，OneFlow 都從數學上保證了模型分布式訓練的正確性。

SBP 邏輯與物理 Tensor 的對應關系（SBP 描述了邏輯上的 Tensor 和物理上的 Tensor 的映射關系。SBP 全稱叫做 SbpParallel，是三種基礎映射的首字母組合：Split、Broadcast、Partial，其中 Partial 是一個 reduce 操作，包括 PartialSum、PartialMin、PartialMax等）

采用這樣一套簡潔設計可解決分布式并行的各種難題，OneFlow 使得每一位算法工程師都有能力訓練 GPT模型。它讓你不需要成為一位分布式訓練的專家也有能力做復雜的分布式訓練，只要有硬件資源，任何一位算法工程師都可以訓練 GPT，都可以開發一個新的大規模分布式訓練的模型。

三、為什么分布式深度學習框架要像 OneFlow 這樣設計？

上述內容從用戶角度分析和比較了 OneFlow 和 PyTorch（Megatron）的分布式易用性，

那么從框架設計和開發者的角度，它又是如何具體實現分布式并行的？為什么說 OneFlow 會是分布式訓練更為本質的設計？

1. OneFlow 如何實現流水并行？

OneFlow 的運行時 Actor 機制有以下幾個特點：

· 天然支持流水線， Actor 通過內部的狀態機和產出的 Regst 個數以及上下游的 Regst 消息機制解決了流控問題（Control Flow）。

Actor 狀態機

· Actor 組成的計算圖運行時調度是去中心化的，每個 Actor 當前是否可以執行都僅與自己的狀態、空閑 Regst 數量以及收到的消息有關。

所以使用 Actor 做流水并行，本身就不需要自己定制復雜的調度邏輯。以數據加載的 Pipeline 為例，當一個由 Actor 組成的數據預處理流程如下圖所示：

數據預處理流程

當這4個Actor之間的 RegstNum 均為2時，如果訓練時間比較長（訓練是整個網絡的瓶頸），就會得到如下這種流水線的時間線：

數據預處理 pipeline 時間線

在執行幾個 Batch 之后， 4 個階段的執行節奏完全被最長的那個階段所控制，這就是 OneFlow 使用背壓機制（Back Pressure）解決流控問題。

所以流水并行問題，在 OneFlow 中就是 Regst 數量的問題。在實際實現中， OneFlow 采用了一個更通用的算法實現了 Megatron 的流水并行：插入 Buffer Op。在邏輯計算圖上，會給后向消費前向的邊插入一個 Buffer Op， Buffer 的 Regst 數量和 Stage 相關。由于后向對前向的消費經過 Checkpointing 優化后，每個 Placement Group 下只會有非常少的幾條消費邊。

OneFlow 通過插入 Buffer Op 實現流水并行

與 Megatron 復雜的手寫調度器和手寫通信原語相比， OneFlow 系統層面只需要插入 Buffer 就可以實現流水并行。

2. OneFlow 如何實現數據+模型的混合并行？

以 Linear Layer 的數據 + 模型并行為例，來解釋所有的數據并行和模型并行的組合，本質上都是被 SBP 所描述的 Signature。任何并行方式的設備間通信操作，該在整個網絡的哪里插入、該插入什么通信操作、每個設備該和誰通信，完全都是 SBP 自動推導得到的，而且還保證數學上的一致性。

可以說，OneFlow的設計使得算法工程師告別了分布式并行中的通信原語。不僅如此，OneFlow 的框架開發者絕大多數時候也不需要關心分布式里的通信原語，SBP 這層抽象使得算子/網絡跟分布式通信解耦。

以 1-D SBP 為例，1-D SBP 下的數據并行，對于一個 Linear Layer 而言，主要是其中的 MatMul（矩陣乘法）計算。假設矩陣乘法計算在邏輯視角上是一個（m， k） x （k， n） = （m， n）的計算，m 表示一共有多少個樣例， k 和 n 分別是 Linear Layer 中的隱藏層神經元數量以及輸出神經元數量。

數據并行的邏輯計算圖 -》物理計算圖的映射關系如下圖所示：

數據并行下邏輯計算圖轉物理計算圖

數據并行下，每個設備上都有全部的模型（Tensor b， Shape = （k， n）），假設共有兩張卡，則 GPU0 上有前一半的數據（Tensor a，Shape = （m/2， k）），GPU1 上有后一半的數據，則Tensor a 的 SBP Parallel = Split（0）。同時可以看到矩陣乘的輸出 Tensor out，也是按照第 0 維切分的。

模型并行對于 Linear Layer 而言，有兩種，分別是切模型 Tensor 的第0維（行切分，對應 Megatron 里的 RowParallelLinear）和第1維（列切分，對應 Megatron 里的 ColumnParallelLinear）。

第一種行切分（RowParallelLinear）模型并行的邏輯計算圖 -》物理計算圖的映射關系如下圖所示：

模型并行（行切分）邏輯圖轉物理圖

模型并行下，每個設備都只有一部分的模型，在這個例子中， GPU 0 上有前一半的模型， GPU 1上有后一半的模型，每個設備上的模型大小 Tensor b 的 Shape = （k/2， n）。在這種情況下，每個設備輸出的 Tensor out 都是完整的數據大小， Shape = （m， n），但每個位置上的元素的值，都是邏輯上的輸出 out 對應位置的值的一部分，即 out 的 SBP Parallel = PartialSum 。

第二種列切分（ColumnParallelLinear）模型并行的邏輯計算圖 -》物理計算圖的映射關系如下圖所示：

模型并行（列切分）邏輯圖轉物理圖

這個例子中，模型 Tensor b 是按照 Split（1）切分的，輸出 Tensor out 也是按照 Split（1）切分的，每個設備都需要全部的數據。

在 GPT 網絡中，實際上的模型并行是組合使用 RowParallelLinear 和 ColumnParallelLinear 實現的（ColumnParallelLinear 后面接了 RowParallelLinear）。

因為 Column 的輸出 Tensor SBP 是 Split（1）， Row 的輸入數據 Tensor SBP 也是 Split（1），所以當 Column 后接 Row 時，兩者之間是不需要插入任何通信的。但由于 Row 的輸出是 PartialSum，當后面消費該 Tensor （在網絡中是 Add 操作）的 Op 需要全部的數據時（Broadcast），此處就需要插入 AllReduce 實現通信了。

這在 OneFlow 中稱之為 Boxing。當兩個邏輯上的 Op 對于同一個邏輯上的 Tensor 看待的 SBP Parallel 不一致時， OneFlow 系統會自動插入通信節點以完成數據的切分/傳輸/拼接等操作，使得下游 Op 總能拿到按照自己期望 SBP 切分的 Tensor。

Boxing：通過 AllGather 實現 Split（1）轉 Broadcast

在 OneFlow 中，所有的分布式通信操作都是基于 SBP 的推導結果，按照需要插入。OneFlow 通過 Boxing 機制，就實現了任意的數據并行和模型并行。

2-D SBP 其實就是將兩組 1-D SBP 按照設備拓撲的維度拼起來就可以得到。其實 GPT 中用到的 2-D SBP 只是最簡單情形的特例，分布式下的并行經過 2-D SBP 可以拓展出非常多復雜、靈活多邊的組合出來。而針對復雜的組合，再想用 Megatron 的設計就非常難做，但對于 OneFlow 而言，二者的難度是一樣的，因為本質上是用 Boxing 完成一組 2-D SBP 的變換。

四、GPT 分布式訓練性能對比：OneFlow vs Megatron

與 Megatron 相比，OneFlow 除了在用戶接口（分布式易用性）和框架設計上更簡潔、更易用，在 4 機 32卡 16GB V100 的測試規模上性能也超過 Megatron。值得一提的是，經過 NVIDIA 的深度優化， Megatron 在 GPU 上的分布式訓練性能已經接近極致，DeepSpeed 也無法與之相比。

以下的所有實驗數據均在相同的硬件環境、相同的第三方依賴（CUDA、 cuDNN等）、使用相同的參數和網絡結構下，對比了 OneFlow 和 Megatron 在 GPT 模型下的性能表現。所有的性能結果均公開且可復現。（GPT 模型腳本在Oneflow-Inc/OneFlow-Benchmark 倉庫，公開的評測報告、復現方式稍后在Oneflow-Inc/DLPerf 倉庫中可查看。）

數據并行性能對比

注：每組參數的縮略版含義：

· DP 數據并行；MP 模型并行；2D 數據 & 模型的混合并行；PP 流水并行

· dxmxp_B_hxl 其中：

· d = 數據并行度（data-parallel-size）

· m = 模型并行度（tensor-model-parallel-size）

· p = 流水并行度（pipeline-model-parallel-size）

· B = 總的BatchSize（global-batch-size）

· h = 隱藏層大小（hidden-size）影響每層 Transformer Layer 的模型大小

· l = Transformer Layer 層數（num-layers）

模型并行數據對比

注：由于單卡 GPU 顯存限制，各組參數里的模型大小是不同的，所以整體不像數據并行那樣呈線性增加的關系。如第 4 組參數（MP_1x32x1_16_3072x32）的模型大小是第 2 組參數（MP_1x8x1_16_1536x16）的 8 倍以上。NVIDIA 論文中有模型規模跟各個參數的計算公式：

其中 l 表示 num-layers ，h 表示 hidden-size， V 表示詞表大小（vocabulary size = 51200）， S 表示句子長度（a sequence length = 2048）， P 表示參數規模。

數據+模型+流水并行性能對比（注：第 1 組參數的模型比后 3 組的都要小，因為機器內的數據并行限制了參數規模。）

五、小結

在分布式訓練領域擁有獨特的設計和視角，OneFlow 解決了分布式訓練中的各種并行難題，因此在大規模預訓練模型場景下用 OneFlow 做分布式訓練更易用也更高效。

同時，OneFlow 團隊正在全力提升框架的單卡使用體驗。據悉，OneFlow 即將在 5 月發布的大版本 OneFlow v0.4.0 起，將提供兼容 PyTorch 的全新接口以及動態圖等特性。而在 v0.5.0 版本，OneFlow 預計全面兼容 PyTorch，屆時用戶可將 PyTorch 的模型訓練腳本一鍵遷移為 OneFlow 的訓練腳本。此外， OneFlow 還會提供 Consistent 視角的分布式 Eager，用戶可以既享受動態圖的易用性，又可以非常方便的進行各種分布式并行訓練。

閱讀全文

NVIDIA(101461) NVIDIA(101461)
gpu(126255) gpu(126255)
AI(263628) AI(263628)
pytorch(12788) pytorch(12788)

一文解析人工智能中GPT-3 到底有多厲害？

對于我個人來說，剛剛步入媒體圈，職業生涯就將遭遇一次非常嚴重的 AI 威脅。因為 GPT-3 來了，而且在寫文章、編故事的能力上面比上一代更能打了。已經得到微軟 Azure 算力加持

2021-03-19 14:19:43

19567

ChatGPT如何使用RLHF來克服GPT-3存在的問題

ChatGPT 是 OpenAI 發布的最新語言模型，比其前身 GPT-3 有顯著提升。與許多大型語言模型類似，ChatGPT 能以不同樣式、不同目的生成文本，并且在準確度、敘述細節和上下文連貫性上具有更優的表現。

2023-03-10 09:41:50

629

2017重磅發現：曝光一條遺患無窮的電子安規測試標準。

,這又和全世界一直都在盲從而不加質疑地執行一條錯誤的安規檢測標準直接相關,這注定了所有開關電源都100%一定會存在一個基因式的致命缺陷,最終成為了一條讓全世界電子行業都處于燈下黑而不自知的禍根。由此引發

2017-03-23 22:00:06

PyTorch如何入門

PyTorch 入門實戰（一）——Tensor

2020-06-01 09:58:17

一條好的內存條，不是應該插哪個槽位都好的嗎？

體的測試結果：也就是說在1拖2的主板上，1和2槽位是一個通道，3和4槽位是一個通道，如果內存條插靠近后面的2或4槽位是OK的，插前面的1槽位是有問題的。高速先生立馬就明白了個中的原因，于是按照該平臺主板

2021-03-06 16:19:06

一條小小的內存條憑啥能發揮這么大的作用？

內存條真的有這么神奇嗎？一條小小的內存條憑啥能發揮這么大的作用？如何去選擇電腦內存條？

2021-06-18 06:01:27

一條指令的執行需要多少個時鐘周期

在keil中編程時，寫了一行代碼，然后就想知道，執行這句C代碼需要多長時間。時鐘周期在這就不解釋了，頻率的倒數。指令周期，個人理解就是cpu執行一條匯編指令所需要的時間。我們知道cm3使用的三級

2021-08-04 06:42:58

AD9敷銅時如何一條一條網絡的敷銅

AD9敷銅時如何一條一條網絡的敷銅,整塊PCB敷銅有時有點浪費。新手，求指教！

2013-10-28 11:43:43

ARM Cortex M0執行一條指令需要多少時間？

比如12MHz晶振的80C51，12T的。執行一條好像是1us, 新塘的ARM Cortex M0執行一條指令多久

2023-06-19 07:45:31

CC2541 map每一條代表什么？

bytes of IDATA memory8 bitsof BITmemory487 bytes of CONST memory這是 map 的信息，那每一條代表什么呢？我想知道詳細一點。

2020-03-13 10:28:05

DSP執行一條語句的時間

CPU配置成150M。高頻時鐘75M。那么執行一條語句的時間是多少呢

2016-10-15 11:28:02

LABVIEW 如何畫一條直線，做閃爍。

如何在前面板畫一條直線，讓它閃爍，求大神幫幫忙。。。。。。。。。。。。。。。。。。。。

2017-12-08 11:43:32

Multisim仿真積分運算電路，為什么輸入-1v的恒壓，理論本應輸出一條斜線，為什么

Multisim仿真積分運算電路，為什么輸入-1v的恒壓，理論本應輸出一條斜線，為什么輸出的是一條直線？

2018-03-08 20:15:42

SDSoC試用許可證彈出一條錯誤消息

我已獲得SDSoC的試用許可證并將其加載到許可證管理器中;它說“裝載成功”。然后我啟動SDSoC并彈出一條錯誤消息，請參閱附件。然后我再次加載它（許可證管理器說一切都很好），然后再次啟動SDSoC

2019-01-02 14:39:44

TDMS文件中有四路數據，為什么（波形圖表A）中只顯示一條曲線，索引數組后也只有一條曲線？

我用TDMS文件儲存了四路同步數據采集卡的數據，想對每一路信號去直流，如果不索引，直接對動態數據去直流操作，為什么波形圖表A中只有一條曲線？另外三條消失了！同樣的，如果先索引再去直流，依然發現另外三條曲線不見了！這是什么原因呢？匪夷所思呀，求各位指點指點新人，不勝感謝

2018-03-03 10:46:09

TDMS有四路數據，為什么（波形圖表A）中只顯示一條曲線，索引數組后也只有一條曲線？

TDMS文件儲存了四路同步數據采集卡的數據，想對每一路信號去直流，如果不索引，直接對動態數據去直流操作，為什么波形圖表A中只有一條曲線？另外三條消失了！同樣的，如果先索引再去直流，依然發現另外三條曲線不見了！這是什么原因呢？匪夷所思呀，求各位指點指點新人，不勝感謝

2018-03-03 10:51:10

UCB_SWAP配置信息共16條，寫入一條有效配置后，上一條需寫1使配置無效是為什么？

死鎖。綜上，UCB_SWAP寫入一條有效配置后，上一條需寫1使配置無效具體作用是什么。有了解該功能大佬幫忙解釋下，感謝！ Infineon-AURIX_TC3xx_Part1-UserManual-v02_00-EN.pdf 1.5.2.2.3

2024-01-24 08:31:46

XY圖顯示結果有一條豎線

x和y綁定的簇每個值是正確的，但是輸出到XY圖里不知道為什么就多一條線

2015-03-24 13:17:21

freescale912xs128執行一條語句需要多長時間

freescale912xs128執行一條語句需要多長時間，想用簡單的循環寫個3us的延時程序

2016-07-20 11:04:43

labview 怎么獲取一條數據線上的數據個數

labview 怎么獲取一條數據線上的數據個數比如說一條數據線上0出現的次數55出現的次數

2011-11-17 21:38:55

labview如何更新一條記錄呢？、求大神幫助

labview如何利用自帶數據庫工具包更新一條記錄額，，求大神幫助啊，小弟很急很急，搞了好久了，最好是附帶一個例程

2014-11-29 15:39:25

labview如何輸入起點和終點坐標畫一條直線，顯示在xy圖上

求各位大神幫忙，我想用labview畫一條直線，自己輸入起始點和終點，并能在xy圖中顯示，如果再畫一條直線能連接到上一條直線。在下感激不盡啊

2013-03-04 16:21:08

【飛騰派4G版免費試用】仙女姐姐的嵌入式實驗室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

和1750億參數的GPT-3都是非常由有競爭力的 MetaAI研究人員認為，當前大模型的高成本阻礙了學術研究，因此，開發出這個更小更強的模型將有利于學術研究的發展。使用較少參數的模型，在更多的tokens上

2023-12-22 10:18:11

為什么pads畫出來的線不是實線，只有一條細線？

為什么pads畫出來的線是虛線，只有一條細線？用pads進行布線時，畫出來的線沒有寬度，只有一條很細的線，即便放大，這條線仍然很細，這是什么原因呢？

2015-01-04 10:43:35

從AD中導入GERBER，轉換成PCB后，里面的線路是一條一條的，怎么把這些銅線整合在一起？

2021-11-20 08:19:19

儀器儀表出口行業的春天

有限公司是專業的代理儀器儀表出口的公司，提供通過報關、收匯、商檢、物流等專業化、精細化‘一條龍’打包服務，可以讓出口企業提高工作效率，少走很多彎路。抓住機遇，抓住市場，促進我國儀器儀表行業的出口。

2014-06-23 16:59:32

使用ucgui里面的GUI_DrawGraph函數畫曲線，顯示的是一條靜態...

我想將DTH采集到的數值顯示在LCD屏幕上。使用GUI_DrawGraph函數顯示，結果發現顯示的是一條靜態曲線，要么就是直接死機了。。要怎么才能顯示一條動態的曲線呢？

2013-02-20 10:18:41

出Gerber時，鉆孔層疊成一條直線

出gerber時，鉆孔層疊成一條直線，如何解決？

2012-06-28 10:17:33

大家來說一說自己的夢想吧

突然發現自己的夢想越來越向現實生活靠攏了，這意味著自己必將走上一條平凡的路吧~

2012-10-30 13:02:21

如何實現一條can總線上連接許多can設備？

2021-11-15 06:37:44

如何將輸入與輸出倆條線用一條線代替。

如何將RXD與TXD倆條線經過轉化后用一條線代替

2013-01-25 10:53:40

如何讓不同的網絡標號共用一條線？

我看原子的原理圖中不同的網絡標號共用一條線但是orcad中提示短路錯誤，難道只能將這些網絡標號合并成一個很長的網絡標號嗎？原子的那個圖是怎么實現的？謝謝了

2019-10-20 23:04:00

學習一條PCB布線規則

事實上，它是由常用的電路結構所決定的，低電平時電路往往有較高電平時更低的環路阻抗，而低阻抗則意味著抗干擾能力更強。結合實際講一個有用的例子來加深印象：我們有的同學可能已經學習了這樣的一條PCB布線

2019-05-28 06:51:41

實現點亮一條帶狀的led

實現點亮一條帶狀的led，模擬人體經絡或是血管的分布、運行，應該用怎樣的設計方案呢，led帶所占體積盡量小，有沒有現成這樣的led燈呢？求大神給個思路

2015-01-21 15:25:46

將Pytorch模型轉換為DeepViewRT模型時出錯怎么解決？

的 ONNX 模型。但是，轉換過程終止時出現一條無用的錯誤消息：“ \'NoneType\' 類型的對象沒有 len() ”。進行轉換時，我使用了 eIQ 門戶中的模型工具。

2023-06-09 06:42:58

怎么在LABVIEW中實現讓程序按照數據庫中的數據一條一條的按步進順序程序走？

的數據，一條一條的按步進順序程序來走呢。每走一條數據都會有一個條件，滿足后才能執行下一條數據，怎么實現較好，以下是我現在做的程序圖片，并不能滿足步進順序控制要求，請指導，謝謝。

2015-09-15 11:46:10

數據采集卡所采集的是一條直線，不是一條方波信號

各位大神：小弟最近在調節研華的PCI1730U采集卡，問題是我使用DI Digital Iuput vi是一條直線，如下圖1所示：

2017-11-05 10:14:10

求助康佳***一條垂直亮線

2011-02-19 23:22:34

話題：寫下你認為現存的宇宙中最本質最重要的一條科學理論！

`無論是什么科學的，無論是什么人提出的，無論是什么理論？把你認為的現存宇宙中最本質最重要的一條科學理論寫下來！小編現在腦子里想的都是萬有引力！！質能守恒！！等等（小編也只能想起這些）在這么多科學理論中你認為現存的宇宙中最本質最重要的一條科學理論是什么？說出你的原因~大家一起來討論一下~`

2016-07-07 17:13:01

請問一條指令的執行時間是1/主頻嗎？

一條指令的執行時間是1/主頻嗎？

2023-08-23 08:03:11

請問C語言藍色那一條語句是怎樣賦值的

下面是帶參數宏之間的賦值，有誰能告訴我藍色那一條語句是怎樣賦值的 C變量的值為多少？#defineadd(a,b)a+buintc; add(c,4) =add(3,6) ;

2019-03-08 06:35:49

請問STM32進入STOP模式是否只需要操作一條函數？

1、進入STOP模式是否只需要操作一條函數就可以了嗎？如： PWR_EnterSTOPMode(PWR_Regulator_LowPower, PWR_STOPEntry_WFI);//進入停止模式

2019-04-24 06:39:29

請問gps接收數據是每接收一條解析一條嗎？

請教下，gps 數據是每接收一條解析一條還是一次全部接收完成后再一起解析？？？

2018-11-02 08:49:23

請問labview中的波形圖表如何分隔顯示？是上格顯示兩條曲線,下格顯示一條曲線嗎?

本帖最后由一只耳朵怪于 2018-6-7 15:43 編輯 labview中的波形圖表如何分隔顯示,上格顯示兩條曲線,下格顯示一條曲線?

2018-06-07 15:41:08

請問怎樣分析抓包軟件的數據？具體每一條數據的作用是什么？

本帖最后由一只耳朵怪于 2018-6-3 11:36 編輯怎樣分析抓包軟件的數據，分析出具體每一條數據的作用？

2018-06-01 13:32:55

請問手機通過藍牙一次性發送多條數據STM32怎么一條一條的順序接收？

本人為新手，目前已實現手機發送一條數據STM32接收以后執行相應的操作，但是無法實現手機一次性批量發送，STM32接收以后再一條一條的順序執行？懇請各位大佬賜教

2019-04-29 02:38:08

請問：一條Modelsim TCL指令

Xilinx的DO文件里，建庫時，有一條語句是-voptargs = "+acc"，去掉的話，Modelsim編譯不過。請問這條-voptargs = "

2013-07-19 12:16:25

采用modbus的串口鏈路，這3個設備公用一條鏈路，該如何設設置？

采用modbus的串口鏈路，這3個設備公用一條鏈路，該如何設設置？有一個主控屏，一臺pc上位機，和一個受控設備.PC遠控端，屏近地控制

2023-05-05 16:17:00

中微經過14年的征戰之后走上了IPO之路

2004年成立的中微終于迎來了高光時刻，在經過十幾年的征戰之后走上了IPO之路，但在這一聚焦時刻是否也要輕聲問一句為何要等這么久？

2019-01-24 15:08:30

3061

經歷蕭條過后 VR逐漸走上了復蘇之路

經歷蕭條過后，VR逐漸走上了復蘇之路。這個階段沉淀下來的，也都是獨具一格、方向清晰，且擁有一定競爭力的企業。2018年，整個VR產業以行業應用為核心，慢慢滲透到各個領域中，一股來自傳統領域的力量，正推動著這項技術的落地。

2019-03-03 09:17:14

4127

PyTorch Hub發布獲Yann LeCun強推一行代碼調用經典模型

全新API PyTorch Hub提供模型的基本構建模塊，用于提高機器學習研究的模型復現性。

2019-06-12 14:41:28

2192

最大人工智能算法模型GPT-3問世

OpenAI的一組研究人員最近發表了一篇論文，描述了GPT-3，這是一種具有1，750億個參數的自然語言深度學習模型，比以前的版本GPT-2高100倍。該模型經過了將近0.5萬億個單詞的預訓練，并且在不進行微調的情況下，可以在多個NLP基準上達到最先進的性能。

2020-07-08 17:36:55

2131

如何在GPT-3中使用一個新詞或執行3位數運算？

給予任何文本提示，GPT-3將返回一個文本完成，試圖匹配用戶給它的模式。用戶可以給它 “編程”，只需向它展示幾個希望它做的例子，它就會提供一篇完整的文章或故事，比如下面的文字，完全由GPT-3編寫。

2020-07-20 16:33:42

1445

OpenAI推出新文字生成器:人工智能GPT-3

與埃隆·馬斯克（Elon Musk）共同創立OpenAI的薩姆·奧特曼（Sam Altman）表示，GPT-3是一個巨大的飛躍，但它仍然是人類制造的工具，具有隱含的缺陷和局限性。

2020-09-01 09:40:09

3399

如何打造中文版 GPT-3？GPT-4 可能如何演化？

既能問答、翻譯、寫文章，也能寫代碼、算公式、畫圖標。..。..OpenAI 2020 年 5 月推出的 GPT-3，因其神奇的通用性而走紅 AI 領域。

2020-09-02 10:21:15

4513

GPT-3或許真的會讓部分“文字工作者”面臨失業

GPT-3 由世界領先的 AI 研究公司 OpenAI 開發，它有 1750 億個參數，使用了 45TB 搜集自互聯網的自然語言文本進行預訓練，這一過程至少花費了 460 萬美元。

2020-09-08 16:28:33

1720

AI專家：GPT-3的性能令人驚嘆，但存在規模和缺乏透明度等問題

讓算法像人一樣寫作，是人工智能研究實驗室OpenAI多年來一直追尋的夢想。其最新研究成果是語言生成算法模型GPT-3，現已被用于生成讓人難以分辨的偽文章，其所寫博客騙過了黑客新聞（Hacker News）的發布者，甚至成為網站熱門文章。

2020-09-18 16:31:10

3101

史上最大AI模型GPT-3你要開始收費了接下去可能用不起它了

還記得前不久被捧上天的GPT-3么？那個只有被邀請的用戶才能測試使用的，號稱史上最大AI模型。 OpenAI的1,750億參數語言模型GPT-3在6月份發布的時候就備受關注，當時，猿妹還和大家

2020-09-25 11:38:31

2696

微軟獲得AI神器 GPT-3 獨家授權，引來馬斯克等業內人士怒懟

今年以來，人工智能領域出現了一個熱詞：GPT-3。由人工智能非營利組織 OpenAI 耗資 1200 萬美元開發，涵蓋 1750 億個參數，達到了目前最佳 SOTA，寫作水平媲美人類。種種光環加持下，自然語言處理模型 GPT-3 已然成為一款 AI 神器。

2020-09-29 09:52:35

1905

GPT-3引發公眾的遐想能根據文字產生圖片的AI!

在全球所有 AI 模型中，OpenAI 的 GPT-3 最能引發公眾的遐想。雖然它可以僅憑很少的文本來輸出詩歌、短篇小說和歌曲，并且成功地讓人們相信這是人類的創作。但是，它在同人類對話時還是顯得

2020-10-09 18:30:26

2378

史上最大AI模型GPT-3強勢霸榜Github

最近，GPT-3火了！相信你已經在網上看到各種有關GPT-3的演示。這個由OpenAI創建的大型機器學習模型，它不僅可以自己寫論文，還會寫詩歌，就連你寫的代碼都能幫你寫了。 ? 下面還是先讓你看看

2021-01-06 17:06:16

2148

GPT系列的“高仿” 最大可達GPT-3大小自主訓練

雖然GPT-3沒有開源，卻已經有人在復刻GPT系列的模型了。例如，慕尼黑工業大學的Connor Leahy，此前用200個小時、6000RMB，復現了GPT-2。又例如，基于150億參數

2021-02-13 09:24:00

2646

谷歌開發出超過一萬億參數的語言模型，秒殺GPT-3

繼GPT-3問世僅僅不到一年的時間，Google重磅推出Switch Transformer，直接將參數量從GPT-3的1750億拉高到1.6萬億，并比之前最大的、由google開發的語言模型

2021-01-27 16:26:56

1857

GPT-3通過了大部分課程的寫作測試

近日，教育資源網站 EduRef 進行了一項測試，他們找了一組教授創建了一個寫作提示，然后讓應屆畢業生和本科生以及 GPT-3 同時根據該提示寫作，最后教授組對匿名提交的作文打分，并對作者進行追蹤調查。那么，究竟結果如何呢？GPT-3 的分數能夠超過人類作者嗎？未必！

2021-03-05 15:30:45

1199

Eleuther AI：已經開源了復現版GPT-3的模型參數

GPT3終于開源！不過，不是官方開的（別打我 Eleuther AI推出的名為GPT-Neo的開源項目，于晨4點于twitter正式宣布：已經開源了復現版GPT-3的模型參數（1.3B和2.7B級別

2021-03-31 17:46:28

2871

浪潮、英偉達微軟相繼發布2500億、5300億參數的巨量模型，超過GPT-3

Turing-NLG相繼出現。 ? 2020年6月OpenAI在發布了GPT-3，這是當時訓練的最大模型，具有1750億個參數。近段時間，浪潮、英偉達與微軟相繼發布2500億參數、5300億參數的巨量模型，超過GPT-3。 ? 中國工程院院士王恩東認為，人工智能的大模型時代已經到來，利用先進算法，整

2021-10-18 14:41:09

3136

使用NVIDIA TensorRT優化T5和GPT-2

在這篇文章中，我們向您介紹了如何將擁抱臉 PyTorch T5 和 GPT-2 模型轉換為優化的 TensorRT 推理引擎。 TensorRT 推理機用作原始 HuggingFace T5

2022-03-31 17:25:43

3043

從零開始談ChatGPT

（GPT-3.5），主要論據為：1.原始GPT-3 175B和復現GPT-3 的OPT-175B 都沒有CoT能力，而GPT-3.5 有CoT；2.原始的GPT-3 的窗口只有2048，而其對應的是絕對位置編碼，現在的GPT-3.5最大窗口為8192。3.原始的GPT-3 不能寫代碼，現在的可以。

2023-02-15 10:20:23