那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深度學習的GPU共享工作

新機器視覺 ? 來源:新機器視覺 ? 作者:新機器視覺 ? 2020-11-27 10:06 ? 次閱讀

當前機器學習訓練中,使用GPU提供算力已經非常普遍,對于GPU-based AI system的研究也如火如荼。在這些研究中,以提高資源利用率為主要目標的GPU共享(GPU sharing)是當下研究的熱點之一。 本篇文章希望能提供一個對GPU共享工作的分享,希望能和相關領域的研究者們共同討論。 GPU共享,是指在同一張GPU卡上同時運行多個任務。優勢在于:

(1)集群中可以運行更多任務,減少搶占。
(2)資源利用率(GPU/顯存/e.t.c.)提高;GPU共享后,總利用率接近運行任務利用率之和,減少了資源浪費。
(3)可以增強公平性,因為多個任務可以同時開始享受資源;也可以單獨保證某一個任務的QoS。
(4)減少任務排隊時間。
(5)總任務結束時間下降;假設兩個任務結束時間分別是x,y,通過GPU共享,兩個任務全部結束的時間小于x+y。

想要實現GPU共享,需要完成的主要工作有:
(1)資源隔離,是指共享組件有能力限制任務占據算力(線程/SM)及顯存的比例,更進一步地,可以限制總線帶寬。
(2)并行模式,主要指時間片模式和MPS模式。 資源隔離資源隔離是指共享組件有能力限制任務占據算力/顯存的比例。限制的方法就是劫持調用。圖一是在Nvidia GPU上,機器學習自上而下的視圖。由于Cuda和Driver不開源,因此資源隔離層一般處在用戶態。 在內核態做隔離的困難較大,但也有一些工作。順帶一提,Intel的Driver是開源的,在driver層的共享和熱遷移方面有一些上海交大和Intel合作的工作。

圖一/使用Nvidia GPU機器學習自上而下視圖 來自騰訊的Gaia(ISPA'18)[1]共享層在Cuda driver API之上,它通過劫持對Cuda driver API的調用來做到資源隔離。劫持的調用如圖二所示。 具體實現方式也較為直接,在調用相應API時檢查: (1)對于顯存,一旦該任務申請顯存后占用的顯存大小大于config中的設置,就報錯。(2)對于計算資源,存在硬隔離和軟隔離兩種方式,共同點是當任務使用的GPU SM利用率超出資源上限,則暫緩下發API調用。 不同點是如果有資源空閑,軟隔離允許任務超過設置,動態計算資源上限。而硬隔離則不允許超出設置量。該項目代碼開源在[2]。 實測即使只跑一個任務也會有較大JCT影響,可能是因為對資源的限制及守護程序的資源占用問題。KubeShare(HPDC '20)[3]的在資源隔離方面也是類似的方案。

圖二/ Gaia限制的CUDA driver API 發了44篇論文(截止2020年3月)的rCuda[4]和Gaia有相似之處,他們都是在Cuda driver API之上,通過劫持調用來做資源隔離。 不同的是,rCuda除了資源隔離,最主要的目標是支持池化。池化簡單來講就是使用遠程訪問的形式使用GPU資源,任務使用本機的CPU和另一臺機器的GPU,兩者通過網絡進行通信。也是因為這個原因,共享模塊需要將CPU和GPU的調用分開。 然而正常情況下混合編譯的程序會插入一些沒有開源的Cuda API,因此需要使用作者提供的cuda,分別編譯程序的CPU和GPU部分。 圖三顯示了rCuda的架構。如果使用該產品,用戶需要重新編譯,對用戶有一定的影響。該項目代碼不開源。 另外vCUDA(TC '12)[5]和qCUDA(CloudCom '19)[18]也采用了和rCuda相似的技術。

圖三/rCuda架構 GPUShare(IPDPSW' 16)[6]也是劫持的方式,但不同的是,它采用預測執行時間的方式來實現計算資源的公平性。 作者認為比切換周期還小的短kernel不會影響公平使用,因此只限制了較大的kernel。 來自阿里的cGPU[7],其共享模塊在Nvidia driver層之上,也就是內核態。由于是在公有云使用,相對于用戶態的共享會更加安全。 它也是通過劫持對driver的調用完成資源隔離的,通過設置任務占用時間片長度來分配任務占用算力,但不清楚使用何種方式精準地控制上下文切換的時間。 值得一提的是,由于Nvidia driver是不開源的,因此需要一些逆向工程才可以獲得driver的相關method的name和ioctl參數的結構。 該方案在使用上對用戶可以做到無感知,當然JCT是有影響的。代碼沒有開源,也沒有論文。圖四是cGPU的架構圖。

圖四/cgpu架構圖 來自Nvidia的vGPU[8]其共享模塊在Nvidia driver里面。vGPU通過vfio-mdev提供了一個隔離性非常高的的硬件環境,主要面向的是虛擬機產品,無法動態調整資源比例。 來自Nvidia的產品當然沒有開源。圖五是vGPU的架構圖。

圖五/vGPU架構圖 Fractional GPU(RTAS' 19)[9]是一篇基于MPS的資源隔離方案。其共享模塊在Nvidia driver里面。該方案的隔離非常硬,核心就是綁定。 在計算隔離方面,它通過給任務綁定一定比例的可使用SM,就可以天然地實現計算隔離。MPS的計算隔離是通過限制任務的thread數,相較于Fractional GPU會限制地更加不準確。 在顯存隔離方面,作者深入地研究Nvidia GPU內存架構(包括一些逆向工程)圖六是Fractional GPU通過逆向得到的Nvidia GPU GTX 970的存儲體系架構。 通過頁面著色(Page Coloring)來完成顯存隔離。頁面著色的思想也是將特定的物理頁分配給GPU SM分區,以限制分區間互相搶占的問題。 該隔離方案整體上來說有一定損耗,而且只能使用規定好的資源比例,不能夠靈活地檢測和使用全部空閑資源。另外使用該方案需要修改用戶代碼。代碼開源在[10]。

圖六/Fractional GPU通過逆向得到的Nvidia GPU GTX 970的存儲體系架構 Mig( MULTI-INSTANCE GPU)[21]是今年A100機器支持的資源隔離方案,Nvidia在最底層硬件上對資源進行了隔離,可以完全地做到計算/通信/配置/錯誤的隔離。 它將SM和顯存均勻地分給GPU instance,最多支持將SM分7份(一份14個),顯存分8份(1份5GB)。順帶一提A100有SM108個,剩下的10個將無法用上。它可選的配置也是有限制的,如圖七所示。

圖七/Mig GPU Instance配置 并行模式并行模式指任務是以何種方式在同一個GPU上運行的。目前有兩種方式:

(1)分時復用。指劃分時間片,讓不同的任務占據一個獨立的時間片,需要進行上下文切換。在這種模式下,任務實際上是并發的,而不是并行的,因為同一時間只有一個任務在跑。

(2)合并共享。指將多個任務合并成一個上下文,因此可以同時跑多個任務,是真正意義上的并行。在生產環境中,更多使用分時復用的方式。 分時復用分時復用的模式大家都較為熟悉,CPU程序的時間片共享已經非常常見和易用,但在GPU領域還有一些工作要做。 如果在Nvidia GPU上直接啟動兩個任務,使用的就是時間片共享的方式。

但該模式存在多任務干擾問題:即使兩個機器學習任務的GPU利用率和顯存利用率之和遠小于1,單個任務的JCT也會高出很多。究其原因,是因為計算碰撞,通信碰撞,以及GPU的上下文切換較慢。 計算碰撞很好理解,如果切換給另一個任務的時候,本任務正好在做CPU計算/IO/通信,而需要GPU計算時,時間片就切回給本任務,那么就不會有JCT的影響。但兩個任務往往同時需要使用GPU資源。 通信碰撞,是指任務同時需要使用顯存帶寬,在主機內存和設備顯存之間傳輸數據。GPU上下文切換慢,是相對CPU而言的。 CPU上下文切換的速度是微秒級別,而GPU的切換在毫秒級別。在此處也會有一定的損耗。圖八是分時復用模式的常見架構。

圖八/分時復用架構圖 上文提到的Gaia,KubeShare,rCuda,vCuda,qCuda,cGPU,vGPU均為分時復用的模式。 由于上文所述的問題,他們的單個任務完成時間(JCT)都會受到較大的影響。V100測試環境下,兩個任務同時運行,其JCT是單個任務運行時的1.4倍以上。 因此在生產環境下,我們需要考慮如何減少任務之間互相影響的問題。上述方案都沒有考慮機器學習的特性,只要共享層接收到kernel下發,檢查沒有超過設置上限,就會繼續向下傳遞。 另外也限制任務顯存的使用不能超過設置上限,不具備彈性。因此針對特定的生產場景,有一些工作結合機器學習任務的特性,進行了資源的限制及優化。

服務質量(QoS)保障在生產環境的GPU集群中常會有兩類任務,代稱為高優先級任務和低優先級任務。高優任務是時間敏感的,在它需要資源時需要立刻提供給它。 而低優任務是時間不敏感的,當集群有資源沒被使用時,就可以安排它填充資源縫隙以提高集群利用率。因此共享模塊需要優先保障高優先級任務的JCT不受影響,以限制低優任務資源占用的方式。 Baymax(ASPLOS '16)[11]通過任務重排序保障了高優任務的QoS。Baymax作者認為多任務之間的性能干擾通常是由排隊延遲和PCI-e帶寬爭用引起的。 也就是說,當高優任務需要計算或IO通信時,如果有低優的任務排在它前面,高優任務就需要等待,因此QoS無法保障。針對這兩點Baymax分別做了一些限制:

(1)在排隊延遲方面,Baymax利用KNN/LR模型來預測持續時間。然后Baymax對發給GPU的請求進行重新排序。 簡單來說,就是共享模塊預測了每個請求的執行時間,當它認為發下去的請求GPU還沒執行完時,新下發的請求就先進入隊列里。 同時將位于隊列中的任務重排序,當需要下發請求時,先下發隊列中的高優任務請求。

(2)在PCI-e帶寬爭用方面,Baymax限制了并發數據傳輸任務的數量。Baymax作者在第二年發表了Prophet(ASPLOS '17)[12],用于預測多任務共置時QoS的影響程度。 在論文最后提到的實驗中,表示如果預測到多個任務不會影響QoS,就將其共置,但此處共置使用的是MPS,也就是沒有使用分時復用的模式了。 在該研究中,預測是核心。預測準確性是否能適應復雜的生產環境,預測的機器負載是否較大,還暫不清楚。 來自阿里的AntMan(OSDI '20)[13]也認為排隊延遲和帶寬爭用是干擾的原因,不同的是,它從DL模型的特點切入,來區分切換的時機。

在算力限制方面,AntMan通過限制低優任務的kernel launch保證了高優任務的QoS。圖九是AntMan算力共享機制的對比。 AntMan算力調度最小單元,在論文中描述似乎有些模糊,應該是Op(Operator),AntMan“會持續分析GPU運算符的執行時間“,并在空隙時插入另一個任務的Op。 但如何持續分析,論文中并沒有詳細描述。在顯存隔離方面,AntMan沒有限制顯存的大小,而是盡力讓兩個任務都能運行在機器上。但兩個或多個任務的顯存申請量可能會造成顯存溢出,因此AntMan做了很多顯存方面的工作。 首先需要了解任務在顯存中保存的內容:首先是模型,該數據是大小穩定的,當它在顯存中時,iteration才可以開始計算。

論文中表示90%的任務模型使用500mb以內的顯存。其次是iteration開始時申請的臨時顯存,這部分顯存理論上來說,在iteration結束后就會釋放。 但使用的機器學習框架有緩存機制,申請的顯存不會退回,該特性保障了速度,但犧牲了共享的可能性。 因此AntMan做了一些顯存方面最核心的機制是,當顯存放不下時,就轉到內存上。在此處論文還做了很多工作,不再盡述。 論文描述稱AntMan可以規避總線帶寬爭用問題,但似乎從機制上來說無法避免。 除此之外,按照Op為粒度進行算力隔離是否會需要大量調度負載也是一個疑問,另外Op執行時間的差異性較大,尤其是開啟XLA之后,這也可能帶來一些不確定性。該方案需要修改機器學習框架(Tensorflow和Pytorch),對用戶有一定的影響。 代碼開源在[20],目前還是WIP項目(截止2020/11/18),核心部分(local-coordinator)還沒能開源。

圖九/AntMan算力共享機制的對比 如果最小調度單元是iteration,則會更加簡單。首先需要了解一下DL訓練的特征:訓練時的最小迭代是一個iteration,分為四個過程: IO,進行數據讀取存儲以及一些臨時變量的申請等;前向,在此過程中會有密集的GPU kernel。NLP任務在此處也會有CPU負載。后向,計算梯度更新,需要下發GPU kernel;更新,如果非一機一卡的任務,會有通信的過程。之后更新合并后的梯度,需要一小段GPU時間。 可以看出前向后向和通信之后的更新過程,是需要使用GPU的,通信和IO不需要。

因此可以在此處插入一些來自其他任務的kernel,同時還可以保證被插入任務的QoS。更簡單的方式是,通過在iteration前后插入另一個任務的iteration來完成共享。 當然這樣就無法考慮通信的空隙,可以被理解是一種tradeoff。另外也因為iteration是最小調度單元,避免了計算資源和顯存帶寬爭用問題。 另外,如果不考慮高優任務,實現一個退化版本,貪心地放置iteration而不加以限制。可以更簡單地提高集群利用率,也可以讓任務的JCT/排隊時間減小。 針對推理的上下文切換在上文中描述了分時復用的三個問題,其中上下文切換是一個耗時點。

來自字節跳動的PipeSwitch(OSDI '20)[14]針對推理場景的上下文切換進行了優化。具體生產場景是這樣的:訓練推理任務共享一張卡,大多數時候訓練使用資源。當推理請求下發,上下文需要立刻切換到推理任務。 如果模型數據已經在顯存中,切換會很快,但生產環境中模型一般較大,訓練和推理的模型不能同時加載到顯存中,當切換到推理時,需要先傳輸整個模型,因此速度較慢。

在該場景下,GPU上下文切換的開銷有: (1)任務清理,指釋放顯存。(2)任務初始化,指啟動進程,初始化Cuda context等。(3)Malloc。(4)模型傳輸,從內存傳到顯存。

在模型傳輸方面,PipeSwitch作者觀察到,和訓練不同的是推理只有前向過程,因此只需要知道上一層的輸出及本層的參數就可以開始計算本層。 目前的加載方式是,將模型數據全部加載到顯存后,才會開始進行計算,但實際上如果對IO和計算做pipeline,只加載一層就開始計算該層,就會加快整體速度。當然直接使用層為最小粒度可能會帶來較大開銷,因此進行了grouping合并操作。 圖十顯示了pipeline的對比。在任務清理和初始化方面,設置了一些常駐進程來避免開銷。最后在Malloc方面也使用了統一的內存管理來降低開銷。 可以說做的非常全面。由于需要獲知層級結構,因此需要對Pytorch框架進行修改,對用戶有一定影響。代碼開源在[19].

圖十/PipeSwitch pipeline的對比 合并共享合并共享是指,多個任務合并成一個上下文,因此可以共享GPU資源,同時發送kernel到GPU上,也共同使用顯存。最具有代表性的是Nvidia的MPS[15]。 該模式的好處是顯而易見的,當任務使用的資源可以同時被滿足時,其JCT就基本沒有影響,性能可以說是最好的。可以充分利用GPU資源。 但壞處也是致命的:錯誤會互相影響,如果一個任務錯誤退出(包括被kill),如果該任務正在執行kernel,那么和該任務共同share IPC和UVM的任務也會一同出錯退出。 目前還沒有工作能夠解決這一問題,Nvidia官方也推薦使用MPS的任務需要能夠接受錯誤影響,比如MPI程序。 因此無法在生產場景上大規模使用。另外,有報告稱其不能支持所有DL框架的所有版本。 在資源隔離方面,MPS沒有顯存隔離,可以通過限制同時下發的thread數粗略地限制計算資源。它位于Nvidia Driver之上。圖十一是MPS的架構圖。

圖十一/MPS架構圖 Salus(MLSys '20)[16]也采取了合并共享的方式,作者通過Adaptor將GPU請求合并到同一個context下,去掉了上下文切換。 當然,和MPS一樣會發生錯誤傳播,論文中也沒有要解決這一問題,因此無法在生產環境中使用。 但筆者認為這篇論文中更大的價值在顯存和調度方面,它的很多見解在AntMan和PipeSwitch中也有體現。調度方面,以iteration為最小粒度,并且詮釋了原因:使用kernel為粒度,可以進一步利用資源,但會增加調度服務的開銷。 因此折中選擇了iteration,可以實現性能最大化。

顯存方面,一些觀察和AntMan是一致的:顯存變化具有周期性;永久性顯存(模型)較小,只要模型在顯存中就可以開始計算;臨時性顯存在iteration結束后就應該釋放。 也描述了機器學習框架緩存機制的死鎖問題。不過Salus實現上需要兩個任務所需的顯存都放到GPU顯存里,沒有置換的操作。 論文中也提到了推理場景下的切換問題:切換后理論上模型傳輸時間比推理延遲本身長幾倍。 除此之外論文中也有一些其他的觀察點,值得一看。圖十二展示了Salus架構。該項目代碼開源在[17]。Salus也需要修改DL框架。作者也開源了修改后的tensorflow代碼。

圖十二/Salus架構圖 如果在合并共享模塊之上做分時復用,應可以繞過硬件的限制,精準地控制時間片和切換的時機,也可以去除上下文切換的開銷。但在這種情況下是否還會有錯誤影響,還需要進一步驗證。 場景展望目前GPU共享已經逐漸開始進入工業落地的階段了,若需要更好地滿足用戶對使用場景的期待,除了更高的性能,筆者認為以下幾點也需要注意。 1、能夠提供穩定的服務,運維便捷。比如MPS的錯誤影響是不能被接受的,另外對于帶有預測的實現,也需要更高的穩定性。共享工作負載盡量降低。 2、更低的JCT時延,最好具有保障部分任務QoS的能力。對于一個已有的GPU集群進行改造時,需要盡量減少對已有的用戶和任務的影響。 3、不打擾用戶,盡量不對用戶的代碼和框架等做修改,另外也需要考慮框架和其他庫的更新問題。 參考資料

[1]J. Gu, S. Song, Y. Li and H. Luo, "GaiaGPU: Sharing GPUs in Container Clouds," 2018 IEEE Intl Conf on Parallel & Distributed Processing with Applications, Ubiquitous Computing & Communications, Big Data & Cloud Computing, Social Computing & Networking, Sustainable Computing & Communications (ISPA/IUCC/BDCloud/SocialCom/SustainCom), Melbourne, Australia, 2018, pp. 469-476, doi: 10.1109/BDCloud.2018.00077.

[2]github.com/tkestack/vcu

[3]Ting-An Yeh, Hung-Hsin Chen, and Jerry Chou. 2020. KubeShare: A Framework to Manage GPUs as First-Class and Shared Resources in Container Cloud. In Proceedings of the 29th International Symposium on High-Performance Parallel and Distributed Computing (HPDC '20). Association for Computing Machinery, New York, NY, USA, 173–184. DOI:doi.org/10.1145/3369583

[4]José Duato, Francisco D. Igual, Rafael Mayo, Antonio J. Pe?a, Enrique S. Quintana-Ortí, and Federico Silla. An efficient implementation of GPU virtualization in high performance clusters. In Euro-Par 2009, Parallel Processing - Workshops, volume 6043 of Lecture Notes in Computer Science, pages 385-394. Springer-Verlag, 2010.

[5]L. Shi, H. Chen, J. Sun and K. Li, "vCUDA: GPU-Accelerated High-Performance Computing in Virtual Machines," in IEEE Transactions on Computers, vol. 61, no. 6, pp. 804-816, June 2012, doi: 10.1109/TC.2011.112.

[6]A. Goswami et al., "GPUShare: Fair-Sharing Middleware for GPU Clouds," 2016 IEEE International Parallel and Distributed Processing Symposium Workshops (IPDPSW), Chicago, IL, 2016, pp. 1769-1776, doi: 10.1109/IPDPSW.2016.94.

[7]alibabacloud.com/help/z

[8]docs.nvidia.com/grid/10

[9]S. Jain, I. Baek, S. Wang and R. Rajkumar, "Fractional GPUs: Software-Based Compute and Memory Bandwidth Reservation for GPUs," 2019 IEEE Real-Time and Embedded Technology and Applications Symposium (RTAS), Montreal, QC, Canada, 2019, pp. 29-41, doi: 10.1109/RTAS.2019.00011.

[10]github.com/sakjain92/Fr

[11]Quan Chen, Hailong Yang, Jason Mars, and Lingjia Tang. 2016. Baymax: QoS Awareness and Increased Utilization for Non-Preemptive Accelerators in Warehouse Scale Computers. In Proceedings of the Twenty-First International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS '16). Association for Computing Machinery, New York, NY, USA, 681–696. DOI:doi.org/10.1145/2872362

[12]Quan Chen, Hailong Yang, Minyi Guo, Ram Srivatsa Kannan, Jason Mars, and Lingjia Tang. 2017. Prophet: Precise QoS Prediction on Non-Preemptive Accelerators to Improve Utilization in Warehouse-Scale Computers. In Proceedings of the Twenty-Second International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS '17). Association for Computing Machinery, New York, NY, USA, 17–32. DOI:doi.org/10.1145/3037697

[13]Xiao, Wencong, et al. "AntMan: Dynamic Scaling on {GPU} Clusters for Deep Learning." 14th {USENIX} Symposium on Operating Systems Design and Implementation ({OSDI} 20). 2020.

[14]Bai, Zhihao, et al. "PipeSwitch: Fast Pipelined Context Switching for Deep Learning Applications." 14th {USENIX} Symposium on Operating Systems Design and Implementation ({OSDI} 20). 2020.

[15]docs.nvidia.com/deploy/

[16]Yu, Peifeng, and Mosharaf Chowdhury. "Salus: Fine-grained gpu sharing primitives for deep learning applications." arXiv preprint arXiv:1902.04610 (2019).

[17]github.com/SymbioticLab

[18]Y. Lin, C. Lin, C. Lee and Y. Chung, "qCUDA: GPGPU Virtualization for High Bandwidth Efficiency," 2019 IEEE International Conference on Cloud Computing Technology and Science (CloudCom), Sydney, Australia, 2019, pp. 95-102, doi: 10.1109/CloudCom.2019.00025.

[19]netx-repo/PipeSwitch

[20]alibaba/GPU-scheduler-for-deep-learning

[21]NVIDIA Multi-Instance GPU User Guide

責任編輯:xj

原文標題:深度剖析:針對深度學習的GPU共享

文章出處:【微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4772

    瀏覽量

    129348
  • 深度學習
    +關注

    關注

    73

    文章

    5513

    瀏覽量

    121540

原文標題:深度剖析:針對深度學習的GPU共享

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    深度學習工作負載中GPU與LPU的主要差異

    ,一個新的競爭力量——LPU(Language Processing Unit,語言處理單元)已悄然登場,LPU專注于解決自然語言處理(NLP)任務中的順序性問題,是構建AI應用不可或缺的一環。 本文旨在探討深度學習工作負載中
    的頭像 發表于 12-09 11:01 ?1095次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學習</b><b class='flag-5'>工作</b>負載中<b class='flag-5'>GPU</b>與LPU的主要差異

    GPU深度學習中的應用 GPUs在圖形設計中的作用

    隨著人工智能技術的飛速發展,深度學習作為其核心部分,已經成為推動技術進步的重要力量。GPU(圖形處理單元)在深度學習中扮演著至關重要的角色,
    的頭像 發表于 11-19 10:55 ?722次閱讀

    NPU在深度學習中的應用

    設計的硬件加速器,它在深度學習中的應用日益廣泛。 1. NPU的基本概念 NPU是一種專門針對深度學習算法優化的處理器,它與傳統的CPU和GPU
    的頭像 發表于 11-14 15:17 ?887次閱讀

    pcie在深度學習中的應用

    深度學習模型通常需要大量的數據和強大的計算能力來訓練。傳統的CPU計算資源有限,難以滿足深度學習的需求。因此,GPU(圖形處理單元)和TPU
    的頭像 發表于 11-13 10:39 ?525次閱讀

    PyTorch GPU 加速訓練模型方法

    深度學習領域,GPU加速訓練模型已經成為提高訓練效率和縮短訓練時間的重要手段。PyTorch作為一個流行的深度學習框架,提供了豐富的工具和
    的頭像 發表于 11-05 17:43 ?651次閱讀

    GPU深度學習應用案例

    GPU深度學習中的應用廣泛且重要,以下是一些GPU深度學習應用案例: 一、圖像識別 圖像識別是
    的頭像 發表于 10-27 11:13 ?501次閱讀

    AI大模型與深度學習的關系

    AI大模型與深度學習之間存在著密不可分的關系,它們互為促進,相輔相成。以下是對兩者關系的介紹: 一、深度學習是AI大模型的基礎 技術支撐 :深度
    的頭像 發表于 10-23 15:25 ?1253次閱讀

    深度學習GPU加速效果如何

    圖形處理器(GPU)憑借其強大的并行計算能力,成為加速深度學習任務的理想選擇。
    的頭像 發表于 10-17 10:07 ?261次閱讀

    FPGA做深度學習能走多遠?

    。例如,在數據中心中,可以將 FPGA 與 CPU 或 GPU 結合使用,根據不同的任務需求進行靈活的資源分配和協同計算,提高整個系統的性能和效率。 ? 算法優化和創新:隨著深度學習算法的不斷發展和優化
    發表于 09-27 20:53

    深度學習中的時間序列分類方法

    時間序列分類(Time Series Classification, TSC)是機器學習深度學習領域的重要任務之一,廣泛應用于人體活動識別、系統監測、金融預測、醫療診斷等多個領域。隨著深度
    的頭像 發表于 07-09 15:54 ?1162次閱讀

    深度學習與nlp的區別在哪

    深度學習和自然語言處理(NLP)是計算機科學領域中兩個非常重要的研究方向。它們之間既有聯系,也有區別。本文將介紹深度學習與NLP的區別。 深度
    的頭像 發表于 07-05 09:47 ?1061次閱讀

    深度學習與卷積神經網絡的應用

    到自然語言處理,深度學習和CNN正逐步改變著我們的生活方式。本文將深入探討深度學習與卷積神經網絡的基本概念、工作原理及其在多個領域的應用,并
    的頭像 發表于 07-02 18:19 ?1045次閱讀

    新手小白怎么學GPU云服務器跑深度學習?

    新手小白想用GPU云服務器跑深度學習應該怎么做? 用個人主機通常pytorch可以跑但是LexNet,AlexNet可能就直接就跑不動,如何實現更經濟便捷的實現GPU云服務器
    發表于 06-11 17:09

    深度解析深度學習下的語義SLAM

    隨著深度學習技術的興起,計算機視覺的許多傳統領域都取得了突破性進展,例如目標的檢測、識別和分類等領域。近年來,研究人員開始在視覺SLAM算法中引入深度學習技術,使得
    發表于 04-23 17:18 ?1379次閱讀
    <b class='flag-5'>深度</b>解析<b class='flag-5'>深度</b><b class='flag-5'>學習</b>下的語義SLAM

    FPGA在深度學習應用中或將取代GPU

    現場可編程門陣列 (FPGA) 解決了 GPU 在運行深度學習模型時面臨的許多問題 在過去的十年里,人工智能的再一次興起使顯卡行業受益匪淺。英偉達 (Nvidia) 和 AMD 等公司的股價也大幅
    發表于 03-21 15:19
    永利博网址| 做生意风水知识| 澳门百家乐群代理| 信誉百家乐官网博彩网| 真人百家乐蓝盾娱乐平台| 德州扑克过牌| 百家乐官网的规则玩法| 百家乐蓝盾有赢钱的吗| 博彩qq群| 黄金城百家乐官网手机用户| 诺贝尔百家乐的玩法技巧和规则| 太谷县| 百家乐怎么看门路| 假日国际娱乐城| 百家乐l路单| 博彩通百家乐官网概率| 尊龙百家乐娱乐场开户注册 | 百家乐官网庄闲偏差有多大| 大发888手机客户端下载| 百家乐官网策略网络游戏信誉怎么样 | 大发888游戏下载平台| 真人百家乐官网的玩法技巧和规则 | 鄱阳县| 百家乐博娱乐场开户注册| 权威百家乐官网信誉网站| 顶级赌场官方直营网| 加州百家乐娱乐城| 百家乐官网有人赢过吗| 网上百家乐游戏玩法| 任你博百家乐官网的玩法技巧和规则 | 大发888下载免费游戏| 伟易博百家乐官网的玩法技巧和规则 | bet365提款多久到账| 百家乐体育宝贝| 海王星| 乐天堂百家乐娱乐场| 百家乐官网中庄闲比例| 大连娱网棋牌官网| 赌百家乐大小点桌| 申博百家乐官网下载| 优博娱乐网址|