那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

地平線ViG基于視覺Mamba的通用視覺主干網絡

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2025-01-08 09:33 ? 次閱讀

ViG基于視覺Mamba的通用視覺主干網絡

Vision Mamba的成功預示著將視覺表征學習轉換為線性復雜度視覺序列表征學習具有巨大的潛力。盡管以Vision Mamba為代表的線性視覺序列表征學習結構在高清圖像上展示了顯著的效率優勢,但在更為常見的分辨率,仍略遜于Transformer和CNN。

為了進一步推進線性復雜度視覺序列表征學習的效率,我們結合當今時代計算設備的硬件特性去設計結構,將自然語言序列建模中硬件計算更為友好的門控線性注意力模塊GLA引入到視覺表征學習中,進一步設計參數高效的雙向建模、長短上下文的動態門控機制和硬件感知的雙向算子設計。通過以上設計,我們提出的ViG模型在各種任務上,精度、參數量、效率均優于主流的Transformer和CNN模型。

? 論文鏈接:

https://arxiv.org/abs/2405.18425

? 本工作已被AAAI 2025收錄。

Vision Mamba的成功預示著將視覺表征學習轉換為線性復雜度視覺序列表征學習具有巨大的潛力。盡管以Vision Mamba為代表的線性視覺序列表征學習結構在高清圖像上展示了顯著的效率優勢,但在更為常見的分辨率,仍略遜于Transformer和CNN。

為了進一步推進線性復雜度視覺序列表征學習的效率,我們結合當今時代計算設備的硬件特性去設計結構,將自然語言序列建模中對硬件計算更為友好的門控線性注意力模塊(Gated Linear Attention, GLA)引入到視覺表征學習中,并且進一步設計參數高效的雙向建模,長短上下文的動態門控機制和硬件感知的雙向算子設計。通過以上設計,我們提出的ViG模型在各種任務上,精度、參數量、效率均優于主流的Transformer和CNN模型。

背景介紹

Transformer的自注意力(Self-Attention, SA)機制需要對歷史所有的輸入進行交互,導致計算量隨著輸入序列長度呈現二次方增長:

bb11340c-ccdf-11ef-9310-92fbcf53809c.png

bb2ab1a2-ccdf-11ef-9310-92fbcf53809c.png

而線性注意力(Linear Attention, LA)機制則將注意力機制中的softmax算子替換為簡單的矩陣相乘,從而能夠通過矩陣乘法的結合律,先進行KV的計算從而將計算量壓縮為線性:

bb46be4c-ccdf-11ef-9310-92fbcf53809c.png

bb5eb38a-ccdf-11ef-9310-92fbcf53809c.pngbb76051c-ccdf-11ef-9310-92fbcf53809c.png ? 線性門控注意力(Gated Linear Attention, GLA)機制則進一步引入門控機制控制對歷史信息的遺忘和更新從而提高了原有線性注意力機制的表征能力: ?

bb9b95ca-ccdf-11ef-9310-92fbcf53809c.png

方法概述

雙向門控注意力機制

bbb23dde-ccdf-11ef-9310-92fbcf53809c.png

bbcdaf2e-ccdf-11ef-9310-92fbcf53809c.png

GLA原是用于處理一維時序信號如文本,圖片作為二維信號,在一維序列表達上具有多向的特點,針對這一特點,我們在原GLA的設計中,通過僅僅引入雙向門控設計bbd8d124-ccdf-11ef-9310-92fbcf53809c.png,便能夠極大地提升對視覺信號的空間表征能力。 ? 我們提出的BiGLA算子將前向和反向的視覺序列壓縮到固定大小的隱狀態bbf1f5fa-ccdf-11ef-9310-92fbcf53809c.pngbbf1f5fa-ccdf-11ef-9310-92fbcf53809c.png中去。 ?

硬件感知的雙向算子設計

為了進一步提升效率,我們設計了一個硬件感知的雙向實現,將BiGLA的前向掃描和后向掃描合并到一個Triton算子中,無需實例化反向序列,只需要維護一個單向視覺序列,便能夠進行多向掃描和融合,從而大幅減小顯存占用,并提升硬件運行速度。

bc1e3bec-ccdf-11ef-9310-92fbcf53809c.png

長短上下文的動態門控制機

BiGLA算子中雙向隱狀態bbf1f5fa-ccdf-11ef-9310-92fbcf53809c.pngbbf1f5fa-ccdf-11ef-9310-92fbcf53809c.png是沿著一維視覺序列進行長上下文全局壓縮,為了進一步加強對圖片二維空間細節的感知,我們引入了短上下文的卷積門控設計: ?

bc5e0f42-ccdf-11ef-9310-92fbcf53809c.png

結構設計

圍繞上述的基礎ViG模塊我們進一步搭建兩個結構變種:類似于Vision Transformer的樸素直筒結構ViG和類似于CNN的層次化金字塔結構ViG-H。

bc6f5248-ccdf-11ef-9310-92fbcf53809c.png

實驗結果

bc8511c8-ccdf-11ef-9310-92fbcf53809c.png

上圖顯示我們提出的ViG和ViG-H在參數量和精度的權衡上打敗了先進的基于Transformer和CNN的模型。特別值得注意的是,我們基礎ViG模塊同時具備全局感受野和線性復雜度,這是之前CNN,基于原始注意力機制Transformer和基于窗口化注意力機制Transformer所達不到的。

bc9c0f36-ccdf-11ef-9310-92fbcf53809c.png

上圖兩個表格也是顯示我們在速度上能夠和當前先進模型在224x224的圖片輸入上匹配。通過綜合對比我們可以看到,ViG-S 與 DeiT-B精度相當并且速度快了一倍,但只用了其27%的參數和20%的計算量。當分辨率增加到1024時,ViG-T相較于基于Transformer的DeiT-T將計算量縮減5.2倍,GPU顯存節省90%,速度快了3.8倍,精度更是高了20.7%。這些結果證實了ViG作為一個高效且可縮放的基礎視覺骨干網絡的廣闊潛力。

下圖則是進一步顯示了,我們隨著分辨率增大而凸顯的性能優勢,即隨著輸入圖片分辨率的增大,ViG計算量更低,顯存占用更少,速度更快,精度更高。

bcc17514-ccdf-11ef-9310-92fbcf53809c.png

路線圖也充分展示了設計的有效性。

bccca628-ccdf-11ef-9310-92fbcf53809c.png

我們的雙向設計只引入了2%的參數量便得到了11.1精度的提升,同時我們設計的硬件感知實現減少了19%的推理代價和13%的顯存占用,使其更加適合低算力場景的部署運行。

總結和展望

本工作提出的 ViG 方法在高效視覺序列建模領域展現了重要的創新性和實際應用價值。通過引入雙向門控線性注意力 (BiGLA) 和二維門控局部注入機制,ViG 有效彌補了現有方法在全局感知能力和局部細節捕獲上的不足,實現了兼具高效性與準確性的視覺表示學習。這一方法不僅在圖像分類、目標檢測和語義分割等任務中表現卓越,還顯著提升了模型在高分辨率場景下的性能與資源利用效率。

尤其值得注意的是,ViG 的硬件感知優化設計充分結合了計算設備的硬件特性,大幅降低了內存占用和計算成本。通過在多種任務中的驗證,ViG 展現了出色的精度、參數效率、顯存優化和推理速度,為未來高清視覺信號處理以及基于大型語言模型 (LLM) 的多模態序列表征學習提供了強有力的技術支撐。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 網絡
    +關注

    關注

    14

    文章

    7599

    瀏覽量

    89241
  • 模型
    +關注

    關注

    1

    文章

    3303

    瀏覽量

    49216
  • cnn
    cnn
    +關注

    關注

    3

    文章

    353

    瀏覽量

    22334
  • 地平線
    +關注

    關注

    0

    文章

    354

    瀏覽量

    15026

原文標題:更快、更強!地平線ViG,基于視覺Mamba的通用視覺主干網絡

文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    地平線楊銘:從無形視覺到有形芯片

    本文中,地平線聯合創始人、美國西北大學楊銘博士,來和大家分享“在芯片上加速神經網絡用于視覺任務的挑戰”。
    的頭像 發表于 07-20 09:31 ?4311次閱讀

    地平線發布中國首款嵌入式人工智能視覺芯片

    地平線終于發布了AI 芯片,兩顆面向計算機視覺的處理器,分別用于無人駕駛和智能攝像頭
    的頭像 發表于 12-21 09:33 ?4769次閱讀

    地平線旭日X3派試用體驗】開箱篇硬件介紹

    地平線旭日X3是夢寐以求的開發板,上圖,地平線是一家細心的公司,包裝都做得這么精致。還帶個散熱片。接口:一個CSI的相機接口,板載USB有3個,包含1個USB3.0和2個USB2.0,這里是一個板載
    發表于 07-26 19:13

    主干網,主干網系統結構是什么?

    主干網,主干網系統結構是什么? 主干網是通過橋接器與路由器把不同的子網或LAN連接起來形成單個總線或環型拓撲結構,這種網通常采用光纖做主干
    發表于 03-20 14:38 ?6412次閱讀

    地平線發布中國首款嵌入式AI視覺芯片

    地平線發布了中國第一代嵌入式AI視覺芯片,人工智能已上升為國家戰略,成為了國際科技競爭的制高點。國務院曾提出到2020年,中國AI技術將大世界一級水平,2025年AI將成為中國產業的主要驅動力。在人工智能發展過程中數據、場景、人才和計算力會是核心。
    發表于 12-16 11:28 ?1388次閱讀

    基于主干網的DNS流量檢測設計

    面對ISP主干網,為了檢測威脅其管理域內用戶安全的僵尸網絡、釣魚網站以及垃圾郵件等惡意活動,實時監測流經主干網邊界的DNS交互報文。并從域名的依賴性和使用位置兩個方面刻畫DNS活動行為模式,而后
    發表于 12-26 19:13 ?0次下載
    基于<b class='flag-5'>主干網</b>的DNS流量檢測設計

    地平線發布了首款嵌入式人工智能視覺芯片,助力人工智能應用的加速落地

    20日下午,地平線發布了中國首款嵌入式人工智能視覺芯片,它的兩個系列“征程”和“旭日”將圍繞智能駕駛、智慧城市、智能商業三大應用場景落地。
    發表于 07-03 09:14 ?805次閱讀

    地平線攜手全志科技助推AI視覺邊緣計算商用落地

    2018安博會上,地平線與全志科技宣布達成戰略合作,聯合推出了面向行業應用開發的集成了AI芯片與算法的嵌入式視覺人工智能一站式解決方案,該解決方案基于雙方共同推出的旭日X1600系列智能識別模組。
    的頭像 發表于 10-25 15:11 ?5000次閱讀

    比亞迪與地平線正式宣布達成定點合作

    比亞迪與地平線正式宣布達成定點合作,比亞迪將在其部分車型上搭載地平線高性能、大算力自動駕駛芯片征程5,打造更具競爭力的行泊一體方案,實現高等級自動駕駛功能。按照計劃,搭載地平線征程5的比亞迪車型最早
    的頭像 發表于 05-07 17:16 ?2885次閱讀

    地平線GitLab使用指導

    地平線開發者社區致力于連接地平線和開發者,為大家提供前沿技術內容和豐富的技術活動,打造更好的開發者文化和氛圍,共建開源生態
    的頭像 發表于 11-04 14:18 ?813次閱讀
    <b class='flag-5'>地平線</b>GitLab使用指導

    旭日,從地平線升起——地平線旭日X3派開箱試用

    地平線旭日X3派,開啟你的嵌入式開發之旅
    的頭像 發表于 11-08 15:22 ?1731次閱讀
    旭日,從<b class='flag-5'>地平線</b>升起——<b class='flag-5'>地平線</b>旭日X3派開箱試用

    地平線正式開源Sparse4D算法

    地平線將業內領先的純視覺自動駕駛算法——Sparse4D系列算法開源,推動行業更多開發者共同參與到端到端自動駕駛、稀疏感知等前沿技術方向的探索中。目前,Sparse4D算法已在GitHub平臺上線,開發者可關注地平線GitHub
    的頭像 發表于 01-23 10:18 ?848次閱讀

    地平線科研論文入選國際計算機視覺頂會ECCV 2024

    近日,地平線兩篇論文入選國際計算機視覺頂會ECCV 2024,自動駕駛算法技術再有新突破。
    的頭像 發表于 07-27 11:10 ?1000次閱讀
    <b class='flag-5'>地平線</b>科研論文入選國際計算機<b class='flag-5'>視覺</b>頂會ECCV 2024

    地平線Journey 3的電源設計

    電子發燒友網站提供《地平線Journey 3的電源設計.pdf》資料免費下載
    發表于 09-04 10:48 ?0次下載
    <b class='flag-5'>地平線</b>Journey 3的電源設計

    地平線SuperDrive相關問答

    近日,地平線SuperDrive智駕百人團體驗活動圓滿落幕,現場130余家媒體對地平線SuperDrive表現出濃厚的興趣并提出了諸多問題。對此,地平線特意整理了大家提出的典型問題并進行解答,希望能幫助大家更全面地了解這套擬人的
    的頭像 發表于 01-21 10:15 ?108次閱讀
    隆尧县| 百家乐隔一数打法| 百家乐官网7scs娱乐网| 百家乐官网投注限额| 百家乐官网注册开户送彩金| 立即博百家乐官网现金网| 百家乐官网鸿泰棋牌| 专业的百家乐官网玩家| 百家乐官网高手打| 百家乐里和的作用| 百家乐怎样玩的| 大发888娱乐厂场| 王牌国际| 百家乐官网翻天粤语下载| 百家乐官网园百利宫娱乐城信誉好...| 红宝石百家乐官网娱乐城 | 真人版百家乐官网试玩| 百家乐规则技法| 誉博百家乐327589| 大发888娱乐老虎机| 于田县| 网上百家乐官网内幕| 星河百家乐官网的玩法技巧和规则 | 网络百家乐官网软件真假| 新澳博百家乐官网娱乐城| 米其林百家乐官网的玩法技巧和规则| 百家乐去澳门| 大发888下载失败| 在线百家乐官网代理| 南宁百家乐官网赌| 百家乐玩法既规则| 海南太阳城大酒店| 潮州市| 百家乐官网游戏唯一官网站| 百家乐桌子豪华| 棋牌源码论坛| 百家乐官网百家乐官网游戏| 百家乐官网牌盒| 百家乐骗局视频| 百家乐官网硬币打法| 百家乐官网平注资讯|