那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI視覺泛化應用過程遇到的機遇和挑戰(zhàn)

LiveVideoStack ? 來源:LiveVideoStack ? 作者:LiveVideoStack ? 2020-12-07 13:53 ? 次閱讀

AI就像一個加速器,正在滲透在多媒體應用的方方面面,改進甚至顛覆傳統(tǒng)的圖像視頻處理方法。本文整理自騰訊云高級研發(fā)工程師劉兆瑞在LiveVideoStackCon 2020北京站上的演講,將從超低碼率壓縮場景下AI技術(shù)在前置處理中的優(yōu)化、AI技術(shù)的畫質(zhì)修復探索以及智能編輯場景的落地實踐三個方面展開。

大家好,首先非常榮幸有機會收到LiveVideoStack邀請來和大家分享騰訊視頻云在AI視覺上的落地實踐與應用,以及AI視覺泛化應用過程遇到的機遇和挑戰(zhàn)。

首先簡單做個自我介紹,加入騰訊以后,就一直在騰訊視頻云工作,早先負責PSTN云通信平臺,之后進行極速高清轉(zhuǎn)碼平臺的研發(fā)工作,與此同時也針對視頻的場景和特性進行編碼器的優(yōu)化。現(xiàn)在主要負責騰訊明眸(畫質(zhì)修復、畫質(zhì)增強)的研發(fā)工作,該工作與騰訊多媒體實驗室聯(lián)合研發(fā),已經(jīng)在騰訊視頻云上得到比較好的落地與應用。 今天分享的內(nèi)容更多以一個工程師的角度,和大家分享我們是如何把AI視覺真正的落地,應用在廣泛、海量的視頻處理過程中。所以在技術(shù)選型上,可能不會去選擇目前state of the art的技術(shù),更多會考慮模型的穩(wěn)定性、泛化能力以及資源的消耗、成本。接下來的分享是我們在實際落地過程中遇到的問題、踩過的坑,以及我們的一些trick。希望能為做類似業(yè)務落地的同學提供一定的參考。

上圖是騰訊視頻云在直播點播媒體處理、智能編輯等方面的產(chǎn)品矩陣,可以看到,無論是直播、點播中應用的視頻壓縮和畫質(zhì)修復技術(shù),還是智能編輯中應用的審核、識別、標簽等技術(shù),都離不開AI的支持。 01極速高清,視頻壓縮的挑戰(zhàn) 近年來,視頻編碼領(lǐng)域也是在飛速發(fā)展,從H264編碼標準到現(xiàn)在的H265再到AV1。但是從實際用戶的使用情況觀察,目前H264標準依舊是主流,甚至90%以上的用戶還在使用H264。其實,H264已經(jīng)是十幾年前的標準,有很多可以優(yōu)化的痛點,我們希望可以結(jié)合AI技術(shù),使H264在當前標準的基礎(chǔ)上,獲得新的編碼壓縮增益。 1.1 極速高清,單一視頻的極致壓縮

首先簡單對騰訊云極速高清產(chǎn)品做個定義,簡單而言它是一個結(jié)合了前置處理、編碼器優(yōu)化的整體視頻壓縮解決方案。給客戶提供更低碼率的同時,保證主觀感受不變差,甚至更好的主觀感受。 提到壓縮肯定離不開編碼器,從編碼器角度來說,目前x264其實是非常成熟、優(yōu)秀的編碼器,但它仍然存在一定優(yōu)化空間,比如x264是通用的編碼器,不會針對一些垂直領(lǐng)域去做調(diào)優(yōu),但對于云服務的一些垂直場景,編碼器內(nèi)部還有很多可以調(diào)試優(yōu)化的地方。在不同垂直品類的視頻場景,我們在碼率控制、rdo分析、deblock濾波等等編碼器內(nèi)部都做了新的編碼工具。同時視頻源的質(zhì)量也是參差不齊的,所以針對不同質(zhì)量的視頻源會進行銳化、去噪等輔助操作。極速高清方案整體壓縮下來,與普通轉(zhuǎn)碼相比會有額外20%-40%的碼率節(jié)省。 1.2 場景分類,海量視頻的分類壓縮 但是對于云上業(yè)務,每天轉(zhuǎn)碼海量的視頻,我們不可能針對每個視頻tune編碼特性和參數(shù),而我們在編碼器上很多優(yōu)化的編碼工具都是針對垂直場景,如果使用場景不匹配,會出現(xiàn)一定的反效果。所以針對不同場景、不同品類,和編碼團隊配合,更好的使用編碼工具是非常有意義的一件事。

上圖是一個簡單的直觀對比,左邊兩張圖像使用同樣的銳化強度處理,但游戲場景會有失真的情況。從編碼器的對比來看,如果你使用同樣crf35的編碼強度去壓縮,可以發(fā)現(xiàn)大逃殺類游戲已經(jīng)產(chǎn)生了大量模糊,但秀場視頻還能夠保持不錯的質(zhì)量感官。

前面提到視頻場景分類的必要性,我們在場景分類的模型選擇上是基于CNN的,主要是考慮CNN模型已經(jīng)非常成熟、穩(wěn)定,同時資源的消耗也比較低,速度能夠達到我們實時的需求。此外,CNN在推理過程中使用CPU就可以達到我們的要求,這也是一個非常誘人的優(yōu)點,畢竟在很多情況下,GPU資源還是相對比較稀缺。 1.3 基于AI的輔助壓縮

我們通過場景分類來更好的利用編碼特性和工具,但我們也知道在編碼中沒有極限,尤其是To B服務要滿足客戶的各類需求。比如實際場景中的一個例子,源是非常復雜的高動態(tài)的MV類視頻,需要輸出720P@30fps,并且壓縮到500Kbps以下,同時因為播放端等因素限制,必須使用H264編碼。上圖是使用x264編碼器在slow復雜度下壓縮出來的效果,可以看到這個壓縮出來的結(jié)果還是比較差。

下面跟大家分享下,我們對于這個問題的嘗試和思考過程。我們知道碼率、質(zhì)量和分辨率之間是有一個間隔交錯的區(qū)間,也就是說在碼率非常低的情況下,低分辨率的質(zhì)量(視覺效果)可能會優(yōu)于高分辨率。從原理上來看,低分辨率和高分辨率相比,細節(jié)信息是更少的。用低碼率來壓縮高分辨率視頻,會出現(xiàn)非常多的塊效應。而低分率視頻對人眼的感官來說只是模糊、不夠清晰。因此可以通過一些模糊、去噪的手段,主動減少一些視頻細節(jié)。這樣處理后,整個視頻的塊效應變少了,當然也會帶來額外的模糊效應。從客觀指標來看(PSNR、SSIM、VMAF),各個指標都有比較大的降低,雖然主觀有一定提升,但從客觀指標和整體方案來看,并不完美。

首先分析下模糊方案的缺點,模糊去噪的處理過程中,并不知道編碼器的傾向喜好,會按照去噪算法統(tǒng)一的磨平細節(jié),而沒有考慮編碼過程。所以我們思考是否可以基于AI視覺的技術(shù),做一個reduce artifact的filter。我們希望這個filter能夠主動磨掉一些細節(jié),使視頻和編碼器有更好的親和性,也就是說這個視頻會更容易被編碼器壓縮,與此同時它不會把人眼關(guān)注的、明顯的邊緣磨掉,也就是在保證主體清晰度的前提下,編碼客觀指標也不會大幅下降。我們在模型訓練的過程中,引入了編碼過程,shuffle后還原的圖像不直接計算loss,而是進行一次視頻壓縮,用壓縮后的圖像來計算loss。低碼率壓縮時,先經(jīng)過reduce artifact處理,再進行轉(zhuǎn)碼,畫面的人眼感官會有一個顯著的提升。 02騰訊明眸—永恒的追求,畫質(zhì)提升 2.1 視頻超分辨率

提到畫質(zhì)修復、畫質(zhì)增強,肯定離不開超分辨率。目前超分辨技術(shù)已經(jīng)取得一定的突破,可以大規(guī)模的落地使用。其中,基于ResNet的WDSR模型目前有比較好的超分效果和穩(wěn)定性。基于WDSR的視頻超分有比較好的連貫性和穩(wěn)定性,對每一個視頻幀獨立處理,連接成視頻后不會有頓挫、抖動現(xiàn)象。 實際場景挑戰(zhàn) — 訓練數(shù)據(jù)

在實際落地的過程中,還有很多新的問題需要關(guān)注和解決。首先訓練數(shù)據(jù)非常重要,以上圖為例,左邊的視頻已經(jīng)有非常多噪點和模糊的情況,如果像實驗環(huán)境下的視頻一樣使用無損的下采樣數(shù)據(jù)進行訓練,效果其實是微乎其微的。針對這樣的情況,我們會把圖像進行下采樣,然后用比較高的CRF值(比較差的編碼質(zhì)量)對這個圖像進行編碼,這樣訓練數(shù)據(jù)中就有很多的噪點、偽影信息,訓練出來的模型也會有比較好的去偽影能力。 海量視頻的分類超分

對于云上業(yè)務來說,每天需要處理海量的視頻數(shù)據(jù)。如果對一個高清晰的視頻進行超分,同時超分的模型是由一個高CRF數(shù)據(jù)集訓練提供,會發(fā)現(xiàn)超分后視頻的很多細節(jié)被磨平損失,反之亦然。所以不同訓練數(shù)據(jù)構(gòu)造的模型與視頻源之間要有一定的匹配關(guān)系。針對這種場景,我們通過CRF值來構(gòu)造多種壓縮強度的數(shù)據(jù)源,進而用這些數(shù)據(jù)源訓練出不同強度的超分模型。當需要進行超分處理時,先使用基于CNN清晰度分類模型,對視頻源進行分類,判斷視頻源的清晰程度,然后使用跟清晰程度匹配的超分模型來進行處理。 Y or RGB?

接下來跟大家分享下落地過程中遇到的問題。團隊最開始基于Y通道進行超分,但經(jīng)過一段時間的運營,發(fā)現(xiàn)視頻源是清晰的情況下,如果單獨把Y通道單獨提取出來會有很多奇怪的紋理和毛刺,超分后會放大這些異常。如果基于RGB超分則不會有這樣的問題。雖然Y通道有自身的缺點,但在實際的落地過程中,很多場景還是離不開基于Y通道的超分。比如直播中的 4K超分,為了保證實時性,會對一路直播流進行分布式的拆分,路由到多臺GPU節(jié)點進行處理,而在分布式超分的場景中,使用Y通道傳輸可以節(jié)省帶寬的消耗。 老片場景超分辨率:細節(jié)補足與幀間穩(wěn)定性

對于一些老片的場景,基于ResNet和CNN的超分模型,雖然可以提升視頻質(zhì)量,但是其對視頻細節(jié)的捕捉能力還不夠強,上述模型可以把一個非常差的視頻提升到還不錯的程度,但與目前所認可的高清還有一段差距。這種老片的視頻場景,可以通過GAN網(wǎng)絡來優(yōu)化,GAN網(wǎng)絡具有比較強的細節(jié)補充能力,這種補齊比較符合人眼感官,帶來視覺效果的提升。當然,GAN網(wǎng)絡在實際落地的過程中,還有很多需要解決的問題,首要問題就是GAN的不穩(wěn)定性和幀間一致性的優(yōu)化。 2.2 快速、可控的色彩增強

在色彩增強方面,這里將MobileNet的特征與HSV色彩直方圖相結(jié)合,作為一個融合特征去分類訓練,通過這個模型來獲取調(diào)整對比度、亮度和色度的參數(shù)。這樣處理后的模型比較小,速度也非常快,有利于大規(guī)模落地使用;其次,它不是端到端的處理,所以整個過程是可控的,由于顏色的變換對于人眼來說是非常敏感的,因此在落地的過程中,我們也更傾向于使用中間過程可控的方式。

從上面三張圖片的對比來看,足球和暗場景都會使色彩變的更加鮮艷,同時對于游戲場景,也能比較好地保證原始視頻顏色的本真。 2.3 視頻流暢度提升,視頻插幀

最后再介紹下我們在視頻插幀所做的工作。相比于光流法,落地過程中更傾向于CAIN模型結(jié)構(gòu)。CAIN網(wǎng)絡的特性在于下限很高,穩(wěn)定性比較強,很少有大面積的模糊錯插。當然與光流法相比,CAIN插出來的清晰度較差。場景分割也是插幀中必不可少的一項操作,對于判斷出的場景分割點,可以跳過不進行插幀,避免變化太大的問題。場景分割的實現(xiàn)方案可以考慮移植編碼器的screencut算法,其在性能和穩(wěn)定性上都經(jīng)過了千錘百煉的優(yōu)化,適用于大規(guī)模的落地使用。

上圖是我們使用插幀效果的對比,雖然手部有一定程度的模糊,但在視頻播放過程中,由于前后兩幀都是清晰的,考慮到視覺殘留效應,這種小的模糊是完全可以接受的。 03云端全鏈路視頻智能生產(chǎn) 最后再介紹下我們在視頻編輯部分所支持的一些能力。 3.1 制作云 — 從生產(chǎn)、編輯到消費的全鏈路

視頻制作云,其集成了新一代的云端遠程界面制作,通過超低延時協(xié)議把各地信號流傳到云端進行導播,支持了在線剪輯和AI識別等處理,同時我們也為企業(yè)也提供了從生產(chǎn)到編輯到消費的全鏈路,支持一鍵分發(fā)到各大消息平臺。

騰訊微剪,首發(fā)獨創(chuàng)的小程序視頻編輯工具,快速集成,支持音樂、濾鏡等特效 。支持智能模板,根據(jù)輸入素材自動視圖拼接生成視頻。

在直播制作方面,我們提供了云導播臺。云導播臺的優(yōu)勢就在于操作簡單,功能上支持2s快速切換,直播內(nèi)容無縫銜接。同時,云導播臺是基于互聯(lián)網(wǎng)的,所以非常容易支持一些互聯(lián)網(wǎng)活動,比如支持直播過程中的實時發(fā)放紅包和優(yōu)惠券。

責任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3667

    瀏覽量

    135237
  • 視頻
    +關(guān)注

    關(guān)注

    6

    文章

    1956

    瀏覽量

    73139
  • AI視覺
    +關(guān)注

    關(guān)注

    0

    文章

    66

    瀏覽量

    4510

原文標題:AI視覺,視頻云新挑戰(zhàn)的解決之道

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    AI醫(yī)療深度融合機遇挑戰(zhàn)并存

    2024年,醫(yī)療AI步入轉(zhuǎn)折期,挑戰(zhàn)與新生并存。
    的頭像 發(fā)表于 12-16 13:52 ?317次閱讀

    產(chǎn)業(yè)"內(nèi)卷"下磁性元件面臨的機遇挑戰(zhàn)

    面對產(chǎn)業(yè)內(nèi)卷的大環(huán)境,磁性元件行業(yè)究竟面臨著怎樣的機遇挑戰(zhàn)?企業(yè)又該如何在利潤空間不斷緊縮的夾縫中求生存、謀發(fā)展? 伴隨市場環(huán)境的日益復雜多變,以及消費者需求的多元與精細化,磁性元件產(chǎn)業(yè)逐漸步入
    的頭像 發(fā)表于 12-05 11:09 ?228次閱讀
    產(chǎn)業(yè)&quot;內(nèi)卷<b class='flag-5'>化</b>&quot;下磁性元件面臨的<b class='flag-5'>機遇</b>與<b class='flag-5'>挑戰(zhàn)</b>

    光刻膠的使用過程與原理

    本文介紹了光刻膠的使用過程與原理。
    的頭像 發(fā)表于 10-31 15:59 ?539次閱讀

    數(shù)字挑戰(zhàn)機遇分析

    了深刻的變革。然而,數(shù)字進程中也面臨著諸多挑戰(zhàn),需要我們深入分析和應對。 一、數(shù)字帶來的機遇 經(jīng)濟增長新動力 數(shù)字化為經(jīng)濟增長提供了新的動力。通過數(shù)字
    的頭像 發(fā)表于 10-28 09:09 ?859次閱讀

    AI for Science:人工智能驅(qū)動科學創(chuàng)新》第6章人AI與能源科學讀后感

    和國際合作等多個層面。這些內(nèi)容讓我更加認識到,在推動人工智能與能源科學融合的過程中,需要不斷探索和創(chuàng)新,以應對各種挑戰(zhàn)機遇。 最后,通過閱讀這一章,我深刻感受到人工智能對于能源科學的重要性。人工智能
    發(fā)表于 10-14 09:27

    AI for Science:人工智能驅(qū)動科學創(chuàng)新》第4章-AI與生命科學讀后感

    的深入發(fā)展。 3. 挑戰(zhàn)機遇并存 盡管AI在生命科學領(lǐng)域取得了顯著的成果,但也面臨著諸多挑戰(zhàn)。例如,數(shù)據(jù)隱私、算法偏見、倫理道德等問題都需要我們認真思考和解決。同時,如何更好地將
    發(fā)表于 10-14 09:21

    AFE031AIRGZT在使用過程遇到的疑問求解

    使用到貴司AFE031AIRGZT芯片,在使用過程遇到如下問題: 1.使用afe031.pdf 和sboa130a.pdf文檔中提到的電路連接,將芯片連接后,參考電壓REF1為2.7v左右,而
    發(fā)表于 09-24 07:19

    灌區(qū)信息面臨的挑戰(zhàn)分析

    灌區(qū)信息化作為現(xiàn)代農(nóng)業(yè)發(fā)展的重要支撐,旨在通過信息技術(shù)的深度融合與應用,實現(xiàn)水資源的高效管理、精準灌溉以及灌區(qū)運行的智能。然而,在推進灌區(qū)信息過程中,一系列挑戰(zhàn)也隨之浮現(xiàn),這些
    的頭像 發(fā)表于 09-12 17:45 ?438次閱讀
    灌區(qū)信息<b class='flag-5'>化</b>面臨的<b class='flag-5'>挑戰(zhàn)</b>分析

    數(shù)據(jù)中心的AI時代轉(zhuǎn)型:挑戰(zhàn)機遇

    隨著人工智能(AI)的迅速發(fā)展和廣泛應用,數(shù)據(jù)中心作為AI技術(shù)的基石,也面臨著前所未有的挑戰(zhàn)機遇。為了滿足AI的高性能和低延遲要求,數(shù)據(jù)中
    的頭像 發(fā)表于 07-24 08:28 ?565次閱讀
    數(shù)據(jù)中心的<b class='flag-5'>AI</b>時代轉(zhuǎn)型:<b class='flag-5'>挑戰(zhàn)</b>與<b class='flag-5'>機遇</b>

    探討數(shù)字背景下PMC的挑戰(zhàn)機遇

    在數(shù)字浪潮的席卷下,各行各業(yè)都面臨著前所未有的變革。對于負責產(chǎn)品物料控制(PMC)的企業(yè)來說,這一變革既是挑戰(zhàn)也是機遇。如何在數(shù)字背景下,抓住時代的脈搏,推動PMC管理的創(chuàng)新與升級
    的頭像 發(fā)表于 07-05 11:03 ?531次閱讀

    阿丘科技:生成式AI與行業(yè)視覺大模型驅(qū)動工業(yè)AI視覺2.0

    5月21日,阿丘科技CEO黃耀應邀參加北京機器視覺助力智能制造創(chuàng)新發(fā)展大會,并發(fā)表《AI+工業(yè)視覺探索與展望》主題演講,下文根據(jù)黃耀先生的主題演講主要內(nèi)容撰寫而成。可點擊文末“閱讀原文”下載原版
    的頭像 發(fā)表于 05-25 08:25 ?832次閱讀
    阿丘科技:生成式<b class='flag-5'>AI</b>與行業(yè)<b class='flag-5'>視覺</b>大模型驅(qū)動工業(yè)<b class='flag-5'>AI</b><b class='flag-5'>視覺</b>2.0

    焊接過程視覺監(jiān)控技術(shù)的應用與挑戰(zhàn)

    小編一起了解焊接過程視覺監(jiān)控技術(shù)的應用與挑戰(zhàn)視覺監(jiān)控技術(shù)的應用 視覺監(jiān)控技術(shù)通過攝像機和傳感器實時獲取焊接
    的頭像 發(fā)表于 05-22 11:30 ?455次閱讀
    焊接<b class='flag-5'>過程</b><b class='flag-5'>視覺</b>監(jiān)控技術(shù)的應用與<b class='flag-5'>挑戰(zhàn)</b>

    機遇挑戰(zhàn)并存的AI時代,三星如何在DRAM領(lǐng)域開拓創(chuàng)新?

    機遇挑戰(zhàn)并存的AI時代,三星如何在DRAM領(lǐng)域開拓創(chuàng)新?
    發(fā)表于 05-09 18:46 ?533次閱讀
    在<b class='flag-5'>機遇</b>與<b class='flag-5'>挑戰(zhàn)</b>并存的<b class='flag-5'>AI</b>時代,三星如何在DRAM領(lǐng)域開拓創(chuàng)新?

    ST motor profiler測試電機遇到的疑問求解

    ST motor profiler測試電機遇到問題請教各位! NUCLEO-F303RE ST開發(fā)板+X-NUCLEO-IHM08M1(自制板)測試電機4極內(nèi)轉(zhuǎn)子電機:4200k 電流1.2a 電壓
    發(fā)表于 04-17 07:24

    視覺焊縫跟蹤系統(tǒng)的發(fā)展趨勢與挑戰(zhàn)

    的不斷發(fā)展,視覺焊縫跟蹤系統(tǒng)高速發(fā)展的同時,也面臨著一系列的挑戰(zhàn)。 首先,隨著工業(yè)4.0的發(fā)展,對焊接過程的智能需求日益增長。未來的視覺
    的頭像 發(fā)表于 03-05 16:30 ?426次閱讀
    <b class='flag-5'>視覺</b>焊縫跟蹤系統(tǒng)的發(fā)展趨勢與<b class='flag-5'>挑戰(zhàn)</b>
    状元百家乐的玩法技巧和规则| 百合百家乐官网的玩法技巧和规则| 大发888娱乐城打发888打发8| 属蛇和属猪做生意吗| 百家乐官网怎样投注好| 威尼斯人娱乐城怎么赢| 百家乐规则技法| 百家乐官网游戏机博彩正网 | 我的做生意财位| 襄城县| 威尼斯人娱乐场怎么样| 博久百家乐论坛| 博联百家乐官网游戏| 大发888线上娱乐城| 百家乐新规则| 网络百家乐官网的玩法技巧和规则| 东明县| 威尼斯人娱乐电子游戏| 百家乐官网免费体验金| 百家乐官网游戏平台排名| 最新娱乐城注册送彩金| 金钱豹百家乐的玩法技巧和规则 | 百家乐官网的连庄连闲| 大发888真钱棋牌软件| 百家乐一起多少张牌| 罗盘对应24宿| 百家乐官网论坛博彩拉| 同江市| 金花娱乐城注册| 去澳门百家乐的玩法技巧和规则 | 网上百家乐作弊不| 新加坡百家乐官网赌法| 扶绥县| 大发888下注| 大地百家乐的玩法技巧和规则| 百家乐另类投注法| 百家乐官网是怎样算牌| 太阳城百家乐官网外挂| 双辽市| 鸿胜国际| 大发888游戏下载46|