那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

IQ測試是否能測量AI的推理能力?

mK5P_AItists ? 來源:未知 ? 作者:胡薇 ? 2018-07-17 14:33 ? 次閱讀

阿基米德基于對物體體積的抽象理解,悟到了物體的體積與物體浮力之間的關系。這就是抽象推理的魔力?;?a href="http://www.qldv.cn/tags/神經網絡/" target="_blank">神經網絡機器學習模型取得了驚人的成績,但是測量其推理抽象概念的能力卻是非常困難的。雖然人工智能已經可以在策略游戲的對戰(zhàn)中戰(zhàn)勝人類,但是卻在一些簡單任務方面“無能為力”,特別是需要在新環(huán)境中發(fā)現并重新構建抽象概念。

舉個例子,如果你只訓練AI計算三角形的屬性,那么,你訓練的AI系統永遠無法計算正方形或者其他沒有訓練過的形狀的屬性。

又比如下邊這道簡單的IQ測試題。

IQ測試給了DeepMind靈感,是不是也能用其測量AI的推理能力呢?

在以往解決通用學習系統努力的基礎上,DeepMind最新論文提出了一種如何測量機器模型認知能力的方法,并表達了關于泛化的一些重要見解。

要構建更好、更智能的系統,使得神經網絡能夠處理抽象概念,需要對其進行改進。

此方法的靈感來源于IQ測試。

創(chuàng)建抽象推理數據集

標準的人類智商測試中,通常要求測試者通過應用他們日常經驗學習的原則來解釋感知上簡單的視覺場景。

例如,人類測試者可能已經通過觀察植物或建筑物的增長,通過在數學課上學習加法,或通過跟蹤銀行余額獲取利息增長的情況來了解“漸進”(一些屬性能夠增加的概念)。

然后把這些感性認識上升到理性認識,從而對測試題進行推斷預測,例如圖形的數量、大小,甚至沿著序列增加顏色強度。

現在機器學習仍然無法理解一些看似簡單的“日常體驗”,這意味著,人類無法輕易地衡量AI將知識從現實世界轉移到視覺推理測試的能力。

基于此認知,DeepMind設計一個實驗,希望使人類視覺推理測試得到很好的利用。這一研究不是從日常生活到視覺推理問題(如人類測試)的知識轉移,而是研究知識從一組受控的視覺推理問題轉移到另一組問題。

為實現這一目標,DeepMind構建了一個用于創(chuàng)建矩陣問題的生成器,涉及一組抽象因子,包括“漸進”之類的關系以及“顏色”和“大小”等屬性。 雖然問題生成器使用了一小組潛在因子,但它仍然會產生大量獨特的問題。

接下來,DeepMind約束生成器可用的因子或組合,以便創(chuàng)建用于訓練和測試模型的不同問題集,以度量模型可以推廣到留存的測試集的程度。

例如,創(chuàng)建了一組謎題訓練集,其中只有在應用于線條顏色時才會遇到漸進關系,而在應用于形狀大小時會遇到測試集。如果模型在該測試集上表現良好,它將提供推斷和應用抽象概念的能力的證據,即使在之前從未見過進展的情況下也是如此。

有希望的抽象推理證據

在機器學習評估中應用的典型的泛化機制中,訓練和測試數據來自于相同的基礎分布,測試的所有網絡都表現出良好的泛化誤差,其中一些在略高于75%的情況下實現了令人印象深刻的絕對性能。性能最佳的網絡明確地計算了不同圖像面板之間的關系,并且并行地評估了每個潛在答案的適用性。DeepMind將此架構稱為Wild RelationNetwork(WReN)。

當需要在先前看到的屬性值之間使用屬性值“插值”來推理,以及在不熟悉的組合中應用已知的抽象關系時,模型的泛化效果顯著。然而,在“外推”機制中,同樣的網絡表現得糟糕得多,在這種情況下,測試集中的屬性值并不與訓練中看到的值處于相同的范圍內。

這種事情發(fā)生在當訓練集中有深顏色的物體而測試集中是淺顏色的物體的謎題中。當模型被訓練來應用以前所見的關系(比如形狀的數量)到一個新的屬性(如大小)時,泛化性能也會更糟。

最后,當訓練模型不僅預測正確的答案,而且還預測答案的“原因”(即應該考慮解決這個難題的特定關系和屬性)時,DeepMind稱觀察到了改進的泛化性能。

有趣的是,在中性分割中(the neutral split),模型的準確性與它推斷矩陣下正確關系的能力密切相關:當解釋正確時,模型會選擇當時正確的答案的概率為87%,但當它的解釋錯誤時,性能下降到只有32%。這表明,當模型正確地推斷出任務背后的抽象概念時,能夠獲得更好的性能。

更微妙的泛化方法

目前的文獻關注于基于神經網絡的機器學習方法的優(yōu)缺點,通常是基于它們的能力或泛化的失敗。DeepMind的結果表明,得出關于泛化的普遍結論可能是沒有幫助的:測試的神經網絡在某些泛化狀態(tài)下表現得很好,而在其他狀態(tài)下表現得很差。

它們的成功是由一系列因素決定的,包括所使用的模型的架構,以及模型是否被訓練為其選擇的答案提供可解釋的“原因”。在幾乎所有的情況下,當需要推斷出超出其經驗的輸入或處理完全陌生的屬性時,系統表現很差;在這個至關重要的研究領域為未來的工作創(chuàng)造一個清晰的重點。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4781

    瀏覽量

    101177
  • AI
    AI
    +關注

    關注

    87

    文章

    31536

    瀏覽量

    270347
  • DeepMind
    +關注

    關注

    0

    文章

    131

    瀏覽量

    10942

原文標題:學界 | DeepMind想用IQ題測試AI的抽象思維能力,進展還不錯

文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    生成式AI推理技術、市場與未來

    (reasoning)能力,這一轉變將極大推動上層應用的發(fā)展。 紅杉資本近期指出,在可預見的未來,邏輯推理推理時計算將是一個重要主題,并開啟生成式AI的下一階段。新一輪競賽已然開始。
    的頭像 發(fā)表于 01-20 11:16 ?429次閱讀
    生成式<b class='flag-5'>AI</b><b class='flag-5'>推理</b>技術、市場與未來

    ads1282是否能采集單端信號?

    ads1282是否能采集單端信號,有沒有相關資料。
    發(fā)表于 12-24 07:47

    DAC8551是否能實現低參考電壓下依舊保持較好的比例輸出?

    正在設計一款產品,原本采用DAC8551,在參考電壓很低的時候,輸出無法達到較好的比例輸出,現擬采用DAC8501,是否能實現低參考電壓下依舊保持較好的比例輸出?
    發(fā)表于 12-12 07:42

    ADS1299怎么測試是否能正常工作,直接給他上電看電流值是否可以?

    對于ADS1299的裸芯片而言,怎么測試是否能正常工作,直接給他上電看電流值是否可以。 目前我將ADS1299的所有引腳引出,并連上AVDD(5V),AVSS(0V),AGND(0V),DVDD
    發(fā)表于 11-27 06:17

    DAC8568A和DAC8568C的代碼是否能通用?

    如題,DAC8568A和DAC8568C的代碼是否能通用?如果不通用,哪些地方需要做修改?謝謝
    發(fā)表于 11-14 06:06

    請問TLV320AIC3256 mini DSP是否能實現降噪算法?

    我想做一款設備實現雙MIC 降噪,請問TLV320AIC3256 mini DSP是否能實現降噪算法?如果不行,是否還有相近的芯片推薦
    發(fā)表于 10-24 08:01

    SDK里面是否能添加HPM5300系列芯片支持包?

    SDK里面是否能添加HPM5300系列芯片支持包?只發(fā)現板級支持包。
    發(fā)表于 09-27 10:01

    PSoC Creator是否能提供工作設計的功耗值?

    您好,PSoC Creator 是否能提供工作設計的功耗值? 我正在使用CY8C4245PVI-482 開發(fā)一個小項目。我的功率預算不能超過 150mA。
    發(fā)表于 07-03 07:22

    請問ESP32-S2是否能支持AMR-WB+?

    請問ESP32-S2是否能支持AMR-WB+ 網上查詢的結果是AMR-WB+的采樣速率是在16~48 kHz之間
    發(fā)表于 06-28 08:24

    微控制器是否能替代PLC

    在工業(yè)自動化和控制系統領域,微控制器(MCU)和可編程邏輯控制器(PLC)都是不可或缺的核心設備。它們各自具有獨特的功能和優(yōu)勢,并在不同的應用場景中發(fā)揮著重要作用。然而,關于微控制器是否能替代PLC的討論一直存在。本文將從多個角度深入探討這一問題,旨在為讀者提供清晰、全面的分析。
    的頭像 發(fā)表于 06-13 14:52 ?756次閱讀

    PSoC 4100S Max是否能保證IMO精確度規(guī)格低于±2.5%?

    溫度范圍在 -40deg 至 +105deg 的設備的 IMO 精度為 ±2.5%(紅色框)。 設備為 PSoC 4100S Max。 如果從 0 度到 +85 度使用該設備,IMO 的精度是否能
    發(fā)表于 05-20 06:24

    AI推理,和訓練有什么不同?

    如果要用一句話概括AI的訓練和推理的不同之處,我覺得用“臺上一分鐘,臺下十年功”最為貼切。話說小明已經和心目中的女神交往數年,在邀約女神出門這件事上積累了大量的經驗數據,但卻依然捉摸不透其中的玄機
    的頭像 發(fā)表于 04-29 08:06 ?210次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>,和訓練有什么不同?

    開發(fā)者手機 AI - 目標識別 demo

    。 NNRt host 實現了NNRt HDI接口功能,通過對接底層AI芯片接口為上層應用提供NPU硬件推理能力。 功能實現 JS從相機數據流獲取一張圖片,調用Native的接口進行目標識別的處理
    發(fā)表于 04-11 16:14

    stm32l4是否能支持ndis和ecm?

    各位大神,請教下stm32l4是否能支持ndis和ecm
    發(fā)表于 04-11 08:11

    AMD EPYC處理器:AI推理能力究竟有多強?

    如今,AMD EPYC處理器已經成為最常被選擇用于AI推理的服務器平臺,尤其是第四代Genoa EPYC 9004系列,執(zhí)行AI推理能力
    發(fā)表于 03-15 09:47 ?570次閱讀
    汉百家乐官网春| 百家乐官网怎么玩最保险| 网上百家乐赌博经历| 戒掉百家乐官网的玩法技巧和规则| 凤凰县| 全讯网是什么| 百家乐辅助分析软件| 百家乐二路珠无敌稳赢打法| 顶级赌场371betcwm| 百家乐官网投注平台信誉排名 | 百家乐官网赢钱| 百家乐官网五局八星| 澳门百家乐官网真人斗地主| 百家乐官网真钱斗地主| 百家乐返水1.2不限| 六合彩大全| 百家乐官网最新破| 战神百家乐的玩法技巧和规则 | 现金百家乐官网攻略| 大发888登陆网页| 聚宝盆百家乐的玩法技巧和规则| 百家乐代理网址| 破战百家乐官网的玩法技巧和规则| 澳门百家乐官网视频| 百樂坊娱乐| 澳门博彩8345cc| 大发888国际游戏平台| 百家乐网址| 威尼斯人娱乐城可靠吗| 百家乐赌博游戏平台| 百家乐最长的闲| 百家乐压分技巧| 百家乐客户端皇冠| 独赢百家乐全讯网| 金博士百家乐官网的玩法技巧和规则| 永利百家乐官网赌场娱乐网规则| 百家乐官网赌马| 新锦江百家乐官网赌场娱乐网规则 | 太阳百家乐网址| KK百家乐的玩法技巧和规则| 真人百家乐蓝盾赌场娱乐网规则|