那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

【每天學點AI】人工智能大模型評估標準有哪些?

華清遠見工控 ? 2024-10-17 16:49 ? 次閱讀

OpenAI新模型o1號稱編程能力8倍殺GPT-4o,MMLU媲美人類專家,MMLU是什么?評估大模型的標準是什么?

相信大家在閱讀大模型相關文檔的時候經常會看到MMLU,BBH,GSM8K,MATH,HumanEval,MBPP,C-Eval,CMMLU等等這些都是什么?大模型訓練完成后,如何客觀地評估其效果呢?

當然我們不能依靠主觀判斷,于是研究者們制定了一系列標準,用于測評大模型在不同數據集上的表現。而這些數據集( MMLU、C-Eval、GSM8K、MATH、HumanEval、MBPP、BBH 和 CMMLU),正是用于評估大模型性能的重要依據。

wKgaoWcQz5eARQUEAAGyTAwPZCY680.png

當然,它們也也可用于模型訓練。

MMLU這個基準包含STEM(科學、技術、工程、數學)、人文學科、社會學科等57個學科領域,難度從初級到高級不等。

wKgZoWcQz5eAR2TAAAG28-vYLGg926.png

C-Eval 是一個全面的中文基礎模型評估套件,它包含了13948個多項選擇題,涵蓋了52個不同的學科和四個難度級別。

wKgZoWcQz5eAWDLKAAIDXISzVW8694.png

GSM8K(Grade School Math)是一個由OpenAI發布的數據集,有8.5K個高質量語言多樣的小學數學問題組成。這些問題需要 2 到 8 個步驟來解決,解決方法主要是使用基本的算術運算(+ - / *)進行一連串的基本計算,以得出最終答案。

wKgaoWcQz5eAb5E9AAF4SUH2jqA445.png

雖然看起來很簡單,但很多大模型的表現都不太好。

MATH是一個包含 12500 個數學競賽問題的數據集,其中的每個問題都有一個完整的推導過程。

wKgZomcQz6KAL2nsAAKIjdVQXjY731.png

HumanEval是由 164 個簡單編程問題組成,主要用來評估語言理解、算法和簡單的數學。

wKgaomcQz6KAMaCFAAHS2H-Env0490.png

MBPP(Mostly Basic Python Programming)由大約 1000 個Python 編程問題組成,每個問題由任務描述、代碼解決方案和 3 個自動化測試用例組成。

wKgZomcQz6KAbEVGAAGu9iWXZn8426.png

BBH的全稱是BIG-Bench Hard,它是BIG-Bench數據集的一個子集,它專注于23個具有挑戰性的任務,這些任務超出了當前語言模型的能力范圍,BBH中的任務需要進行多步驟推理。

wKgZomcQz6GAfufmAAHGWG1ilKw764.png

CMMLU,一個全面的中文大模型評估數據集。它涵蓋了67個主題,涉及自然科學、社會科學、工程、人文、以及常識等,就是中文版的MMLU。

wKgaomcQz6KAaST5AAIhd_uKnB8781.png

通過這些評測數據集和評估標準,我們可以從不同角度系統地評估大模型的性能、泛化能力和魯棒性,為大模型的進一步研究和應用提供科學依據。

AI體系化學習路線

wKgaombzzxSAdyb-AAILSe8A5AM65.jpeg

學習資料免費領

? AI全體系學習路線超詳版

? AI體驗卡(AI實驗平臺體驗權限)

? 100余講AI視頻課程

? 項目源碼《從零開始訓練與部署YOLOV8》

? 170余篇AI經典論文

全體系課程詳情介紹

wKgaomcQz6KAd9SqAAJYAp3tiGg628.png

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31520

    瀏覽量

    270335
  • 人工智能
    +關注

    關注

    1796

    文章

    47674

    瀏覽量

    240292
  • 大模型
    +關注

    關注

    2

    文章

    2548

    瀏覽量

    3168
收藏 人收藏

    評論

    相關推薦

    每天學點AI】實戰圖像增強技術在人工智能圖像處理中的應用

    圖像增強(ImageEnhancement)是人工智能和計算機視覺中一項重要的技術,也是人工智能數據集預處理的一個重要步驟。它旨在提高圖像的質量,使其在視覺上更加清晰、細節更豐富。這項技術在自動駕駛
    的頭像 發表于 11-22 17:14 ?878次閱讀
    【<b class='flag-5'>每天</b><b class='flag-5'>學點</b><b class='flag-5'>AI</b>】實戰圖像增強技術在<b class='flag-5'>人工智能</b>圖像處理中的應用

    Meta推出可自我評估AI模型

    Meta近期宣布了一項重要的人工智能進展,即將發布一系列全新的人工智能模型。其中,一款能夠自我評估模型尤為引人注目,這一創新有望顯著減少
    的頭像 發表于 10-22 17:07 ?356次閱讀

    AI for Science:人工智能驅動科學創新》第6章人AI與能源科學讀后感

    幸得一好書,特此來分享。感謝平臺,感謝作者。受益匪淺。 在閱讀《AI for Science:人工智能驅動科學創新》的第6章后,我深刻感受到人工智能在能源科學領域中的巨大潛力和廣泛應用。這一章詳細
    發表于 10-14 09:27

    AI for Science:人工智能驅動科學創新》第4章-AI與生命科學讀后感

    很幸運社區給我一個閱讀此書的機會,感謝平臺。 《AI for Science:人工智能驅動科學創新》第4章關于AI與生命科學的部分,為我們揭示了人工智能技術在生命科學領域中的廣泛應用和
    發表于 10-14 09:21

    AI for Science:人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

    ,推動科學研究的深入發展。 總結 通過閱讀《AI for Science:人工智能驅動科學創新》第二章,我對AI for Science的技術支撐了更加全面和深入的理解。我深刻認識到
    發表于 10-14 09:16

    AI for Science:人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得

    周末收到一本新書,非常高興,也非常感謝平臺提供閱讀機會。 這是一本挺好的書,包裝精美,內容詳實,干活滿滿。 《AI for Science:人工智能驅動科學創新》這本書的第一章,作為整個著作的開篇
    發表于 10-14 09:12

    risc-v在人工智能圖像處理應用前景分析

    、RISC-V在人工智能圖像處理中的應用案例 目前,已有多個案例展示了RISC-V在人工智能圖像處理中的應用潛力。例如: Esperanto技術公司 :該公司制造的首款高性能RISC-V AI處理器旨在
    發表于 09-28 11:00

    人工智能ai 數電 模電 模擬集成電路原理 電路分析

    人工智能ai 數電 模電 模擬集成電路原理 電路分析 想問下哪些比較容易學 不過好像都是要學的
    發表于 09-26 15:24

    人工智能ai4s試讀申請

    目前人工智能在繪畫對話等大模型領域應用廣闊,ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題,本書對ai4s基本
    發表于 09-09 15:36

    名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅動科學創新

    ! 《AI for Science:人工智能驅動科學創新》 這本書便將為讀者徐徐展開AI for Science的美麗圖景,與大家一起去了解: 人工智能究竟幫科學家做了什么?
    發表于 09-09 13:54

    報名開啟!深圳(國際)通用人工智能大會將啟幕,國內外大咖齊聚話AI

    8月28日至30日,2024深圳(國際)通用人工智能大會暨深圳(國際)通用人工智能產業博覽會將在深圳國際會展中心(寶安)舉辦。大會以“魅力AI·無限未來”為主題,致力于打造全球通用人工智能
    發表于 08-22 15:00

    人工智能模型哪些

    人工智能(Artificial Intelligence, AI)作為21世紀最具影響力的技術之一,正以前所未有的速度改變著我們的生活、工作乃至整個社會結構。AI模型作為
    的頭像 發表于 07-04 17:28 ?1091次閱讀

    人工智能與大模型的關系與區別

    在科技日新月異的今天,人工智能AI)已成為推動社會進步的重要力量。而在人工智能的眾多分支中,大模型(Large Models)作為近年來興起的概念,以其巨大的參數數量和強大的計算能力
    的頭像 發表于 07-04 16:07 ?4121次閱讀

    卡諾模型助力AI騰飛:人工智能發展新視角

    在科技飛速發展的今天,人工智能AI)已經成為引領未來社會變革的重要力量。然而,如何有效評估AI技術的成熟度和應用價值,一直是業界和學術界關注的焦點。卡諾
    的頭像 發表于 06-14 09:52 ?390次閱讀

    嵌入式人工智能的就業方向哪些?

    。 國內外科技巨頭紛紛爭先入局,在微軟、谷歌、蘋果、臉書等積極布局人工智能的同時,國內的BAT、華為、小米等科技公司也相繼切入到嵌入式人工智能的賽道。那么嵌入式AI可就業的方向哪些呢
    發表于 02-26 10:17
    百家乐官网游戏资料网| 百家乐官网平台租用| 玫瑰国际娱乐城| 百家乐官网游戏机高手| 百家乐官网出千工具价格| 百家乐官网定位胆技巧| 百家乐游戏怎么刷钱| 威尼斯人娱乐场积分| 澳门赌博经历| 澳门百家乐官网大家乐眼| 李雷雷百家乐官网的奥妙| 百家乐伴侣| 明升娱乐城开户| 百家乐官网投注网站是多少| 百家乐官网手论坛48491| 百家乐游戏作弊| bet365最新地址| 北京百家乐官网网上投注| 百家乐对子赔率| 太阳城娱乐官方网站| 团风县| 赌百家乐官网到底能赌博赢| 百家乐赌博平台| 太阳城娱乐城去大丰收娱乐| 新澳门百家乐官网娱乐城| 百家乐输了好多钱| 大发888官方网页| 至尊百家乐官网年代| 百家乐小77论坛| 大发888在线娱乐游戏| 百家乐官网赌场国际| 做生意办公桌摆放风水| 大发888游戏代充省钱技巧| 网上百家乐官网赢钱公式| 百家乐最佳公式| 大发娱乐城开户| 百家乐官网永利娱乐平台| 南宁百家乐的玩法技巧和规则| 六合彩下注网| bet365体育在线下载| 百家乐官网园鼎丰娱乐城|