今天,機器學習諸多理論的主要奠基人、美國三院院士Michael I. Jordan受聘為清華大學訪問教授,同時發表主題報告。Jordan認為,大數據的增長對傳統的數據科學理論提出了改變的需求,特別是統計學和計算學的相關理論,應該呈融合式的發展。Jordan特別提到,要在明年1月正式發布他們研究室的分布式機器學習框架Ray,集統計推理、機器學習、大數據處理、計算等為一體,超越Spark。
12月20日,清華大學正式宣布聘請計算機科學機器學習領域頂級學者Michael I. Jordan為訪問教授,聘請儀式在清華大學主樓進行。
除了清華大學校領導,來自人大、北大等高校的代表,以及企業界代表——百度副總裁王海峰出席了聘請儀式。
Michael I. Jordan是美國國家科學院院士、美國國家工程院院士以及美國藝術與科學院院士。Jordan教授也是美國加州大學伯克利分校Pehong Chen特聘教授,擔任大數據實驗室(AMPLab)共同主任、統計人工智能實驗室(SAIL)主任、統計系系主任。長期引領著機器學習、統計學的理論、方法與系統研究,是貝葉斯網絡、概率圖模型、層次隨機過程等多個重要方向的主要奠基者之一,也是統計學與機器學習交叉融合的主要推動者之一。
機器學習領域的“邁克爾·喬丹”
2016年4月,位于美國西雅圖的艾倫人工智能研究院(AI2)名叫Semantic Scholar的程序基于400萬份計算機領域的論文,計算出了最有影響力的學者排名。其中在機器學習領域的Michael I. Jordan以1185的得分位居第一。
2015年秋天,由微軟聯合創始人保羅·艾倫創立的艾倫人工智能研究所(Allen Institute for Artificial Intelligence)發布了一款名為Semantic Scholar的搜索服務,其瞄準的競爭對手是Google Scholar、PubMed和其他在線學術搜索引擎。這項計劃最初的目標是讓這款由人工智能驅動的搜索引擎能在一定程度上真正理解搜索出來的論文。但后來,Semantic Scholar有了一個新目標:衡量一位科學家或一所研究機構對之后研究的影響。
根據Science報道,Semantic Scholar將不僅僅為論文排名,也會根據某一影響因素為作者、機構排名。例如,Semantic Scholar發現,MIT是當今計算機科學領域影響力最大的機構——這并不奇怪。不過,誰是計算機科學領域影響力最大的科學家呢?
如果你要看原始引用次數最高的人,那么計算機科學領域當前頂尖科學家是加州大學伯克利分校的Scott Shenker。但使用Semantic Scholar得出的結果是,影響力最大的是Shenker的同事——同樣在加州大學伯克利分校工作的Michael I. Jordan。Jordan是人工智能領域的先驅,但他的名字極少為外人所知。艾倫人工智能研究所所長、Semantic Scholar的研發負責人Oren Etzioni戲稱其為“機器學習領域的邁克爾·喬丹”。
使用Semantic Scholar搜索Michael I. Jordan的結果
聘請儀式結束后,Michael I. Jordan現場作了題為《On Computational Thinking, Inferential Thinking and Data Science》的報告分享。
Jordan演講核心:融合計算理論與統計理論
科學和技術界中數據集大小和規模的快速增長,已經創造了關于數據科學的、新穎的基礎性視角的需求,這種視角應該是融合了推理(Inferential)和計算機科學的。
這些領域中傳統的視角和思路不足以解決“大數據”中凸顯的難題,這顯然是由于在基礎性的層面,二者存在突出的分歧。在計算機科學中,數據點數量的增長是”復雜性“的來源,必須通過算法或者硬件來訓練。而在統計學中,數據點數量的增長是”簡單性“的來源,它能讓推理在總體上變得更強大,引出漸進式的結果。
在形式層上,核心的統計學理論中缺乏計算機理論中的概念,比如“runtime”(運行時)的作用,而在核心的計算理論中,又缺乏統計學概念,比如“risk”的作用。二者之間的差異(Gap) 顯而易見。
演講展示了幾個研究,用以為計算學和統計學搭建起橋梁,其中包括在隱私和交流限制下的推理問題,以及推理的速度和準確率之間達成平衡的方法。
值得一提的是,在演講完后的問答環節中,有兩位提問的人總想讓Jordan在圖模型(graph model)和深度神經網絡(DNN)上選擇一種。不過,Jordan 認為,兩種方法都同樣屬于將統計融入了計算理論,因此——他不做選擇。
此前,新智元特邀編輯小猴機器人2011年曾對話Michael I. Jordan 教授,并在InfoQ 發表文章《對話機器學習大神 Michael Jordan:深度模型》。
在5年以前,喬丹教授就認為,統計或者機器學習需要更加深入的與計算機科學系統和數據庫接觸,并不僅僅與具有人工智能的人。這一直是過去的幾十年里正在進行的,并且直到現在仍然保持著“機器學習”的熱點。在當時的采訪中,小猴機器人了解到,喬丹教授從2006年到2011年在伯克利分?!癛AD實驗室”,直到現在在“AMP實驗室”,在這段時間里一直都做著這樣的事情。
采訪中提到,喬丹教授相對于術語“神經網絡”用法的重塑形象,更偏向于“深度學習”。在其他的工程領域里,利用流水線、流程圖和分層體系結構來構建復雜系統的想法非常根深蒂固。而在機器學習的領域,尤其應該研究這些原則來構建系統。這個詞“深”僅僅意味著——分層,喬丹教授深深的希望這個語言最終演變成如此簡單的文字。他希望并期待看到更多的人開發使用其他類型模塊、管道的體系結構,并不僅僅限制在“神經元”的層次。
神經科學——在接下來幾百年的重大科學領域之一——我們仍然不是很了解在神經網絡中想法是如何產生的,仍然看不到作為思想的主要產生器的神經科學,如何能夠在細節上打造推理和決策系統。相比之下,計算機領域的一些假設,比如“并行是好的”或者“分層是好的”,已經足以支撐人們對大腦工作機制的理解。
喬丹教授補充舉例道,在神經網絡的早期他還是一個博士研究生,反向傳播算法還沒有被發現,重點在Hebb規則和其他的“神經合理”的算法,任何大腦不能做的事情都被避免了。他們需要變得很純粹來發現人們思考的新形式。接著Dave Rumelhart開始探索反向傳播算法——這顯然是跳出于神經合理約束的——突然這個系統變得如此強大。這對他產生了很深刻的影響。這告訴我們,不要對主題和科學的模型強加人工的限制,因為我們仍然還不懂。
喬丹教授的理解是,許多“深度學習成功案例”涉及了監督學習(如反向傳播算法)和大量的數據。涉及到大量線性度、光滑非線性以及隨機梯度下降的分層結構似乎能夠記住大量模式的數字,同時在模式之間插值非常光滑。此外,這種結構似乎能夠放棄無關緊要的細節,特別是如果在合適的視覺領域加上權重分擔。它還有一些總體上的優點總之是一個很有吸引力的組合。但是,這種組合并沒有“神經”的感覺,尤其是需要大量的數據標簽。
事實上,無監督學習一直被認為是圣杯。這大概是大腦擅長什么,和真正需要什么來建立真的“大腦啟發式電腦”。但是在如何區分真正的進步和炒作上還存有困難。根據喬丹的理解,至少在視覺方面,非監督學習的想法并沒有對最近的一些結果負責,很多都是機遇大量數據集的監督訓練的結果。
接近非監督學習的一種方式是將好的“特征”或者“表示”的各種正式特點寫下來,并且將他們與現實世界相關的各種假設捆綁在一起。這在神經網絡文學上已經做了很久,在深度學習工作背景下的也做出了更多的工作。但是喬丹認為,要走的路是將那些正式的特征放進放進優化函數或者貝葉斯先驗,并且制定程序來明確優化整合它們。這將是很困難的,這是一個持續的優化的問題。在一些近期的深度學習工作中,有一個不同的策略——使用自己喜歡的神經網絡結構來分析一些數據,并且說“看,這表達了那些想要的、并沒有包括進去的性質”。這是舊式的神經網絡推理,它被認為僅僅是“神經”,僅僅包含了某種特殊的調料。這個邏輯是完全沒有用的。
最后,喬丹教授談到了哲學的層面,他認為神經網絡是工具箱中重要工具之一。但當他被業界咨詢的時候,卻很少提到那種工具。工業界里人往往期望解決一系列的問題,通常不涉及上文所說的神經網絡的“模式識別”的問題。比如說如下這些問題:
(1) 該怎樣建立一段時間內的預算的模型,能夠讓我得到想要精確程度的結果,并且不管我有多少數據?
(2) 怎樣才能獲得我的數據庫所有查詢的表現的有意義的錯誤信息或者其他衡量方法的信息?
(3) 怎樣才能與數據庫思維(如連接)合并統計思維,以使我能夠有效地清除數據和合并異構數據源?
(4) 該如何可視化數據,一般我該如何減少我地數據并且將我的推論展示給別人,讓他們理解這是怎么回事?
(5) 該如何做診斷,這樣我就不會推出一個有缺陷地系統,或者找出一個現有地系統被損壞了?
(6) 該如何處理非平穩性?
(7) 該如何做一些有針對性地實驗,其中合并了我巨大地現有數據集,以使我能夠斷言一些變量有一些因果關系?
以下是今天 Jordan 教授清華大學演講部分演講PPT(編注:部分PPT標題顯示不完整,原本如此,非拍攝或后期處理原因):
Jordan 從一個職位描述講起,介紹大數據帶來的挑戰,引出演講主題:“大數據”時代同時需要計算思維和推理思維。
計算思維指的是:提娶建模、擴展性、魯棒性等等
推理思維指的是:思考數據背后的真實世界現象;考慮抽樣模型;開發能從數據“回饋”到潛在現象的程序。
隱私與推理:差分隱私
計算與推理
推理質量與經典的計算資源,比如時間和空間,如何平衡?
很難!
計算與推理的機制和邊界
Jordan 所在研究機構與合作伙伴
大數據軟件的增長情況
Spark 之后的下一個平臺:Ray
Jordan 介紹說,他們研究室開發的 Ray 將于明年一月份左右發布。Ray 集統計推理、機器學習、大數據處理、計算等為一體。
動力源于構建更好的分布式機器學習框架
目標:
在單機上運行相同的代碼和簇;對既有的代碼進行最小化的修正,讓其變得可分布;有效地支持大量的小任務;在任務間有效地分享數據
運行模型
例子:遞歸神經網絡計算的依存圖
代碼運行案例
系統架構
特點:低延遲、個性化和快速變化。
評論