這不是武俠世界——她已經(jīng)做到了。26歲的Holgate得到了第二條跆拳道黑帶。這次是算法的黑帶。Holgate花費數(shù)個星期沉浸于一個程序中,這次比肉搏更強大的訓(xùn)練是機器學(xué)習(xí)。作為谷歌Android部門的工程師,Holgate是今年機器學(xué)習(xí)忍者項目的18名程序員之一,項目的成員中由團隊中有天賦的程序員組成,成員們按照《安德的游戲》中的模式進行訓(xùn)練,為的是教給他們人工智能技術(shù)開發(fā)出更好的產(chǎn)品。即使這會讓他們寫的軟件更難以理解。
Christine Robson是谷歌公司內(nèi)部機器學(xué)習(xí)項目的產(chǎn)品經(jīng)理,他負責(zé)管理這一項目,他說道:“我們的口號是,你想成為機器學(xué)習(xí)忍者嗎?我們邀請谷歌的員工加入機器學(xué)習(xí)團隊,花6個月時間研究機器學(xué)習(xí),同時做一些項目,并從項目實踐中學(xué)習(xí)經(jīng)驗,在此期間會有導(dǎo)師手把手提供指導(dǎo)。”
Holgate四年前來到谷歌工作,那時她取得了計算機科學(xué)和數(shù)學(xué)的學(xué)位,這次培訓(xùn)機會對Holgate而言是一次掌握軟件領(lǐng)域最熱門的分支的機會:借助于學(xué)習(xí)算法和大量數(shù)據(jù),讓軟件完成相關(guān)任務(wù)。多年來,機器學(xué)習(xí)被視為是一種只屬于少數(shù)精英的學(xué)科。但現(xiàn)在這個時代結(jié)束了,機器學(xué)習(xí)由神經(jīng)網(wǎng)絡(luò)驅(qū)動,這一方式模仿生物大腦運作方式,最新研究結(jié)果表明機器學(xué)習(xí)能賦予計算機以人類力量,甚至在某些領(lǐng)域能夠超越人類力量。谷歌致力于在內(nèi)部擴張精英團隊,并期望將其變成一種常態(tài)。對于像 Holgate這樣的工程師,忍者項目是助其躋身于技術(shù)前沿的機會,在這一項目中他們可以從最優(yōu)秀的工程師那里學(xué)習(xí)最先進的技術(shù)。
Holgate說道:“這些人正在構(gòu)建的是一個荒唐的模型,并且他們都擁有博士學(xué)位。起初,我感到非常害怕,不過我學(xué)會了接受它。”
谷歌的6萬名員工近乎一半是工程師,所以這是個小項目。不過該項目象征著谷歌的認知轉(zhuǎn)換。盡管機器學(xué)習(xí)長久以來都是谷歌技術(shù)的一部分,并且谷歌已經(jīng)雇傭了不少該領(lǐng)域頂級專家,不過谷歌在今年貌似對這一技術(shù)更加感興趣了。在去年年底的一次電話會議上,谷歌總裁Sundar Pichai提出了提出了新的公司理念:“機器學(xué)習(xí)是核心,是我們重新思考我們所做事情的變革方式。我們正想盡辦法將它應(yīng)用到我們所有產(chǎn)品中:搜索引擎、廣告、YouTube或應(yīng)用商店。我們?nèi)蕴幱诔跗陔A段,但你可以發(fā)現(xiàn),我們正在以系統(tǒng)化的方式將機器學(xué)習(xí)應(yīng)用到所有的地方。”
顯然,如果谷歌想在所有的產(chǎn)品中應(yīng)用機器學(xué)習(xí),它需要工程師們掌握這項與傳統(tǒng)編程方式完全不同的技術(shù)。正如 Peter Domingos在機器學(xué)習(xí)領(lǐng)域非常受歡迎的《The Master Algorithm》一書中所寫的:“機器學(xué)習(xí)是一項朝陽技術(shù),是一種自我構(gòu)建的技術(shù)。”編寫出這樣一個系統(tǒng)你需要做如下工作:識別正確的數(shù)據(jù),選擇正確的算法,確保你構(gòu)建了成功運行的正確條件,最后相信這個系統(tǒng)的工作能力。
初識機器學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)
谷歌的機器學(xué)習(xí)團隊領(lǐng)導(dǎo)者Jeff Dean說道:“用這種方式思考如何解決問題的人越多,我們就會做得越好。如果每個工程師都具備一些機器學(xué)習(xí)的知識就好了。”
多年來,John Giannandrea一直都是谷歌機器學(xué)習(xí)領(lǐng)域的關(guān)鍵人物,最近他還成了谷歌搜索引擎部門的負責(zé)人。不過他在2010年剛來谷歌時,他對于機器學(xué)習(xí)或神經(jīng)網(wǎng)絡(luò)并沒有太多了解。2011年左右,一些來自神經(jīng)信息處理系統(tǒng)峰會(NIPS)的新聞讓他感到非常震撼。似乎在每年的NIPS上,總有一些團隊會宣布使用機器學(xué)習(xí)顛覆此前一直難以突破的問題,比如翻譯、語言識別或視覺問題等。
他說:“我第一次聽說這個NIPS峰會時,它并不出名,但是在過去的三年里,參會者數(shù)量激增。去年大約有6000人參加。”
Jeff Dean : 谷歌權(quán)威計算機科學(xué)家
這不僅促進了神經(jīng)網(wǎng)絡(luò)算法的發(fā)展,也帶來了來自摩爾定律效應(yīng)的更強大的計算能力,還有從谷歌、Facebook等企業(yè)的海量用戶行為中獲取的數(shù)據(jù)也出現(xiàn)了指數(shù)級增長 ,機器學(xué)習(xí)不斷提高的新時代開始了。Giannandrea與一些人一樣,相信機器學(xué)習(xí)是公司的核心。
谷歌對于機器學(xué)習(xí)的熱情不僅僅意味著編程技術(shù)的轉(zhuǎn)變,更是對科技做出的鄭重承諾,承諾將賦予計算機以前所未有的超能力。這項技術(shù)從大腦結(jié)構(gòu)得到啟發(fā),其最前沿是圍繞復(fù)雜的神經(jīng)網(wǎng)絡(luò)構(gòu)建深度學(xué)習(xí)算法。谷歌大腦是谷歌在深度學(xué)習(xí)領(lǐng)域的嘗試,而谷歌2014年1月以5億美元買下的人工智能企業(yè)DeepMind同樣把重點放在深度學(xué)習(xí)研究上。打敗圍棋世界冠軍的AlphaGo系統(tǒng)就是DeepMind公司設(shè)計的,這引發(fā)了人們對于智能機器人和殺人機器人的擔(dān)憂。
對于那些持有“人工智能將會殺死我們”態(tài)度的人們,Giannandrea認為他們不了解情況。Giannandrea認為機器學(xué)習(xí)系統(tǒng)無論是在醫(yī)療領(lǐng)域還是在汽車駕駛領(lǐng)域都將會是顛覆性的。雖然機器學(xué)習(xí)不會取代人類,但它會改變?nèi)祟悺?/p>
Giannandrea舉例說明了機器學(xué)習(xí)的力量,Google Photos這款產(chǎn)品能將用戶指出的圖像予以定位。Giannandrea說道:“當(dāng)人們第一次體驗這款產(chǎn)品時,他們會認為正發(fā)生著一些不同的事情,因為計算機不再只是通過計算為你生成推薦內(nèi)容,或者建議你看什么視頻了。事實上計算機正在理解圖片中的內(nèi)容。這是個真正新的領(lǐng)域。在某些狹窄領(lǐng)域內(nèi),你可以看到一些人認為這些學(xué)習(xí)系統(tǒng)已經(jīng)超越了人類。”
讓不可想象的產(chǎn)品成為可能
不可否認的是,谷歌一直都很理解機器學(xué)習(xí)的理念,谷歌的創(chuàng)始人更是畢生追隨人工智能的信徒。谷歌產(chǎn)品中已經(jīng)融入了機器學(xué)習(xí),不過最近谷歌對神經(jīng)網(wǎng)絡(luò)的關(guān)注度更高一些。
事實上,谷歌給工程師教授機器學(xué)習(xí)的內(nèi)部課程已經(jīng)超過十年時間了。2005年初,當(dāng)時負責(zé)搜索業(yè)務(wù)的Peter Norvig向研究科學(xué)家David Pablo Cohn提出建議,他指出應(yīng)該調(diào)查谷歌是否可以采用卡耐基梅隆大學(xué)組織的項目中的在線課堂。Cohn的結(jié)論是,只有谷歌自己才能教授這樣的內(nèi)部課堂,因為谷歌的運營規(guī)模遠遠超過其他機構(gòu)。因此,Norvig在43號樓預(yù)訂了一個大房間,每周三舉行一次兩小時的會議,就連Jeff Dean也參加了幾次。Cohn說道:“那是全世界最好的課堂。他們都是比我更優(yōu)秀的工程師!”這個課程火了,局面甚至有些失控,印度班加羅爾辦公室的人直熬到下半夜才能打進預(yù)訂電話。幾年以后,一些谷歌人一起將這些課程做成了短視頻,不再進行現(xiàn)場會議。Cohn認為這或許就是MOOC的前身。接下來的幾年里,谷歌還進行了其它幾次機器學(xué)習(xí)訓(xùn)練的嘗試,但這些嘗試缺乏條理和連續(xù)性。2010年Cohn離開谷歌之前曾說,機器學(xué)習(xí)突然就變成了谷歌的第一要務(wù)。
漸漸地,這些工程師在機器學(xué)習(xí)方面做出的努力越來越多的體現(xiàn)于谷歌的流行產(chǎn)品中。由于機器學(xué)習(xí)主要涵蓋的領(lǐng)域包括視覺、語音、聲音識別和翻譯,因而機器學(xué)習(xí)毫無疑問的成為了語音搜索、翻譯、照片等的關(guān)鍵部分。Jeff Dean是Big Table和MapReduce等顛覆性系統(tǒng)的共同創(chuàng)建者,他說:“之前,我們可能會在一個系統(tǒng)中的幾個子組件中采用機器學(xué)習(xí)。現(xiàn)在,我們其實在用機器學(xué)習(xí)取代整套系統(tǒng),而不是為每個部分構(gòu)建更好的機器學(xué)習(xí)模型。”
同時,機器學(xué)習(xí)還讓之前不可想象的產(chǎn)品功能成為了可能。比如,去年11月新發(fā)布了 Gmail的智能回復(fù)功能。這始于谷歌大腦項目的聯(lián)合創(chuàng)始人Greg Corrado與Gmail工程師Bálint Miklós的一次對話。Corrado之前曾與Gmail團隊合作過,一起研究在垃圾郵件檢測和郵件分類中機器學(xué)習(xí)算法的使用,但Miklós提出了一個更激進的方法。如果團隊能夠發(fā)明出通過機器學(xué)習(xí)自動為郵件生成回復(fù)的方法,就額可以使移動用戶免于在小鍵盤上敲下回復(fù)的麻煩。
谷歌讓Corrado和他自己的的團隊以及Gmail團隊保持緊密合作,這更增加了實現(xiàn)的可能性。Corrado說道:“機器學(xué)習(xí)既是一門科學(xué),也是一門藝術(shù),就像做飯一樣,雖然涉及到化學(xué)原理,但是要做一些真正有趣的事情,你必須要知道如何將面前的配料結(jié)合起來。”
用于語言理解的傳統(tǒng)人工智能方法取決于系統(tǒng)中嵌入的語言規(guī)則,但在這個項目中,系統(tǒng)采用自學(xué)的數(shù)據(jù)。
不過,使得智能回復(fù)真正可行的關(guān)鍵在于成功可以很容易界定,即實現(xiàn)像真實生活中郵件一樣的合理回復(fù)。
然而,該團隊開始測試智能回復(fù)的時候,用戶注意到一件奇怪的事:系統(tǒng)經(jīng)常會做出一些不合時宜的浪漫回復(fù)。Corrado說道:“它在不知如何回復(fù)的任何時候,傾向于回復(fù)‘我愛你’。這不是軟件漏洞,而是我們錯誤地讓它做了這件事。該程序某種程度上學(xué)會了人類行為微妙的一面。比如,你在走投無路的時候,說‘我愛你’就會是一個很好的防御策略。”
去年11月發(fā)布的智能回復(fù)取得了成功,現(xiàn)在Gmail Inbox應(yīng)用的用戶通常不用自己打一個字,僅需從三封推薦的郵件選擇一封就可以完成回復(fù)。這些推薦郵件的內(nèi)容經(jīng)常合乎情理到不可思議。手機Inbox用戶發(fā)送的回復(fù)中十分之一都是機器學(xué)習(xí)系統(tǒng)創(chuàng)建的。
機器學(xué)習(xí)的轉(zhuǎn)折
在谷歌證明機器學(xué)習(xí)高效性的一系列實例中,智能回復(fù)只是其中之一而已。但是或許當(dāng)機器學(xué)習(xí)成為搜索業(yè)務(wù)的重要部分時,或許轉(zhuǎn)折點才最終到來。搜索業(yè)務(wù)是谷歌的旗艦產(chǎn)品,是占據(jù)谷歌近乎所有收入的金庫。某種程度上,搜索一直都基于人工智能。但很多年來,谷歌最珍貴的算法曾為我們帶來‘ten blue links’(回復(fù)谷歌搜索請求的十條藍色鏈接),這注定是機器學(xué)習(xí)算法的重中之重。
某種程度上,這是一種文化抵制。久負盛名的搜索大師Amit Singhal曾是傳奇計算機科學(xué)家Gerald Salton的助手。Salton在文檔檢索方面的開創(chuàng)性工作啟發(fā)了Singhal,Singhal幫助修改了Brin和Page的研究生代碼,將其變?yōu)榭梢詳U展用于當(dāng)今網(wǎng)絡(luò)時代的程序。他從這些20世紀(jì)方法中梳理出了驚人的結(jié)果,并且有人懷疑是他將一些學(xué)習(xí)者帶入了這個相當(dāng)于谷歌命脈的復(fù)雜系統(tǒng)。
2014年初,谷歌的機器學(xué)習(xí)大師認為需要有所改變。Dean團隊設(shè)想的實驗后來證明對搜索能力至關(guān)重要:排序中的一個文件和查詢請求的匹配程度會有多好。
結(jié)果是有用的,該系統(tǒng)現(xiàn)在是搜索的一部分,名為Rank Brain,于2015年4月上線。谷歌還是秉持它以往的特色,在該系統(tǒng)究竟如何提升搜索性能上含糊不清,但Dean說道:“Rank Brain已融入大量查詢中”,并影響了實際的排名。另外,該系統(tǒng)效果顯著。谷歌搜索在計算排名時使用的幾百個信號中,Rank Brain的實用性排名第三。
谷歌的新挑戰(zhàn)是轉(zhuǎn)換其工程團隊以使大家都熟悉機器學(xué)習(xí)。這是現(xiàn)在其它許多公司也在追求的目標(biāo),尤其是Facebook,該公司和谷歌一樣是機器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域的巨鱷。這一領(lǐng)域內(nèi)應(yīng)屆畢業(yè)生的招聘競爭是很激烈的,谷歌力圖維持其早期的領(lǐng)導(dǎo)地位;多年來,學(xué)術(shù)界都有一個笑話:即便不需要,谷歌也在聘用最頂級的學(xué)生,而這只是為了避免他們?nèi)ジ偁帉κ帜抢铩omingos說道:“我的學(xué)生,不管是誰,總是會收到谷歌的offer。”現(xiàn)在,競爭變得更為激烈了。就在上周,谷歌宣布其將會在蘇黎世開設(shè)一個全新的機器學(xué)習(xí)研究實驗室,那會有一大堆工作崗位需要填補。
為未來人工智能訓(xùn)練更多工程師
機器學(xué)習(xí)需要不同的思維方式。人們變成編程大師通常是因為他們是從通過實現(xiàn)對編程系統(tǒng)的完全控制中成長起來的。機器學(xué)習(xí)還需要掌握一定的數(shù)學(xué)和統(tǒng)計學(xué),而這是很多編程者,甚至是那些能將程序壓縮到讓人吃驚的長度的瘋狂黑客們都從來不屑于學(xué)習(xí)的東西。
這也需要相當(dāng)程度的耐心。Robson說道:“機器學(xué)習(xí)模型并不是一段靜態(tài)的代碼,你要不斷給它填喂數(shù)據(jù)。我們不斷更新模型和學(xué)習(xí)、增加更多數(shù)據(jù),還有比如像是調(diào)整對我們未來做出預(yù)測的方式。它讓人感覺就是一個活生生的、有呼吸的東西。這是不同類型的工程開發(fā)。”
Giannandrea還說:“實際上這是一個使用不同算法進行實驗的學(xué)科,或關(guān)于研究哪個訓(xùn)練數(shù)據(jù)能在你的使用案例上產(chǎn)生更好工作效果的學(xué)科。計算機科學(xué)的部分不會走遠。但對數(shù)學(xué)和統(tǒng)計學(xué)的關(guān)注會更多,而對編寫五十萬行代碼的關(guān)注則會減少。”
Dean說:“在訓(xùn)練的一天結(jié)束時,這些模型中所使用的數(shù)學(xué)就不再那么復(fù)雜了。對于我們在谷歌雇傭的大部分工程師而言,這都是可以實現(xiàn)的。”
為了進一步幫助日益增長的機器學(xué)習(xí)專家團隊,谷歌打造了一套強大的工具幫助工程師在訓(xùn)練算法時選擇正確的模型,并加速訓(xùn)練和提煉的過程。這些工具中最強大的是TensorFlow,這是一個能加速神經(jīng)網(wǎng)絡(luò)構(gòu)建過程的系統(tǒng)。TensorFLow由谷歌大腦團隊開發(fā),Dean與他的同事Rajat Monga共同參與了其研發(fā);它能通過規(guī)范系統(tǒng)開發(fā)中通常很乏味和深奧的細節(jié)來使得機器學(xué)習(xí)變得大眾化。
盡管對人工智能社區(qū)散播的這種利他主義行為讓谷歌深受其苦,但它也承認熟悉其內(nèi)部機器學(xué)習(xí)工具的新一代程序員對谷歌的招聘來說是相當(dāng)好的。盡管如此,TensorFlow的特點加上谷歌的認可,使其很快就成為了機器學(xué)習(xí)編程圈子里的一個最愛。Giannandrea說,當(dāng)谷歌提供其第一個在線TensorFlow課程時,有75,000萬人報名。
谷歌仍然為它自己的程序員保留了很多好東西。在內(nèi)部,該公司有一個可能無可比擬的補充機器學(xué)習(xí)的工具箱,Tensor Processing Unit(張量處理單元,TPU)。TPU 是一種專為運行機器學(xué)習(xí)語言程序而優(yōu)化過的微處理器芯片,就像圖形處理單元(GPU)是專門為加速屏幕上像素的計算這一單一目而設(shè)計的一樣。該公司的巨型數(shù)據(jù)中心的服務(wù)器里恐怕已有成千上萬個TPU了。通過賦予其神經(jīng)網(wǎng)絡(luò)運算以超能力,TPU已經(jīng)給谷歌帶來了巨大的優(yōu)勢。
但由于谷歌最大的需求是設(shè)計和完善這些系統(tǒng)的人,就像谷歌正在緊鑼密鼓地完善其軟件訓(xùn)練工具一樣,公司也在瘋狂地打磨其訓(xùn)練機器學(xué)習(xí)工程師的實驗。
還有一些其它較小的工作也在將外部人士吸引到谷歌的機器學(xué)習(xí)中。今春早些時候,谷歌啟動了Brain Residency項目,該項的目的是為了將有前途的外部人士帶進谷歌大腦團隊內(nèi)部進行為期一年的密集訓(xùn)練。盡管初始項目中來自不同學(xué)科的27位機器學(xué)習(xí)學(xué)員中可能會有一些最終會留在谷歌,但其該訓(xùn)練的目的是將他們放歸到野外,使用他們的超能力在整個數(shù)據(jù)地球上傳播谷歌的機器學(xué)習(xí)版本。
所以從某種意義上說,在一個機器學(xué)習(xí)正在占據(jù)舞臺中心的世界里,以人工智能為中心的谷歌有維持自己主導(dǎo)地位的計劃,而 Carson Holgate 在她的忍者課程中學(xué)到內(nèi)容正是以這個計劃為中心的。
評論
查看更多