AlphaFold2的勝利就像是一場接力賽,往往是跑到最后一棒的人會有更多的高光時刻。但是,我們依然要記住為這門學科前赴后繼的人。
盡管,距離Deepmind公司AlphaFold2的橫空出世,已經過去了兩周的時間,但是圍繞AlphaFold2的討論熱度依然不減。
AlphaFold2是否是完美無缺,如果不是,它的“勝利”具體體現在哪些項目上?AlphaFold2對結構生物學的影響有哪些,哪些方向能受益而加速突破?哪些方向會受到影響而淡出?學術研究者與企業工程人員該如何分工,進一步實現“產學融合”的高效轉化?
關于AlphaFold2,太多的問題需要解答。
近日,主題為“權威專家談AlphaFold:DeepMind到底突破了什么?”的圓桌論壇正式舉行。本次主題論壇由圖像計算與數字醫學國際研討會(ISICDM)主辦,雷鋒網、醫健AI掘金志協辦。
印第安納大學醫學院副院長、AIMBE Fellow黃昆教授擔任主持,密蘇里大學教授、AAAS/AIMBE Fellow許東教授、密歇根大學教授、DeLano獎得主和I-TASSER算法發明人張陽教授、芝加哥豐田計算技術研究所、斯隆獎得主許錦波教授共同參與討論。
在上篇中,幾位嘉賓共同回顧CASP競賽的歷史、AlphaFold2的技術細節、局限與意義;
在下篇中,將著重分析AlphaFold2的產業應用前景、學術研究風向、藥物研發等“未來”話題。
圖像計算與數字醫學國際研討會(ISICDM)自2017年創辦以來,一直是醫工交叉的前沿陣地,圍繞圖像計算和數字醫學中的一些重要的理論、算法與應用問題進行學術討論,旨在促進電子信息(包括計算機、自動化與生物醫學工程)、數學和醫學等領域學者的交流與合作,截止至今,ISICDM共邀請到400余位大會報告及專題報告嘉賓。
在今年的ISICDM 2020上, “計算解剖學”創始人的Michael I.Miller教授,新加坡國家科學院院士、發展中國家科學院院士沈佐偉教授、瑞士工程科學院院士Michael Unser教授、美國國家發明家科學院院士王革教授等數十位嘉賓分別進行了主題演講。
以下是主題論壇的現場內容,雷鋒網《醫健AI掘金志》做了不改變原意的編輯和整理
黃昆:說到蛋白質結構,了解其結構不僅是為了了解它,還會將其應用于制藥。這就牽扯到蛋白和藥物之間的交互作用。同時,蛋白的結構并非一成不變,是一個動力學過程。
那么,AlphaFold2能否擴展到分子動力學MDS領域?能否應用于蛋白-配體相互作用/對接,蛋白質-蛋白質相互作用?能否應用于蛋白質設計呢?
許東:在蛋白設計方面,AlphagoFold2能夠比較直接地應用。之前應用不同序列設計出新結構的方法,可能不用改太多就可以完成。
蛋白設計的大部分難點不在結構上,而是在生物上。
第二,蛋白的相互作用,我認為這一方面的應用不會特別理想。其中一個原因是,蛋白相互作用的數據遠遠少于蛋白結構本身的數據,因此,對于機器學習來說挑戰性很大。
事實上,這個問題和蛋白結構本身是很不一樣的問題。目前我們組何飛博士和我們系的段曄教授正在進行合作,用圖卷積、圖像處理、點云等方法來探索蛋白相互作用,這個問題在短期內難以解決。
更困難的是分子動力學問題,這就是顏寧教授所提到的。
我在讀博時,導師讓我研究如何對分子動力學做的非常快,能夠更大尺度迭代。這個問題花費了我大量時間,但是沒有成功。
機器學習解決分子動力學的問題離我們非常遙遠,我們也進行了一些簡單的探索。吉林大學韓葳葳教授組一個訪問學生朱鏡璇與我們組的王玨鑫博士目前進行了一些工作,用這些所謂Neural relational inference——一種圖神經網絡的方式,進行了分子動力學過程的模擬實驗。
我們可以看到,所謂長程作用的變構效應是能夠被預測的,但是這離分子動力學大幅度加速還差得很遠,不過通過這個過程,
我們發現傳統動力學背后的驅動變量數維度很低。因此,我們認為從理論上來說大幅度加速是有可能的,但是需要很漫長的道路去探索。
黃昆:AlphaFold2對結構生物學的影響,哪些方向能受益而加速突破?哪些方向會受影響而淡出?結構生物學的研究能夠怎樣幫助AlphaFold2改進?我們想請許錦波教授來評論一下。
許錦波:用計算的方法來做蛋白質結構預測,我覺得影響會越來越大。拿解結構來說,我不認為解結構的人在未來會被拋棄。現在來預測的數據相對來說比較簡單,比如預測單鏈。
但是單鏈有時候也無法準確預測,目前僅有60%的預測比較好。但如果僅僅簡單的解結構,以后可以直接用軟件去解決。
同時,AlphaFold2可以用來提高效率,便于研究者專注于研究結構、功能。做單鏈的蛋白質結構預測,這方面的人會變少。
但是軟件不是萬能的,很多問題依舊無法用軟件解決,畢竟還有40%的蛋白質的結構預測不是非常準確。且現在效率也存在問題。
當下,我們還不明確AlphaFold2如何處理數據,會不會開源等,目前看來可能性不大。所以,至少在學術界需要一個與之相競爭的軟件,不能壟斷。
因此,在結構預測這個方向,目前還有許多問題值得研究,并不會造成所有人失業。
當然,可能會有較多的人轉向其他相關問題的研究。就拿計算結構生物學來說,可研究的問題還是很多,比如說兩個蛋白、多個蛋白如何結合、蛋白質配體相互作用、蛋白質制藥等發展比較快。因為能比較準確地拿到結構,這些方向的未來發展會比較快。
另一方面,解結構的人對我們從事計算研究的人員信任程度也會提升,以前我們做出來的結構可能對其他研究人員來說用處不大,但是軟件質量提升后,他們會慢慢喜歡用我們這些軟件預測出來的數據,便于他們研究蛋白質及功能。
張陽:我覺得AlphaFold2的成功,并不會讓很多人轉行或者受影響而淡出。
它的成功首先會刺激和促進蛋白質結構預測領域整體精度的提高。對結構生物學來講,高精度的蛋白質結構預測會幫助很多結構生物學家更快更好地開展他們的研究工作。
比如X光衍射實驗,這個實驗很重要的一步是做分子置換來確定X光衍射的相位,而成功的分子置換要求有精確的初始結構模型。
如果計算機能夠快速準確預測蛋白質地初始模型,這會大大提高X光衍射實驗的效率。
對于冷凍電鏡的實驗,好的初始模型有利于蛋白質構型和電子密度圖的正確疊加,因而有利于下一步地蛋白結構的優化。從這些方面來講,精確地結構預測對結構生物學不是一個替代的問題,它們可以相互促進。
好的蛋白質結構預測算法可以大幅度提高傳統結構生物學實驗的精度和速度。做結構生物學的科學家其目的并不只是解結構,他們只是把結構當成工具,來了解蛋白質有什么樣的功能、在細胞運行過程中有什么生物學的意義。
所以從這方面來講,AlphaFold2不可能讓人們失業,或者淡出自己的行業。
黃昆:如果AlphaFold2不開源,學術界有沒有成立開源組織的計劃?工業界一些大公司在算法和算力方面都占有絕對優勢,那么學術研究前進的方向在哪里?
對于高校中的AI研究人員有什么建議?對于生物研究人員有什么建議?
工業界一些大公司在算法和算力方面都占有絕對優勢,對整個學術界的影響會是什么?如何“擺正”學術界和工業界的關系?
張陽:第一,如果AlphaFold2不開源,學術界有沒有成立開源組織的計劃?
按照谷歌以往的慣例(比如alphaGo和alphaFold),我不相信Google DeepMind會分享他們的源代碼,甚至建立共享服務器。但是,我相信學術界很快就會開發出新的替代品。
我說的替代品并不是做一個和谷歌AlphaFold2一模一樣的軟件。雖然谷歌提出了一些新的算法,但是,替代品并不是完全按照谷歌的新算法,可能會出現新的不同地算法來解決同樣的問題。
谷歌的主要貢獻不是算法或者技術上,我覺得他們這次成功的一個主要貢獻是在于證明蛋白質結構預測這個問題可以解決。
這并不是一個簡單的問題。做過蛋白質結構預測的人都知道,蛋白質結構是由序列決定的。但是結構和序列的關系非常復雜。有些結構長得非常奇怪,奇怪到你會懷疑這個結構有沒有物理的道理,會不會是大自然的一次巧合的怪胎,或者說會不會是物理學上的確定唯一的解。
在這次CASP14中,有些蛋白質相互纏繞,長的非常奇怪,結果AlphaFold2都可以正確的預測---至少在Fold level是正確的。這在概念上是一個重要的突破,一件相當重要的成就。
當我們解決一個問題時,預先知道這個問題有答案和不知道這個問題有答案,那解決的難度是不同的。所以,在這個問題上,谷歌是有貢獻的。
這個貢獻和CASP13有相似的效應。CASP13之前,我們很多人都知道深度學習對蛋白質結構預測有幫助。
但是只有在CASP13之后,世界才開始關注深度學習對蛋白質結構預測這一領域的影響,這是因為谷歌把這個結果顯示給大家,讓大家覺得原來機器學習有如此大的威力。
回到你的問題,我相信學術界應該很快讓這項技術開源使用,幫助整體生物醫學以及公眾健康研究的發展。
第二個問題,工業界一些大公司在算法和算力方面都占有絕對優勢,那么學術研究前進的方向在哪里?對于高校中的AI研究人員有什么建議?對于生物研究人員有什么建議?
剛才談到,AlphaFold2接近解決了單結構域蛋白質結構預測的問題。但是,這只是問題的一個方面,還有很多未知的問題需要解決。
例如,蛋白質折疊的動力學問題,純粹用深度學習,目前似乎沒辦法解決,因為我們在PDB庫中看到都是蛋白質折疊到最后的穩定結構,它不能提供大量的樣本供計算機來學習蛋白質折疊的中間過程。
所以,蛋白質折疊的物理學規律,蛋白質和蛋白質之間相互作用等等,都是和蛋白質結構預測相關的,亟待解決的未知問題。
在CASP會議最后一天,DeepMind的CEO Hassabis,提到一個嘗試,我覺得非常有趣。
大家知道,在AlphaGo的圍棋游戲軟件開發中,他們有兩個版本。第一個版本是通過從人類十幾萬張棋譜學習怎么下棋,這是和李世石比賽的那個版本。
第二個版本叫做AlphaGo Zero,它完全拋棄人類的棋譜,直接從圍棋的規則出發進行自我學習。第二個版本比第一個版本要強很多。
Hassabis提到在準備AlphaFold2的時候,他們也試用了這個想法,試圖不用PDB數據庫當中人類解析的結構來學習蛋白質結構預測,而是從基本的物理規律出發進行自我學習探索。他們似乎取得了一定進展,但是與AlphaFold還有一定距離。
我認為這是非常有意義的嘗試,可能代表下一步的研究發展方向。這類似于要對AlphaGo Zero輸入圍棋的規則,我們要對機器學習網絡輸入蛋白質折疊的物理規則,但是蛋白質折疊的規則目前尚不明晰。
如果Alphafold Zero能夠做這件事,我們可能就真正學到了蛋白質折疊的物理規律,這將一個更加令人興奮的成就,遠比現在的AlphaFold2更加令人興奮。
另一方面來講,它甚至可以讓我們預測出我們原先從未見過的蛋白質——這些蛋白質的結構不是我們數據庫里面已經解構的,這給人類設計自然界從來沒有產生過的,全新的蛋白提供重要的可能性。
如果有這樣一個AlphaFold Zero的實現,也會在蛋白質設計或者蛋白質藥物設計領域產生巨大的影響。
您的最后一個問題,工業界一些大公司在算法和算力方面都占有絕對優勢,對整個學術界的影響會是什么?如何“擺正”學術界和工業界的關系?
這是一個重要問題。我覺得工業界對解決工程問題的確有它獨有的優勢,可以集中人力和財力攻關一件事情。學術界是對科學更加感興趣,就是不僅要知道問題如何解決,還要知道為什么要這樣解決,所謂知其然知其所以然。
就蛋白質結構預測來講,雖然谷歌用深度學習,’暴力’地解決了這個問題的工程學方面,但是科學上未知的問題還很多。
我們都知道,蛋白質結構預測可以分成從頭預測和同源模型預測,但是從頭預測遠沒有基于模板的預測精準。在早期CASP比賽時,每一次都會有一些科學家,比如Cornell大學的Scheraga教授等,堅持不用模板,只用物理的辦法來求解這個問題。
當然,他們的成績或許不理想,但我覺得這是一種對科學的追求精神,值得尊重,這也是學界解決問題的科學態度。
總體來講,我很高興看到谷歌對這個問題的成就。但是學術界應該放開心態,接納利用這個成果,來幫助我們解決更重要的科學上的問題。AlphaFold2并不是末日,而是開始。
許錦波:學術界和產業界的矛盾在計算機系更加普遍,很多計算機系的研究都要落后于大公司。
大公司普遍在人力和資源上要比學校強很多,大公司可以招聘到很多頂尖人才長時間做研究,而學校教授團隊都是一些剛剛入門的學生,創新成果產出上學校現在總體上落后于大公司。
但學術機構也不是完全處于下風,深度學習領域的三巨頭都是來自于學校,在學校里堅持做研究,才一點點取得成功。但開端之后,新的模型、新的算法又都是產業界走在前面,例如DeepMind。現在的機器學習領域,產業界影響肯定更大一些。
學校也有自己的好處,例如思想上比較自由,可以去想、去做風險很高,別人還沒有涉及的純學術問題,將許多問題率先從概念角度理清。
我覺得,學者不應該和大公司在產業上硬碰硬,兩者在科學研究和產業轉化上應該進行互補。
黃昆:這些矛盾和我們AI研究比賽和試驗方向的評價機制也有很大關系,一味追求準確率就是在和產業界競爭。
另一方面,不考慮算力的情況下進行準確率對比機制,也導致很多有潛力的算法被提早排除。那些新的算法、新的理論在初始階段,算力還有限的情況下,精準度也不高,可能更需要學術界去關注。
許東:工業界并沒有和學術界進行全方面PK。
以我們生物信息學為例,目前研究的算法問題有成百上千個,里面產業界只研究和涉及其中的幾個。現在看到產業界在蛋白質結構預測這個成果很轟動,但其他像RNA三級結構之類能不能用深度學習解決的學術問題,產業界還完全沒有涉及。
許多問題并不像蛋白結構這么大,產業界投入產出比也不明顯,學術界做這類問題就非常適合。
黃昆:人工智能對基礎科研的輔助作用,對于中國生物醫藥產業的追趕甚至趕超有沒有一定的啟示?
張陽:在醫藥研發過程中,前期主要的一部分工作就是找到靶蛋白,之后設計新的化合物或其他分子來調節靶蛋白的功能。其中,了解靶蛋白的原子結構,對靶蛋白地尋找以及新化合物地設計,都很重要。
比如,我們的蛋白質結構預測軟件I-TASSER就已經被多家美國前十的醫藥公司購買,他們購買I-TASSER地目的,就是用它在預測各種靶蛋白的空間結構。
現在AlphaFold2在結構預測方面的巨大進展,應該使得醫藥公司對幾乎所有的靶蛋白都能夠進行比較精確的結構預測,這是AlphaFold2對藥物產業的一個直接的影響。
在藥物研發過程中,另外一個重點就是了解候選藥物分子和靶蛋白的相互作用關系。這還需要新的AI技術去突破,可能也是包括谷歌在內的產業界和學術界未來研究的新目標。
所以,深度學習未來肯定會進一步改變傳統藥物的研發過程,這種改變會是革命性的。
許東:我也簡單舉幾個例子。像癌癥里面的癌細胞蛋白變異,過去這種變異研究都是從序列出發。未來如果AI在結構預測的非常準確,就可以用于大規模的癌細胞蛋白變異預測,理解癌癥,進行藥物開發。
其次,小分子藥物設計,像研發新冠病毒的小分子藥物,這種病毒蛋白或細菌蛋白,變異往往非常多,AI結構預測如果也同樣很精準,就能更容易找到新小分子藥物對不同變異都有效果。這些都是很實在的應用。
黃昆:一個全新的氨基酸序列,怎樣評判AI預測的結構是不是靠譜?這種沒有標準答案的新結構是否可以用能量穩定性評價質量?
許東:這種結構評價主要有兩種情況,第一種是將預測結果和真實結構做比對,第二種是不知道結構,評估預測結果是否可靠。
第一種情況,現在像GDT打分這種評價方式,還非常粗獷。
我認為終極的評估還需要考慮更多,例如比對分子上的氫鍵是否差異或錯誤,這次的AlphaFold2肯定還達不到試驗要求的高精度要求。其實過去的CASP就很難實現高精度,我覺得這次的分析肯定也不是很透徹。
第二種情況,不知道之前結果,我覺得DeepMind這次做的還比較好,用Transformer的方式,直接給出一個打分,這非常有價值。
黃昆:利用“分子動力學+AI”加速模擬和利用“Knowledge+AI”直接預測結構和活性,這兩種方式哪種更有潛力?
許錦波:我覺得兩種方法并不是對立,更趨向于互補的關系。
如果只要簡單的預測分子結構,肯定knowledge+AI更有效,它更適合結構預測。
但knowledge+AI方法也有短處,本身就是用結構庫里的數據訓練出來的,而結構庫的大部分結構都是通過X單晶衍射解出的,所以AI預測肯定會更適用于靜態結構,動態結構效果就會比較差。
假如希望研究AI+分子動力學的方向,可以在動態結構預測方向進行嘗試,例如預測蛋白質動態行為,或者做模擬和代碼的動態分析。兩種方法都有自己更擅長的方向。
黃昆:以X光衍射成像的經驗來看,數據的預處理非常重要,對最后AI訓練結果影響也非常大,那么對端到端的預測影響有多大?
許錦波:以我的經驗來看,數據處理是非常重要的,肯定需要花費大量的精力在數據庫建設和完善上。
現在的結構數據庫樣本量還比較小,但肯定也需要進行處理。因為里面一部分氨基酸可能沒有坐標、是殘缺的,許多數據的來源也不太一樣,包括NMR、冷凍電鏡、 X-ray。
這次AlphaFold就應用了一個很大的宏基因數據組,需要花很多時間去處理里面的數據。因為同源序列就是來自于這些序列數據庫,如果預處理過程中,同源序列都找的不好,肯定會影響最后預測結果,端到端的數據處理同樣也需要花很多精力和時間。
黃昆:剛才許教授說到,在生物學里面還有幾百個問題都需要應用機器學習,那么除了這次的蛋白質折疊,DeepMind還在布局哪些其他生物技術方向?
許東:DeepMind這樣的AI技術在許多生物醫學領域都進行了嘗試,然而,應用在其他的方向其實并不容易,迄今為止還沒有太多成功案例。
從計算機角度來看,蛋白質結構預測,是一個已經被定義非常清楚的問題,雖然復雜,但還是屬于弱人工智能問題。
而輔助診斷等其他場景,屬于強人工智能問題,對于AI還有很多困難,DeepMind并不是沒有做這些的方向,而僅僅是還沒有取得很大成功。
補充提問:結構只占序列的不到1/1000,今后有了序列很快就可以拿到結構之后,對于依賴蛋白質相互作用網絡的癌癥和中醫藥等,有什么影響?
許東:我覺得幫助會比較大的。當然用蛋白質結構來預測蛋白質相互作用網絡現在并不靠譜,但不少蛋白之間我們知道它們有相互作用,可以應用它們各自的結構做docking,得到相互作用的結構模式,會對促進理解癌癥及其相關藥物的開發。
對于中醫我個人很感興趣,許多中草藥的基因組現在被測序了,但其中絕大多數蛋白沒有被研究,蛋白質結構預測會幫助我們理解這些蛋白的功能,助力對中草藥的藥理研究。
原文標題:四大頂級專家談AlphaFold2:記錄、風向與學術思考(下篇)
文章出處:【微信公眾號:IoT科技評論】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
圖像
+關注
關注
2文章
1089瀏覽量
40572 -
機器學習
+關注
關注
66文章
8438瀏覽量
133084
原文標題:四大頂級專家談AlphaFold2:記錄、風向與學術思考(下篇)
文章出處:【微信號:IoT_talk,微信公眾號:醫健AI掘金志】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論