設(shè)計(jì)新的藥物分子需要手工進(jìn)行,耗時(shí)且容易出錯(cuò)。但是麻省理工學(xué)院的研究人員已經(jīng)朝著完全自動(dòng)化的設(shè)計(jì)過程向前邁出了一步,這將大大加快設(shè)計(jì)過程,并獲得更好的結(jié)果。機(jī)器學(xué)習(xí)模型可以幫助化學(xué)家更快地制造出具有更高功效的分子。
藥物發(fā)現(xiàn)依賴于先導(dǎo)化合物的優(yōu)化。根據(jù)先導(dǎo)化合物與特定的生物目標(biāo)的相互作用,增減官能團(tuán),手動(dòng)調(diào)整分子結(jié)構(gòu)來獲得新的分子。每個(gè)修飾步驟都要耗費(fèi)大量時(shí)間,并且往往得不到期望中的分子。
麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室( CSAIL )和電子工程與計(jì)算機(jī)科學(xué)系( EECS )的研究人員開發(fā)了一種模型用于更有效的選擇先導(dǎo)分子。該模型輸入分子結(jié)構(gòu)數(shù)據(jù),創(chuàng)建分子圖片,詳細(xì)展示分子結(jié)構(gòu),節(jié)點(diǎn)代表原子,邊線代表化學(xué)鍵。這些圖又被分解成更小的有效官能團(tuán)簇,成為“構(gòu)件”,用于實(shí)現(xiàn)更精確的分子重構(gòu)和修飾。
“設(shè)計(jì)這個(gè)模型的目的,是想用自動(dòng)迭代取代低效的人工分子改造過程,并確保設(shè)計(jì)出有效的分子,”CSAIL博士生,本文的主要作者Wengong Jin說。該模型在7月份舉行的2018國(guó)際機(jī)器學(xué)習(xí)會(huì)議上進(jìn)行了展示。論文的共同作者還包括CSAIL和EECS的Delta電子系教授Regina Barzilay和電氣工程和計(jì)算機(jī)科學(xué),數(shù)據(jù)、系統(tǒng)和社會(huì)研究所的Tommi S. Jaakkola教授。
這項(xiàng)研究是麻省理工學(xué)院與八家制藥公司于五月宣布的藥物發(fā)現(xiàn)與合成機(jī)器學(xué)習(xí)聯(lián)盟的其中一部分工作。該聯(lián)盟將先導(dǎo)物的優(yōu)化確定為藥物發(fā)現(xiàn)的一個(gè)關(guān)鍵挑戰(zhàn)。
Barzilay說:“ 目前來說,需要許多熟練的化學(xué)家的大量工作才能實(shí)現(xiàn)先導(dǎo)物的優(yōu)化,而這正是我們想要改進(jìn)的地方。下一步的計(jì)劃,是讓該技術(shù)從學(xué)術(shù)界走向真正的藥物設(shè)計(jì)實(shí)踐,并證明它可以幫助人類化學(xué)家完成該項(xiàng)工作,而這將是一個(gè)挑戰(zhàn)。"
Jaakkola說:“程序自動(dòng)化也為機(jī)器學(xué)習(xí)帶來了挑戰(zhàn)。通過學(xué)習(xí)關(guān)聯(lián)、修改和生成分子圖推動(dòng)新的技術(shù)思想和方法的產(chǎn)生。"
生成分子圖
近年來,分子設(shè)計(jì)自動(dòng)化的系統(tǒng)層出不窮,但問題是產(chǎn)生的分子是否有效。Jin說,這些系統(tǒng)通常會(huì)產(chǎn)生符合化學(xué)規(guī)則但實(shí)質(zhì)無效的分子,并且生成的分子不具備最佳性質(zhì)。這實(shí)際上使完全自動(dòng)化設(shè)計(jì)分子變得行不通。
這些系統(tǒng)運(yùn)行在分子的線性符號(hào)上,稱為“簡(jiǎn)化分子-輸入線-進(jìn)入系統(tǒng)”(simplified molecular-input line-entry systems, SMILES),其中長(zhǎng)串的字母、數(shù)字和符號(hào)代表可由計(jì)算機(jī)軟件解釋的單個(gè)原子或化學(xué)鍵。當(dāng)系統(tǒng)修改一個(gè)前導(dǎo)分子時(shí),它會(huì)一個(gè)符號(hào)一個(gè)符號(hào)地?cái)U(kuò)展它的字符串表示,一個(gè)原子一個(gè)原子,一個(gè)鍵一個(gè)鍵,直到生成一個(gè)最終的具有更高的期望屬性的SMILES字符串。最后,系統(tǒng)可能會(huì)生成一個(gè)最終的SMILES字符串,雖然在SMILES語法下似乎是有效的,但實(shí)質(zhì)上是無效的分子。
研究人員通過建立一個(gè)直接在分子圖上運(yùn)行的模型來解決這個(gè)問題,和SMILES字符串不同,該方法可以更有效和準(zhǔn)確的修改分子結(jié)構(gòu)。
模型的核心是一個(gè)定制的可變自動(dòng)編碼器——一個(gè)神經(jīng)網(wǎng)絡(luò),它將輸入分子“編碼”成向量,這個(gè)向量是分子結(jié)構(gòu)數(shù)據(jù)的存儲(chǔ)空間,然后將該向量“解碼”成與輸入分子匹配的圖形。
在編碼階段,模型將每個(gè)分子圖分解成簇或“子圖”,每個(gè)簇或子圖代表一個(gè)特定的構(gòu)建元件。這樣的簇是由一個(gè)常規(guī)的機(jī)器學(xué)習(xí)“樹分解”來自動(dòng)構(gòu)建的,其中復(fù)雜的圖被映射成一個(gè)簇的樹結(jié)構(gòu),提供了原始的分子圖支架。
支架樹結(jié)構(gòu)和分子圖結(jié)構(gòu)都被編碼到它們自己的向量中,其中分子根據(jù)相似性被分在一組。使得尋找和修飾分子變得更容易。
在解碼階段,該模型以“由粗到細(xì)”的方式重建分子圖——逐漸增加低分辨率圖像的分辨率以創(chuàng)建更精細(xì)的版本。它首先生成樹形結(jié)構(gòu)的支架,然后將關(guān)聯(lián)的簇(樹中的節(jié)點(diǎn))組裝在一起形成一個(gè)連貫的分子圖。確保重建的分子圖是原始結(jié)構(gòu)的精確復(fù)制。
該模型可以基于期望的性質(zhì)修改先導(dǎo)分子。通過預(yù)測(cè)算法,用期望性質(zhì)的效力值對(duì)每個(gè)分子進(jìn)行評(píng)分。例如,在這篇論文中,研究人員尋找具有兩種性質(zhì)的分子——高溶解度和可合成性。
對(duì)于給定的期望性質(zhì),該模型通過使用預(yù)測(cè)算法來優(yōu)化先導(dǎo)分子,從而通過編輯分子的官能團(tuán)來修改向量,從而修改結(jié)構(gòu),以獲得更高的效力分?jǐn)?shù)。重復(fù)這個(gè)步驟經(jīng)過多次迭代,直到找到最高的預(yù)測(cè)效能分?jǐn)?shù)。然后,模型通過編譯所有相應(yīng)的簇,最終從更新的向量中解碼出一個(gè)修改了結(jié)構(gòu)的新分子。
正確且有效
研究人員在ZINK數(shù)據(jù)庫(kù)中的25萬個(gè)分子圖上訓(xùn)練了他們的模型,ZINK數(shù)據(jù)庫(kù)是一個(gè)可供公眾使用的三維分子結(jié)構(gòu)集合。他們對(duì)模型進(jìn)行了任務(wù)測(cè)試,以產(chǎn)生有效分子并找到最佳前導(dǎo)分子,設(shè)計(jì)出具有增強(qiáng)能力的新型分子。
在第一次測(cè)試中,研究人員的模型從樣本分布中產(chǎn)生了100 %的化學(xué)有效分子,而SMILES模型從相同分布中只產(chǎn)生43 %的有效分子。
第二項(xiàng)測(cè)試包括兩項(xiàng)任務(wù)。首先,該模型搜索整個(gè)分子集合,以找到所需性質(zhì)的最佳先導(dǎo)分子——溶解性和可合成性。在這項(xiàng)任務(wù)中,該模型發(fā)現(xiàn)了一種先導(dǎo)分子,其效力性能比傳統(tǒng)系統(tǒng)高出30 %。第二項(xiàng)任務(wù)是修飾800個(gè)分子來獲得更高的分子效力性能,但結(jié)構(gòu)類似于先導(dǎo)分子。在此過程中,該模型創(chuàng)造了與先導(dǎo)分子結(jié)構(gòu)非常相似的新分子,且分子平均效力提高了80 %以上。
除了溶解度以外,研究人員接下來的目標(biāo)是測(cè)試模型的更多性質(zhì),這些性質(zhì)與醫(yī)療關(guān)系更密切。但是這也需要更多的數(shù)據(jù)。制藥公司對(duì)能夠?qū)股锇悬c(diǎn)的分子特性更感興趣,但他們掌握的這類數(shù)據(jù)較少。研究人員面對(duì)的挑戰(zhàn)是開發(fā)一種能夠在有限的訓(xùn)練數(shù)據(jù)下工作的模型。
未參與此項(xiàng)研究的Amgen醫(yī)藥公司的醫(yī)藥化學(xué)主管Angel Guzman-Perez說:“論文中描述的算法朝著模仿先導(dǎo)分子優(yōu)化設(shè)計(jì)的目標(biāo)邁出了重要的一步,而這個(gè)工作目前是醫(yī)藥化學(xué)家在做的。由于這種計(jì)算方法在向量空間中進(jìn)行分子性能優(yōu)化,它有可能設(shè)計(jì)出完全不同和新穎的化學(xué)結(jié)構(gòu),這是藥物化學(xué)家在化學(xué)結(jié)構(gòu)空間中考慮問題時(shí)所無法企及的。因此,這種算法可以補(bǔ)充和提升藥物化學(xué)家的工作。”
-
人工智能
+關(guān)注
關(guān)注
1796文章
47683瀏覽量
240302 -
計(jì)算機(jī)科學(xué)
+關(guān)注
關(guān)注
1文章
144瀏覽量
11403 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8441瀏覽量
133087
原文標(biāo)題:新藥研發(fā)的加速器:MIT研究人員開發(fā)機(jī)器學(xué)習(xí)方法,實(shí)現(xiàn)分子設(shè)計(jì)自動(dòng)化
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論