本文描述的主題通常涉及分子設(shè)計,并且更具體地涉及用于預(yù)測分子結(jié)構(gòu)和性質(zhì)的基于機器學習的技術(shù)。
背景技術(shù):
1、分子是由兩個以上原子通過化學鍵結(jié)合在一起的原子團。分子形成了最小的可識別單位,純物質(zhì)可被分割成這些單位,同時仍保留該物質(zhì)的組成和化學性質(zhì)。分子的一個實例是蛋白質(zhì)分子,而非蛋白質(zhì)分子的實例包括小分子、離子、核酸、多糖、糖脂,和/或類似者。分子的功能和性質(zhì)可取決于其三維結(jié)構(gòu)。例如,蛋白質(zhì)負責許多重要的細胞功能,包括例如酶促反應(yīng)、分子運輸、許多生物學途徑的調(diào)節(jié)和執(zhí)行、細胞生長、增殖、營養(yǎng)物攝取、形態(tài)、運動、細胞間通訊,和/或類似者。蛋白質(zhì)結(jié)構(gòu)可以包括一個或多個多肽,其是通過肽鍵連接在一起的氨基酸殘基鏈。形成蛋白質(zhì)結(jié)構(gòu)的多肽鏈中的氨基酸殘基序列決定了蛋白質(zhì)的三維結(jié)構(gòu)(例如,蛋白質(zhì)的三級結(jié)構(gòu))。此外,形成蛋白質(zhì)的多肽鏈中的氨基酸序列決定了蛋白質(zhì)的基本功能。因此,蛋白質(zhì)從頭設(shè)計的一個目標包括構(gòu)建一個或多個氨基酸殘基的序列,氨基酸殘基的序列展現(xiàn)出期望的性質(zhì),而不是不期望的性質(zhì)。例如,在大分子藥物發(fā)現(xiàn)的情況下,蛋白質(zhì)從頭設(shè)計通常會尋求標識能夠與抗原(諸如病毒抗原、腫瘤抗原,和/或類似者)結(jié)合的氨基酸殘基(例如,抗體,和/或類似者)的序列。
技術(shù)實現(xiàn)思路
1、提供了用于分子結(jié)構(gòu)和性質(zhì)預(yù)測的系統(tǒng)、方法和制品,包括計算機程序產(chǎn)品。在一方面,提供了一種用于分子結(jié)構(gòu)和性質(zhì)預(yù)測的系統(tǒng)。該系統(tǒng)可包括至少一個處理器和至少一個存儲器。該至少一個存儲器可以包括程序代碼,該程序代碼在由至少一個處理器執(zhí)行時提供操作。這些操作可包括:接收指定蛋白質(zhì)分子的初始三維結(jié)構(gòu)的分子結(jié)構(gòu)文件,該蛋白質(zhì)分子包含氨基酸殘基的第一序列;至少基于分子結(jié)構(gòu)文件,確定蛋白質(zhì)分子的表示,該表示包括針對氨基酸殘基的第一序列中的每個氨基酸殘基的多個框架,針對每個氨基酸殘基的多個框架包括為氨基酸殘基的主鏈指定幾何狀態(tài)的第一組框架,并且每個氨基酸殘基的多個框架進一步包括指定氨基酸殘基的側(cè)鏈中一個或多個扭轉(zhuǎn)角的第二組框架;以及通過至少應(yīng)用設(shè)計計算模型來修改蛋白質(zhì)分子的表示,生成蛋白質(zhì)分子的第一三維結(jié)構(gòu)。
2、在另一方面,提供了一種用于分子結(jié)構(gòu)和性質(zhì)預(yù)測的方法。該方法可包括:接收指定蛋白質(zhì)分子的初始三維結(jié)構(gòu)的分子結(jié)構(gòu)文件,該蛋白質(zhì)分子包含氨基酸殘基的第一序列;至少基于分子結(jié)構(gòu)文件,確定蛋白質(zhì)分子的表示,該表示包括針對氨基酸殘基的第一序列中的每個氨基酸殘基的多個框架,針對每個氨基酸殘基的多個框架包括為氨基酸殘基的主鏈指定幾何狀態(tài)的第一組框架,并且每個氨基酸殘基的多個框架進一步包括指定氨基酸殘基的側(cè)鏈中一個或多個扭轉(zhuǎn)角的第二組框架;以及通過至少應(yīng)用設(shè)計計算模型來修改蛋白質(zhì)分子的表示,生成蛋白質(zhì)分子的第一三維結(jié)構(gòu)。
3、在另一方面,提供了用于分子結(jié)構(gòu)和性質(zhì)預(yù)測的計算機程序產(chǎn)品。該計算機程序產(chǎn)品可包括存儲指令的非暫時性計算機可讀介質(zhì),該指令在由至少一個數(shù)據(jù)處理器執(zhí)行時引起操作。這些操作可包括:接收指定蛋白質(zhì)分子的初始三維結(jié)構(gòu)的分子結(jié)構(gòu)文件,該蛋白質(zhì)分子包含氨基酸殘基的第一序列;至少基于分子結(jié)構(gòu)文件,確定蛋白質(zhì)分子的表示,該表示包括針對氨基酸殘基的第一序列中的每個氨基酸殘基的多個框架,針對每個氨基酸殘基的多個框架包括為氨基酸殘基的主鏈指定幾何狀態(tài)的第一組框架,并且每個氨基酸殘基的多個框架進一步包括指定氨基酸殘基的側(cè)鏈中一個或多個扭轉(zhuǎn)角的第二組框架;以及通過至少應(yīng)用設(shè)計計算模型來修改蛋白質(zhì)分子的表示,生成蛋白質(zhì)分子的第一三維結(jié)構(gòu)。
4、在方法、系統(tǒng)和非暫時性計算機可讀介質(zhì)的一些變型中,以下特征中的一者或多者可以可選地包括在任何可行的組合中。
5、在一些變型中,多個框架中的每個框架對應(yīng)于自由度,該自由度用于設(shè)計計算模型對蛋白質(zhì)分子的初始三維結(jié)構(gòu)進行更新。
6、在一些變型中,第一組框架可包括第一框架,該第一框架包含指定氨基酸殘基的主鏈的旋轉(zhuǎn)和平移的仿射變換矩陣。第一組框架可進一步包括第二框架,該第二框架指定氨基酸殘基的主鏈中的扭轉(zhuǎn)角。
7、在一些變型中,第一組框架可包括第一框架,該第一框架指定氨基酸殘基的主鏈中的第一扭轉(zhuǎn)角。第一組框架可進一步包括第二框架,該第二框架指定氨基酸殘基的主鏈中的第二扭轉(zhuǎn)角。
8、在一些變型中,其中第一扭轉(zhuǎn)角可與氨基酸殘基的主鏈中的主鏈中的α碳(cα)原子與碳(c)原子之間的第一可旋轉(zhuǎn)鍵相關(guān)聯(lián)。第二扭轉(zhuǎn)角可與氨基酸殘基的主鏈中的α碳(cα)原子與氮(n)原子之間的第二可旋轉(zhuǎn)鍵相關(guān)聯(lián)。
9、在一些變型中,第一組框架可進一步包括第三框架,該第三框架指定氨基酸殘基的主鏈中存在的第三扭轉(zhuǎn)角。第三扭轉(zhuǎn)角可與氨基酸殘基的主鏈中的碳(c)原子與氮(n)原子之間的第三可旋轉(zhuǎn)鍵相關(guān)聯(lián)。
10、在一些變型中,至少基于與蛋白質(zhì)分子的經(jīng)修改的表示中所包括的每個氨基酸殘基相關(guān)聯(lián)的多個框架,可確定蛋白質(zhì)分子中多個主鏈原子的一個或多個坐標?;诘鞍踪|(zhì)分子中多個主鏈原子的一個或多個坐標,可確定蛋白質(zhì)分子中多個側(cè)鏈原子的一個或多個坐標。
11、在一些變型中,設(shè)計計算模型可包括機器學習模型,該機器學習模型經(jīng)訓練以通過至少對蛋白質(zhì)分子的初始三維結(jié)構(gòu)進行去噪來生成蛋白質(zhì)分子的第一三維結(jié)構(gòu)。
12、在一些變型中,機器學習模型可通過至少對蛋白質(zhì)分子的表示執(zhí)行一系列更新來對蛋白質(zhì)分子的初始三維結(jié)構(gòu)進行去噪。
13、在一些變型中,機器學習模型可經(jīng)訓練以減小損失函數(shù)和/或能量函數(shù),該損失函數(shù)和/或能量函數(shù)與對蛋白質(zhì)分子的初始三維結(jié)構(gòu)的每次連續(xù)更新相關(guān)聯(lián)。
14、在一些變型中,機器學習模型可為擴散模型,該擴散模型在多個連續(xù)時間步中的每個時間步去除蛋白質(zhì)分子的初始三維結(jié)構(gòu)中存在的一部分噪聲。
15、在一些變型中,擴散模型可對蛋白質(zhì)分子的表示執(zhí)行第一次更新,以去除蛋白質(zhì)分子的初始三維結(jié)構(gòu)中存在的第一數(shù)量的噪聲。擴散模型可進一步對蛋白質(zhì)分子的表示執(zhí)行第二次更新,以去除蛋白質(zhì)分子的初始三維結(jié)構(gòu)中存在的第二數(shù)量的噪聲。
16、在一些變型中,擴散模型在執(zhí)行第二次更新以去除第二數(shù)量的噪聲之前可進一步添加第三數(shù)量的噪聲,并且在執(zhí)行第二次更新以去除第二數(shù)量的噪聲之后添加第四數(shù)量的噪聲。第三數(shù)量的噪聲和第四數(shù)量的噪聲可基于噪聲調(diào)度來確定,該噪聲調(diào)度定義跨多個連續(xù)時間步添加的噪聲水平的分布。
17、在一些變型中,噪聲水平的分布可對應(yīng)于蛋白質(zhì)分子的表示中存在的自由度,該自由度用于計算模型對蛋白質(zhì)分子的初始三維結(jié)構(gòu)進行修改。
18、在一些變型中,通過擴散模型執(zhí)行的每次更新生成輸出,該輸出對特殊歐幾里得群se(3)變換是等變的。
19、在一些變型中,對蛋白質(zhì)分子的表示的修改可包括更新第一組框架,以改變蛋白質(zhì)分子中一個或多個氨基酸殘基的主鏈的幾何狀態(tài)。
20、在一些變型中,對蛋白質(zhì)分子的表示的修改可包括更新第二組框架,以改變蛋白質(zhì)分子中一個或多個氨基酸殘基的側(cè)鏈中的一個或多個扭轉(zhuǎn)角。
21、在一些變型中,蛋白質(zhì)分子的第一三維結(jié)構(gòu)可與一個或多個期望的性質(zhì)相關(guān)聯(lián)。
22、在一些變型中,蛋白質(zhì)分子的第一三維結(jié)構(gòu)可被配置用于一個或多個下游任務(wù)。
23、在一些變型中,至少基于蛋白質(zhì)分子的第一三維結(jié)構(gòu),可確定氨基酸殘基的第一序列呈現(xiàn)出期望的三維結(jié)構(gòu)和/或期望的性質(zhì)。響應(yīng)于確定氨基酸殘基的第一序列呈現(xiàn)出期望的三維結(jié)構(gòu)和/或期望的性質(zhì),至少基于氨基酸殘基的第一序列,可為不同的蛋白質(zhì)分子生成氨基酸殘基的第二序列。
24、在一些變型中,蛋白質(zhì)分子的表示針對形成蛋白質(zhì)分子的氨基酸殘基的序列中的每個位置可進一步包括邏輯向量,該邏輯向量通過至少枚舉占據(jù)該位置的一組可能氨基酸殘基的概率分布來指示對占據(jù)該位置的氨基酸殘基的標識。
25、在一些變型中,設(shè)計計算模型可進一步通過在修改與至少一個殘基相關(guān)聯(lián)的第一組框架和/或第二組框架的同時,通過修改對殘基的第一序列中的至少一個氨基酸殘基的標識,生成蛋白質(zhì)分子的第一三維結(jié)構(gòu)。
26、在一些變型中,蛋白質(zhì)分子的初始三維結(jié)構(gòu)在對每個氨基酸殘基的標識和/或形成每個氨基酸的多個原子的空間排列中可包括噪聲。噪聲通過設(shè)計計算模型對蛋白質(zhì)分子的表示進行修改而被去除。
27、在一些變型中,蛋白質(zhì)分子的表示可被進一步生成以包括多個聚合物鏈。每個聚合物鏈包括來自氨基酸殘基的第一序列的一個或多個氨基酸殘基。蛋白質(zhì)分子的表示通過蛋白質(zhì)設(shè)計計算模型將每個聚合物鏈中的一個或多個氨基酸的位置作為一個組進行修改而被修改。
28、當前主題的具體實現(xiàn)可以包括但不限于與本文提供的描述一致的方法以及包括有形體現(xiàn)的機器可讀介質(zhì)的制品,該有形體現(xiàn)的機器可讀介質(zhì)可操作以使一臺或多臺機器(例如,計算機等)引起實現(xiàn)所述特征中的一個或多個所述特征的操作。類似地,也描述了可以包括一個或多個處理器以及耦合到該一個或多個處理器的一個或多個存儲器的計算機系統(tǒng)??梢园ǚ菚簳r性計算機可讀或機器可讀存儲介質(zhì)的存儲器可以包括、編碼、存儲等使一個或多個處理器執(zhí)行本文所述操作中的一個或多個操作的一個或多個程序。與當前主題的一個或多個實現(xiàn)一致的計算機實現(xiàn)方法可以由存在于單個計算系統(tǒng)或多個計算系統(tǒng)中的一個或多個數(shù)據(jù)處理器來實現(xiàn)。此類多個計算系統(tǒng)可以進行連接并且可以經(jīng)由一個或多個連接來交換數(shù)據(jù)和/或命令或其他指令等,包括,例如,通過網(wǎng)絡(luò)(例如,互聯(lián)網(wǎng)、無線廣域網(wǎng)、局域網(wǎng)、廣域網(wǎng)、有線網(wǎng)絡(luò)等)經(jīng)由該多個計算系統(tǒng)中的一個或多個計算系統(tǒng)之間的直接連接等至連接。
29、本文描述的主題的一個或多個變型的細節(jié)在附圖和下面的說明書中闡述。參照說明書和附圖以及權(quán)利要求書,本文描述的主題的其他特征和優(yōu)點將變得顯而易見。雖然當前所公開主題的某些特征是為了闡釋與蛋白質(zhì)設(shè)計相關(guān)的目的而進行描述的,但應(yīng)當容易理解,這些特征并非旨在構(gòu)成限制。本公開之后的權(quán)利要求旨在限定受保護的主題的范圍。