模型學習單個氨基酸如何決定蛋白質(zhì)功能

導(dǎo)讀來自麻省理工學院研究人員的機器學習模型計算地分解了氨基酸鏈段如何決定蛋白質(zhì)的功能，這可以幫助研究人員設(shè)計和測試用于藥物開發(fā)或生物研

來自麻省理工學院研究人員的機器學習模型計算地分解了氨基酸鏈段如何決定蛋白質(zhì)的功能，這可以幫助研究人員設(shè)計和測試用于藥物開發(fā)或生物研究的新蛋白質(zhì)。

蛋白質(zhì)是氨基酸的線性鏈，通過肽鍵連接，折疊成極其復(fù)雜的三維結(jié)構(gòu)，這取決于鏈內(nèi)的序列和物理相互作用。反過來，這種結(jié)構(gòu)決定了蛋白質(zhì)的生物學功能。因此，了解蛋白質(zhì)的三維結(jié)構(gòu)對于預(yù)測蛋白質(zhì)如何對某些藥物產(chǎn)生反應(yīng)是有價值的。

然而，盡管經(jīng)過數(shù)十年的研究和多種成像技術(shù)的發(fā)展，我們只知道很少一部分可能的蛋白質(zhì)結(jié)構(gòu) - 數(shù)以萬計的成千上萬。研究人員開始使用機器學習模型根據(jù)氨基酸序列預(yù)測蛋白質(zhì)結(jié)構(gòu)，這可以發(fā)現(xiàn)新的蛋白質(zhì)結(jié)構(gòu)。但這具有挑戰(zhàn)性，因為不同的氨基酸序列可以形成非常相似的結(jié)構(gòu)。并且沒有很多結(jié)構(gòu)可以訓練模型。

在5月份的國際學習代表會議上發(fā)表的一篇論文中，麻省理工學院的研究人員開發(fā)了一種方法，用于“學習”蛋白質(zhì)序列中每個氨基酸位置的易于計算的表示，最初使用3-D蛋白質(zhì)結(jié)構(gòu)作為培訓指南。然后，研究人員可以使用這些表示作為輸入，幫助機器學習模型預(yù)測單個氨基酸片段的功能 - 而無需再次需要蛋白質(zhì)結(jié)構(gòu)的任何數(shù)據(jù)。

將來，該模型可用于改進蛋白質(zhì)工程，為研究人員提供更好地歸零和修飾特定氨基酸片段的機會。該模型甚至可能引導(dǎo)研究人員完全脫離蛋白質(zhì)結(jié)構(gòu)預(yù)測。

“我希望將結(jié)構(gòu)邊緣化，”第一作者Tristan Bepler說，他是計算機科學與人工智能實驗室(CSAIL)計算與生物學研究組的研究生。“我們想知道蛋白質(zhì)的作用，知道結(jié)構(gòu)對此非常重要。但是，我們能預(yù)測蛋白質(zhì)的功能只能給出它的氨基酸序列嗎?動機是遠離專門預(yù)測結(jié)構(gòu)，轉(zhuǎn)向[發(fā)現(xiàn)]氨基酸序列如何與功能相關(guān)。“

加入Bepler的是共同作者Bonnie Berger，麻省理工學院Simons數(shù)學教授，電氣工程和計算機科學系的聯(lián)合教員，以及計算和生物學組的負責人。

從結(jié)構(gòu)中學習

研究人員將預(yù)測的蛋白質(zhì)結(jié)構(gòu)信息直接編碼為表示，而不是像傳統(tǒng)模型那樣直接預(yù)測結(jié)構(gòu)。為此，他們使用已知的蛋白質(zhì)結(jié)構(gòu)相似性來監(jiān)督他們的模型，因為該模型學習了特定氨基酸的功能。

他們根據(jù)蛋白質(zhì)結(jié)構(gòu)分類(SCOP)數(shù)據(jù)庫對大約22,000種蛋白質(zhì)進行了模型訓練，該數(shù)據(jù)庫包含數(shù)千種蛋白質(zhì)，這些蛋白質(zhì)通過結(jié)構(gòu)和氨基酸序列的相似性組織成類別。對于每對蛋白質(zhì)，他們根據(jù)他們的SCOP類計算出真實的相似性得分，這意味著它們在結(jié)構(gòu)上的接近程度。

然后研究人員給他們的模型隨機配對的蛋白質(zhì)結(jié)構(gòu)及其氨基酸序列，它們被編碼器轉(zhuǎn)換成稱為嵌入的數(shù)字表示。在自然語言處理中，嵌入基本上是以對應(yīng)于句子中的字母或單詞的方式組合的數(shù)百個數(shù)字的表。兩個嵌入越相似，字母或單詞在句子中出現(xiàn)的可能性就越大。

在研究人員的工作中，每對嵌入包含有關(guān)每個氨基酸序列與另一個氨基酸序列有多相似的信息。該模型對齊兩個嵌入并計算相似性得分，然后預(yù)測其三維結(jié)構(gòu)的相似程度。然后，模型將其預(yù)測的相似性得分與其結(jié)構(gòu)的實際SCOP相似性得分進行比較，并將反饋信號發(fā)送給編碼器。

同時，該模型預(yù)測每個嵌入的“接觸圖”，基本上表示每個氨基酸與蛋白質(zhì)預(yù)測的3-D結(jié)構(gòu)中的所有其他氨基酸相距多遠 - 基本上，它們是否接觸?該模型還將其預(yù)測的接觸圖與來自SCOP的已知接觸圖進行比較，并將反饋信號發(fā)送到編碼器。這有助于模型更好地了解氨基酸在蛋白質(zhì)結(jié)構(gòu)中的確切位置，從而進一步更新每種氨基酸的功能。

基本上，研究人員通過要求它預(yù)測配對序列嵌入是否將共享相似的SCOP蛋白結(jié)構(gòu)來訓練他們的模型。如果模型的預(yù)測分數(shù)接近真實分數(shù)，它就知道它在正確的軌道上;如果沒有，它會調(diào)整。

蛋白質(zhì)設(shè)計

最后，對于一個輸入的氨基酸鏈，該模型將為3-D結(jié)構(gòu)中的每個氨基酸位置產(chǎn)生一個數(shù)值表示或嵌入。機器學習模型然后可以使用這些序列嵌入來基于其預(yù)測的3-D結(jié)構(gòu)“背景” - 其位置和與其他氨基酸的接觸來準確地預(yù)測每個氨基酸的功能。

例如，研究人員使用該模型預(yù)測哪些片段(如果有的話)通過細胞膜。鑒于只有一個氨基酸序列，研究人員的模型比最先進的模型更準確地預(yù)測所有跨膜和非跨膜片段。

接下來，研究人員的目標是將該模型應(yīng)用于更多預(yù)測任務(wù)，例如確定哪些序列片段與小分子結(jié)合，這對于藥物開發(fā)至關(guān)重要。他們還致力于將該模型用于蛋白質(zhì)設(shè)計。使用它們的序列嵌入，它們可以預(yù)測蛋白質(zhì)會發(fā)出什么顏色的波長。

“我們的模型允許我們將信息從已知的蛋白質(zhì)結(jié)構(gòu)轉(zhuǎn)移到具有未知結(jié)構(gòu)的序列。使用我們的嵌入作為特征，我們可以更好地預(yù)測功能并實現(xiàn)更有效的數(shù)據(jù)驅(qū)動蛋白質(zhì)設(shè)計，”Bepler說。“在很高的層面上，這種類型的蛋白質(zhì)工程是目標。”

Berger補充說：“我們的機器學習模型因此使我們能夠?qū)W習蛋白質(zhì)折疊的'語言' - 最初的'圣杯'問題之一 - 來自相對較少的已知結(jié)構(gòu)。”

論文：“使用結(jié)構(gòu)信息學習蛋白質(zhì)序列嵌入。”