亚洲综合日韩精品高清一区,欧美激情中文字幕乱码免费,亚洲变态另类天堂AV手机版,狠狠热精品视频

  1. 
    
    <sup id="7twp6"></sup>
    <mark id="7twp6"><thead id="7twp6"><input id="7twp6"></input></thead></mark>

    模型學(xué)習(xí)單個(gè)氨基酸如何決定蛋白質(zhì)功能

    導(dǎo)讀 來自麻省理工學(xué)院研究人員的機(jī)器學(xué)習(xí)模型計(jì)算地分解了氨基酸鏈段如何決定蛋白質(zhì)的功能,這可以幫助研究人員設(shè)計(jì)和測試用于藥物開發(fā)或生物研

    來自麻省理工學(xué)院研究人員的機(jī)器學(xué)習(xí)模型計(jì)算地分解了氨基酸鏈段如何決定蛋白質(zhì)的功能,這可以幫助研究人員設(shè)計(jì)和測試用于藥物開發(fā)或生物研究的新蛋白質(zhì)。

    蛋白質(zhì)是氨基酸的線性鏈,通過肽鍵連接,折疊成極其復(fù)雜的三維結(jié)構(gòu),這取決于鏈內(nèi)的序列和物理相互作用。反過來,這種結(jié)構(gòu)決定了蛋白質(zhì)的生物學(xué)功能。因此,了解蛋白質(zhì)的三維結(jié)構(gòu)對于預(yù)測蛋白質(zhì)如何對某些藥物產(chǎn)生反應(yīng)是有價(jià)值的。

    然而,盡管經(jīng)過數(shù)十年的研究和多種成像技術(shù)的發(fā)展,我們只知道很少一部分可能的蛋白質(zhì)結(jié)構(gòu) - 數(shù)以萬計(jì)的成千上萬。研究人員開始使用機(jī)器學(xué)習(xí)模型根據(jù)氨基酸序列預(yù)測蛋白質(zhì)結(jié)構(gòu),這可以發(fā)現(xiàn)新的蛋白質(zhì)結(jié)構(gòu)。但這具有挑戰(zhàn)性,因?yàn)椴煌陌被嵝蛄锌梢孕纬煞浅O嗨频慕Y(jié)構(gòu)。并且沒有很多結(jié)構(gòu)可以訓(xùn)練模型。

    在5月份的國際學(xué)習(xí)代表會(huì)議上發(fā)表的一篇論文中,麻省理工學(xué)院的研究人員開發(fā)了一種方法,用于“學(xué)習(xí)”蛋白質(zhì)序列中每個(gè)氨基酸位置的易于計(jì)算的表示,最初使用3-D蛋白質(zhì)結(jié)構(gòu)作為培訓(xùn)指南。然后,研究人員可以使用這些表示作為輸入,幫助機(jī)器學(xué)習(xí)模型預(yù)測單個(gè)氨基酸片段的功能 - 而無需再次需要蛋白質(zhì)結(jié)構(gòu)的任何數(shù)據(jù)。

    將來,該模型可用于改進(jìn)蛋白質(zhì)工程,為研究人員提供更好地歸零和修飾特定氨基酸片段的機(jī)會(huì)。該模型甚至可能引導(dǎo)研究人員完全脫離蛋白質(zhì)結(jié)構(gòu)預(yù)測。

    “我希望將結(jié)構(gòu)邊緣化,”第一作者Tristan Bepler說,他是計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)計(jì)算與生物學(xué)研究組的研究生。“我們想知道蛋白質(zhì)的作用,知道結(jié)構(gòu)對此非常重要。但是,我們能預(yù)測蛋白質(zhì)的功能只能給出它的氨基酸序列嗎?動(dòng)機(jī)是遠(yuǎn)離專門預(yù)測結(jié)構(gòu),轉(zhuǎn)向[發(fā)現(xiàn)]氨基酸序列如何與功能相關(guān)。“

    加入Bepler的是共同作者Bonnie Berger,麻省理工學(xué)院Simons數(shù)學(xué)教授,電氣工程和計(jì)算機(jī)科學(xué)系的聯(lián)合教員,以及計(jì)算和生物學(xué)組的負(fù)責(zé)人。

    從結(jié)構(gòu)中學(xué)習(xí)

    研究人員將預(yù)測的蛋白質(zhì)結(jié)構(gòu)信息直接編碼為表示,而不是像傳統(tǒng)模型那樣直接預(yù)測結(jié)構(gòu)。為此,他們使用已知的蛋白質(zhì)結(jié)構(gòu)相似性來監(jiān)督他們的模型,因?yàn)樵撃P蛯W(xué)習(xí)了特定氨基酸的功能。

    他們根據(jù)蛋白質(zhì)結(jié)構(gòu)分類(SCOP)數(shù)據(jù)庫對大約22,000種蛋白質(zhì)進(jìn)行了模型訓(xùn)練,該數(shù)據(jù)庫包含數(shù)千種蛋白質(zhì),這些蛋白質(zhì)通過結(jié)構(gòu)和氨基酸序列的相似性組織成類別。對于每對蛋白質(zhì),他們根據(jù)他們的SCOP類計(jì)算出真實(shí)的相似性得分,這意味著它們在結(jié)構(gòu)上的接近程度。

    然后研究人員給他們的模型隨機(jī)配對的蛋白質(zhì)結(jié)構(gòu)及其氨基酸序列,它們被編碼器轉(zhuǎn)換成稱為嵌入的數(shù)字表示。在自然語言處理中,嵌入基本上是以對應(yīng)于句子中的字母或單詞的方式組合的數(shù)百個(gè)數(shù)字的表。兩個(gè)嵌入越相似,字母或單詞在句子中出現(xiàn)的可能性就越大。

    在研究人員的工作中,每對嵌入包含有關(guān)每個(gè)氨基酸序列與另一個(gè)氨基酸序列有多相似的信息。該模型對齊兩個(gè)嵌入并計(jì)算相似性得分,然后預(yù)測其三維結(jié)構(gòu)的相似程度。然后,模型將其預(yù)測的相似性得分與其結(jié)構(gòu)的實(shí)際SCOP相似性得分進(jìn)行比較,并將反饋信號(hào)發(fā)送給編碼器。

    同時(shí),該模型預(yù)測每個(gè)嵌入的“接觸圖”,基本上表示每個(gè)氨基酸與蛋白質(zhì)預(yù)測的3-D結(jié)構(gòu)中的所有其他氨基酸相距多遠(yuǎn) - 基本上,它們是否接觸?該模型還將其預(yù)測的接觸圖與來自SCOP的已知接觸圖進(jìn)行比較,并將反饋信號(hào)發(fā)送到編碼器。這有助于模型更好地了解氨基酸在蛋白質(zhì)結(jié)構(gòu)中的確切位置,從而進(jìn)一步更新每種氨基酸的功能。

    基本上,研究人員通過要求它預(yù)測配對序列嵌入是否將共享相似的SCOP蛋白結(jié)構(gòu)來訓(xùn)練他們的模型。如果模型的預(yù)測分?jǐn)?shù)接近真實(shí)分?jǐn)?shù),它就知道它在正確的軌道上;如果沒有,它會(huì)調(diào)整。

    蛋白質(zhì)設(shè)計(jì)

    最后,對于一個(gè)輸入的氨基酸鏈,該模型將為3-D結(jié)構(gòu)中的每個(gè)氨基酸位置產(chǎn)生一個(gè)數(shù)值表示或嵌入。機(jī)器學(xué)習(xí)模型然后可以使用這些序列嵌入來基于其預(yù)測的3-D結(jié)構(gòu)“背景” - 其位置和與其他氨基酸的接觸來準(zhǔn)確地預(yù)測每個(gè)氨基酸的功能。

    例如,研究人員使用該模型預(yù)測哪些片段(如果有的話)通過細(xì)胞膜。鑒于只有一個(gè)氨基酸序列,研究人員的模型比最先進(jìn)的模型更準(zhǔn)確地預(yù)測所有跨膜和非跨膜片段。

    接下來,研究人員的目標(biāo)是將該模型應(yīng)用于更多預(yù)測任務(wù),例如確定哪些序列片段與小分子結(jié)合,這對于藥物開發(fā)至關(guān)重要。他們還致力于將該模型用于蛋白質(zhì)設(shè)計(jì)。使用它們的序列嵌入,它們可以預(yù)測蛋白質(zhì)會(huì)發(fā)出什么顏色的波長。

    “我們的模型允許我們將信息從已知的蛋白質(zhì)結(jié)構(gòu)轉(zhuǎn)移到具有未知結(jié)構(gòu)的序列。使用我們的嵌入作為特征,我們可以更好地預(yù)測功能并實(shí)現(xiàn)更有效的數(shù)據(jù)驅(qū)動(dòng)蛋白質(zhì)設(shè)計(jì),”Bepler說。“在很高的層面上,這種類型的蛋白質(zhì)工程是目標(biāo)。”

    Berger補(bǔ)充說:“我們的機(jī)器學(xué)習(xí)模型因此使我們能夠?qū)W習(xí)蛋白質(zhì)折疊的'語言' - 最初的'圣杯'問題之一 - 來自相對較少的已知結(jié)構(gòu)。”

    論文:“使用結(jié)構(gòu)信息學(xué)習(xí)蛋白質(zhì)序列嵌入。”