隨著基因組測(cè)序變得更便宜和更快,導(dǎo)致數(shù)據(jù)呈指數(shù)增長(zhǎng),對(duì)預(yù)測(cè)基因功能的效率需求也在增長(zhǎng),以及需要培養(yǎng)下一代生物信息學(xué)科學(xué)家。博伊斯湯普森研究所(BTI)教員Lukas Mueller實(shí)驗(yàn)室的研究人員制定了一項(xiàng)戰(zhàn)略,以滿足這兩方面的需求,使學(xué)生和研究人員受益。
穆勒實(shí)驗(yàn)室利用大量新基因組序列作為有興趣學(xué)習(xí)基因組注釋的本科生的培訓(xùn)資源創(chuàng)建了一個(gè)框架。該框架于2019年4月3日在PLOS Computational Biology上在線發(fā)表。
什么是基因組注釋,為什么它很重要?
在研究人員確定生物體基因組中數(shù)百萬(wàn)個(gè)堿基對(duì)DNA的序列后,他們需要弄清楚兩件事:哪些DNA片段是編碼蛋白質(zhì)的基因,以及這些蛋白質(zhì)的功能是什么。這種鑒定基因和預(yù)測(cè)其功能的過(guò)程稱為基因組注釋。
“基因及其功能的預(yù)測(cè)是大多數(shù)生物學(xué)家所關(guān)心的問(wèn)題。這就是生物過(guò)程的最大理解發(fā)生的地方,”穆勒實(shí)驗(yàn)室的生物信息學(xué)分析師,該論文的第一作者Prashant Hosmani說(shuō)。
通過(guò)將其序列與來(lái)自其他相關(guān)生物的基因序列進(jìn)行比較來(lái)注釋基因組。最準(zhǔn)確的基因組注釋方法是手動(dòng)管理,一個(gè)人進(jìn)行分析。相反,利用計(jì)算機(jī)程序識(shí)別基因及其功能更快,但有時(shí)不太準(zhǔn)確。
“手動(dòng)注釋是非常耗時(shí)的,因此非常昂貴,”Mueller實(shí)驗(yàn)室高級(jí)生物信息學(xué)分析師和項(xiàng)目協(xié)調(diào)員Surya Saha說(shuō)。“訣竅是兩者兼顧:首先使用自動(dòng)注釋,然后關(guān)注感興趣的基因和生化途徑,并手動(dòng)注釋它們。”
本文概述了從頭開(kāi)始開(kāi)始本科注釋計(jì)劃的一系列邏輯步驟。當(dāng)學(xué)生第一次加入該項(xiàng)目時(shí),他們會(huì)受到團(tuán)隊(duì)領(lǐng)導(dǎo)和專家注釋人員對(duì)交易工具的培訓(xùn)。
在整個(gè)項(xiàng)目中,學(xué)生會(huì)仔細(xì)記錄他們的研究和結(jié)果,最終將他們編入關(guān)于感興趣的生物化學(xué)途徑和成員基因家族的報(bào)告中,這些報(bào)告可能會(huì)發(fā)表。實(shí)際上,這種方法已被用于生成一份同行評(píng)審的出版物,其中有超過(guò)20名本科作者。
“工作是一回事,接受對(duì)這項(xiàng)工作的認(rèn)可也非常重要,”Hosmani說(shuō)。“這對(duì)學(xué)生來(lái)說(shuō)是一種真正的動(dòng)力。”
其他學(xué)生福利包括與國(guó)際合作者合作,建立網(wǎng)絡(luò),練習(xí)溝通和同行評(píng)審技能,以及獲得有關(guān)職業(yè)選擇的寶貴見(jiàn)解。本科生也可能因其工作而獲得研究或頂點(diǎn)項(xiàng)目學(xué)分,這增加了他們對(duì)項(xiàng)目的承諾。越來(lái)越多以科學(xué)為基礎(chǔ)的研究生課程也需要生物信息學(xué)方面的知識(shí),因此這些技能在很多領(lǐng)域都很有價(jià)值。
最后,研究人員為任何物種(不僅僅是植物)獲得高質(zhì)量的基因組注釋,從而更好地了解有機(jī)體如何發(fā)揮作用,最終使農(nóng)業(yè),生物燃料和醫(yī)藥等許多領(lǐng)域的社會(huì)受益。
作者希望其他機(jī)構(gòu)能夠適應(yīng)和建立這個(gè)框架,無(wú)論其規(guī)模大小,資源獲取或注釋目標(biāo)如何。為了使框架易于使用,作者將其圖形和表格設(shè)計(jì)為獨(dú)立且易于打印,以便于參考。
“任何有研究問(wèn)題,有序基因組和有興趣的學(xué)生的人都可以通過(guò)建立我們的工作流程來(lái)實(shí)施一個(gè)系統(tǒng),”Saha說(shuō)。