Structural Modeling and Characterization of Protein Interaction Network.pdf_第1頁
已閱讀1頁,還剩135頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、本論文的研究內(nèi)容是從結(jié)構(gòu)的角度,通過在進(jìn)化過程中相對保守,并且相互作用的結(jié)構(gòu)域(domain)來描述蛋白質(zhì)的相互作用。為此我們首先基于序列相似性的比較對生物序列數(shù)據(jù)進(jìn)行了同源(haomologous)聚類,同時我們歸納合并了所有已知的酵母和果蠅的蛋白質(zhì)相互作用數(shù)據(jù),對其進(jìn)行評估,提煉出高可信的相互作用數(shù)據(jù)。我們的聚類技術(shù)和評估策略可以應(yīng)用于其它生物物種的聚類分析和相互作用的評估。 因?yàn)樯锵到y(tǒng)在蛋白質(zhì)相互作用網(wǎng)絡(luò)方面是保守的,即

2、從序列到結(jié)構(gòu),進(jìn)而到相互作用網(wǎng)絡(luò)都存在著某種生物共性,這種共性或者一致性(universality)通??梢悦枋鰹橐环N模式保守的蛋白質(zhì)相互作用網(wǎng)絡(luò),而該網(wǎng)絡(luò)的基本構(gòu)成單元就是蛋白質(zhì)結(jié)構(gòu)域。由于當(dāng)前蛋白質(zhì)相互作用數(shù)據(jù)主要來自序列的相互作用,每條蛋白質(zhì)序列可能含有多條保守的結(jié)構(gòu)域,這樣相互作用的可能性就會成指數(shù)級的增長,使得尋找某一相關(guān)的相互作用變得異常困難。因此需要到找一種確定結(jié)構(gòu)域之間相互作用的途徑。為此我們對蛋白質(zhì)序列進(jìn)行了結(jié)構(gòu)域的劃

3、分和映射,并采用機(jī)器學(xué)習(xí)的方法提取出結(jié)構(gòu)域之間的相互作用??紤]到當(dāng)前只有一小部分結(jié)構(gòu)域具有三維結(jié)構(gòu)信息,我們在論文中提出了一種系統(tǒng)的預(yù)測同源結(jié)構(gòu)的方法。特別是我們構(gòu)建了基于結(jié)構(gòu)域聚類的模板數(shù)據(jù)庫,提高了模板的涵蓋范圍。另外我們提出了一種以模板的三維結(jié)構(gòu)比對作為profile或者anchor的比-對算法,有效的提高了未知序列同相應(yīng)模板之間的比對準(zhǔn)確性,進(jìn)而提高了預(yù)測結(jié)構(gòu)的質(zhì)量。數(shù)據(jù)分析顯示,我們的方法可以是現(xiàn)有的同源建模(Homology

4、 Modeling)算法預(yù)測出近三分之二的蛋白質(zhì)結(jié)構(gòu)。最后,我們同時采用rigid body和flexible這兩種對接工具來研究結(jié)構(gòu)域?qū)雍笏纬珊铣审w的同源和一致性。 本論文的組織結(jié)構(gòu)如下: 第一章緒論,簡要介紹了該論文的研究背景和意義,對蛋白質(zhì)相互作用網(wǎng)絡(luò)拼接過程中所涉及到的研究內(nèi)容和方法進(jìn)行了分類介紹,并結(jié)合現(xiàn)有方法總結(jié)了所涉及研究內(nèi)容存在的問題。 第二章基于序列和結(jié)構(gòu)域相似性的蛋白質(zhì)序列聚類。本論文的研

5、究內(nèi)容是從結(jié)構(gòu)的角度,拼接出蛋白質(zhì)的相互作用網(wǎng)絡(luò),因此本課題的第一步工作是對蛋白質(zhì)序列進(jìn)行聚類分析,我們的目的是將直向同源物進(jìn)行(orthologs)聚類。首先我們利用BLSTAP算法對蛋白質(zhì)序列進(jìn)行相似性比較,構(gòu)建出比對間的相似距離矩陣,同時將蛋白質(zhì)結(jié)構(gòu)域作為一個附加的準(zhǔn)則來篩選出假的同源關(guān)系。然后將剩余的比對用圖論的理論進(jìn)行描述:節(jié)點(diǎn)為序列,邊為兩條序列間的對應(yīng)關(guān)系。最后我們采用Markov graph-flow算法對其進(jìn)行聚類分析

6、。利用該算法,我們對六種真核生物的序列進(jìn)行了聚類分析,其結(jié)果要明顯優(yōu)于NCBI和TIGR的聚類結(jié)果。 第三章蛋白質(zhì)相互作用數(shù)據(jù)的整合。蛋白質(zhì)—蛋白質(zhì)相互作用是系統(tǒng)生物系的研究核心,生物體的各種代謝和調(diào)控途徑都是有蛋白質(zhì)—蛋白質(zhì)相互作用來體現(xiàn)的。但是通過試驗(yàn)手段獲得的相互作用數(shù)據(jù)包含著很多的錯誤,曾經(jīng)的統(tǒng)計(jì)表明:僅僅有10%的相互作用數(shù)據(jù)可以支持不同的、獨(dú)立的試驗(yàn),而近50%的相互作用數(shù)據(jù)是假陽性的。針對這一問題,我們首先合并了所

7、有的公共數(shù)據(jù)庫(11個)中關(guān)于酵母和蠕蟲的蛋白質(zhì)相互作用數(shù)據(jù),通過交叉驗(yàn)證(cross-reference)并結(jié)合序列的信息,對這些數(shù)據(jù)進(jìn)行了提煉,刪除了其中的冗余信息。然后我們采用機(jī)器學(xué)習(xí)的方法對每一種實(shí)驗(yàn)方法賦予一定的權(quán)值,這樣對于每一個蛋白質(zhì)相互作用可以獲得一個分值,最終根據(jù)設(shè)置不同的cutoff可以篩選出高可信度(高分值)的相互作用數(shù)據(jù)。 第四章基于序列保守結(jié)構(gòu)域(domain)的同源建模算法。蛋白質(zhì)三維結(jié)構(gòu)特征是蛋白質(zhì)

8、功能分析、蛋白質(zhì)相互作用、進(jìn)化樹構(gòu)建和藥物設(shè)計(jì)等研究的基礎(chǔ)。通常蛋白質(zhì)結(jié)構(gòu)的確定取決于X-射線晶體衍射和核磁共振等試驗(yàn)方法,但是X-射線晶體衍射法非常耗時,核磁共振又無法準(zhǔn)確地測定大蛋白質(zhì)分子的結(jié)構(gòu)。因此,利用計(jì)算技術(shù)開發(fā)準(zhǔn)確、快速的蛋白質(zhì)三維結(jié)構(gòu)預(yù)測算法就顯得尤為關(guān)鍵和迫切。目前蛋白質(zhì)結(jié)構(gòu)的預(yù)測算法主要分為以下三類:同源建模(Homology Modeling)、結(jié)構(gòu)模式預(yù)測(Threading)和從頭預(yù)測(ab initio)。其中

9、同源建模法采用已知的蛋白質(zhì)結(jié)構(gòu)作為模板,可以準(zhǔn)確地預(yù)測其它同源蛋白質(zhì)的結(jié)構(gòu),被認(rèn)為是當(dāng)前最成功的預(yù)測算法。 第五章基于結(jié)構(gòu)的蛋白質(zhì)相互作用網(wǎng)絡(luò)的拼接。因?yàn)榈鞍踪|(zhì)相互作用是通過保守的結(jié)構(gòu)域來體現(xiàn)的,因此結(jié)構(gòu)域被認(rèn)為是生物系統(tǒng)的最基本單位(building blocks)。綜合上述各章的研究成果,在所有的酵母、蠕蟲和果蠅的序列中,我們從46,742個蛋白質(zhì)同源聚類中提取出了135,744條蛋白質(zhì)相互作用,其中有6,679個蛋白質(zhì)同源

10、聚類包含有多個物種,約占總數(shù)的15%。采用最大相似度估計(jì)(Maximum Likelihood Estimation,MLE)算法,我們將這些蛋白質(zhì)相互作用精簡成33,068條結(jié)構(gòu)域間的相互作用,構(gòu)建出了結(jié)構(gòu)域之間的相互作用映射。另外,利用我們的同源建模算法,我們成功的預(yù)測出了酵母、蠕蟲或者果蠅的167,300條蛋白質(zhì)結(jié)構(gòu)。我們從相互作用映射中挑選出至少含有3個已知結(jié)構(gòu),并且分別源自同樣的三個物種的相互作用對(interaction

11、pair),以此來確保其同源性。最后利用剛體(rigid-body)和柔性(flexible)的對接(docking)工具,即Zdock和Rosetta,從結(jié)構(gòu)域的角度論證了同源蛋白質(zhì)相互作用的保守一致性,為蛋白質(zhì)相互作用網(wǎng)絡(luò)的拼接提供了理論依據(jù)。 第六章結(jié)論。系統(tǒng)總結(jié)了該論文的各項(xiàng)研究成果,并討論了下一步的工作。 附錄一基于Smith-Waterman算法的生物序列并行比較。生物序列相似性比較是生物信息學(xué)中最常見的問題

12、,其中基于動態(tài)規(guī)劃思想的Smith-Waterman算法是相似性比較中最流行的算法。然而現(xiàn)有的并行Smith-Waterman都需要龐大的內(nèi)存,隨著生物數(shù)據(jù)的急劇增長,并行Smith-Waterman算法內(nèi)存空間的需求已經(jīng)成為一個需要緊迫解決的問題。基于這一問題,我們提出了一種基于分而治之策略的并行Smith-Waterman算法,PSW-DC算法。其基本思想是:采用數(shù)據(jù)分割的方法給每個處理器分配一定的數(shù)據(jù),然后每個處理器獨(dú)立的運(yùn)行Sm

13、ith-Waterman算法,最后再把各個處理器計(jì)算的結(jié)果進(jìn)行合并,得到局部最優(yōu)比對序列。與現(xiàn)有的并行Smith-Waterman算法相比,該算法對內(nèi)存空間的需求有了很大的降低。在曙光20001并行機(jī)上進(jìn)行了模擬試驗(yàn),有效降低了算法對內(nèi)存的需求,提高了算法的運(yùn)算速度。 論文的主要貢獻(xiàn)本論文在蛋白質(zhì)序列同源聚類、蛋白質(zhì)相互作用的評估和驗(yàn)證、蛋白質(zhì)空間結(jié)構(gòu)的預(yù)測、蛋白質(zhì)相互作用網(wǎng)絡(luò)的拼接以及生物序列比對等關(guān)鍵問題上展開研究,取得如下成果:

14、 1.在蛋白質(zhì)序列同源聚類方面,如何準(zhǔn)確、快速、自動的對蛋白質(zhì)序列進(jìn)行聚類一直是研究人員在努力解決的難題。基于蛋白質(zhì)結(jié)構(gòu)域序列的相似性,本文提出一種準(zhǔn)確的蛋白質(zhì)序列同源聚類方法。該方法利用Markov Graph-Flow算法,可以自動、準(zhǔn)確的聚類orthologs(直向同源物)and in-paralogs(橫向同源物)。對多個物種序列的 聚類結(jié)果顯示,其結(jié)果的精確度比NCBI和TIGR的結(jié)果有明顯的提高。該方法可以應(yīng)用于所

15、有已知真核生物的序列聚類中,能夠大幅提高聚類結(jié)果的準(zhǔn)確性。 2.通過試驗(yàn)確定的蛋白質(zhì)相互作用都存在一定范圍的誤差。我們合并了所有yeast和worm的蛋白質(zhì)相互作用數(shù)據(jù),提出了一種評價(jià)和交叉驗(yàn)證蛋白質(zhì)相互作用的方法。該方法采用機(jī)器學(xué)習(xí)的理論,從進(jìn)化的角度對每一相互作用的可信度進(jìn)行了評價(jià)。試驗(yàn)結(jié)果顯示,該方法可以篩選出高可信度的相互作用。另外該方法可以評價(jià)其它物種蛋白質(zhì)相互作用的可信度。 3.蛋白質(zhì)空間結(jié)構(gòu)的預(yù)測一直是國際

16、上研究的熱點(diǎn)和難點(diǎn)問題。本文為了解決同源比較建模(IIomology Modeling)算法的兩個瓶頸問題:模板的選擇和目標(biāo)一模板序列比對的準(zhǔn)確性,提出了相應(yīng)的解決方案,完善了同源建模算法。在模板選擇方面,我們以結(jié)構(gòu)域?yàn)榛A(chǔ),通過構(gòu)建模板庫極大的提高模板的涵蓋范圍;針對目標(biāo)一模板序列比對的準(zhǔn)確性問題,我們基于結(jié)構(gòu)域的三維結(jié)構(gòu)信息,提出了一種新的序列比對算法,該算法能夠產(chǎn)生更準(zhǔn)確的目標(biāo)一模板序列比對。采用所提出的方法,極大拓寬了已有同源建

17、模算法的應(yīng)用范圍。更精確的預(yù)測出了更多的蛋白質(zhì)結(jié)構(gòu)。 4.在蛋白質(zhì)相互作用網(wǎng)絡(luò)的拼接方面,由于確定結(jié)構(gòu)域一結(jié)構(gòu)域的相互作用一直是一個研究難點(diǎn),本文根據(jù)已知的蛋白質(zhì)一蛋白質(zhì)相互作用關(guān)系,構(gòu)建出結(jié)構(gòu)域一結(jié)構(gòu)域的相互作用映射。通過蛋白質(zhì)對接(docking)程序,我們從結(jié)構(gòu)域的角度論證了同源蛋白質(zhì)相互作用的保守一致性,從而為蛋白質(zhì)相互作用網(wǎng)絡(luò)的拼接提供了理論依據(jù)。 5.生物序列的相似性比較是生物信息學(xué)中最常見的問題,其中基于動

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論