基于多標記學習的蛋白質亞細胞定位預測.pdf_第1頁
已閱讀1頁,還剩63頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、蛋白質是基因功能的主要執(zhí)行者,對蛋白質功能進行研究是基因組學研究領域的重中之重。然而,每種亞細胞為蛋白質行使特定功能提供了場所,蛋白質只有轉運到其相應的的亞細胞中,才能正確的發(fā)揮作用,支持生命活動健康有序的進行,否則,將會造成機體功能紊亂,甚至威脅到生命健康。因此,對蛋白質所處的亞細胞位點進行研究預測是研究蛋白質功能的基礎,同時也為研究某些疾病的發(fā)病機理以及研制針對疾病的新藥物提供了研究理論基礎。
  生物信息學和基因組學的快速發(fā)

2、展,使實驗所得數據庫中蛋白質數據以幾何方式倍增,研究由原來運用傳統(tǒng)方式逐漸開始改用生物信息學的手段進行處理海量數據。而且,由于很多實驗數據表明30%以上的蛋白質可以同時位于多個亞細胞位置或者在多個亞細胞間游走,研究也由對蛋白質亞細胞進行單位點預測轉變?yōu)槎辔稽c預測。因此,運用生物信息學的手段進行多位點蛋白質亞細胞定位預測是目前研究的熱門方向。
  采用生物信息學的方法進行多位點蛋白質亞細胞定位預測通常分為四步:一是構建有效的多位點蛋

3、白質數據集;二是對構建的數據集進行全面有效的特征提取;三是分類器的選取,由于多位點蛋白質亞細胞定位預測是一個典型的多標記學習問題,因此選用合適的多標簽分類算法是研究預測的關鍵一步;四是對預測算法的評估,通過預測結果評估分類算法的好壞。
  多位點蛋白質亞細胞定位預測的關鍵步驟是對數據集的特征提取和分類算法的選擇。其中特征提取方法很多,包括基于序列信息的和基于注釋信息的特征提取方法。本文在對數據集進行特征提取時,采用了基于序列信息的

4、多種特征提取方法,有氨基酸組成模型,偽氨基酸組成模型,氨基酸理化性質組成模型,熵密度,自相關系數編碼,位置向量組成模型。由于每種特征提取方法都有其局限性,因此本文將多種特征提取方法進行了融合并做以比較,以提取出更全面有效的特征。
  該問題是典型的多標簽分類問題,隨著該問題的出現(xiàn)也涌現(xiàn)出了很多多標簽分類算法,常用的有多標簽k近鄰算法(ML-kNN)、反向傳播神經網絡多標簽算法(BP-MLL)、多標簽支持向量機算法(Rank-SVM

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論