基于關(guān)注度機制的圖像理解.pdf_第1頁
已閱讀1頁,還剩96頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著互聯(lián)網(wǎng)的高速發(fā)展以及智能相機和移動設備的普及,圖像數(shù)據(jù)出現(xiàn)了爆炸式增長。在日常生活中,人們越來越習慣于通過拍照來記錄他們生活的點點滴滴、表達抒發(fā)他們對待一些事物的看法、亦或者通過社交網(wǎng)絡去分享一段他們自己的經(jīng)歷。據(jù)InfoTrends[1]估計,2017年全年使用智能手機,數(shù)碼相機和其他設備拍攝的圖片數(shù)目達1.2萬億張,而儲存的照片總量將高達4.7萬億。這些照片一部分被用戶儲存在本地的儲存設備中,一部分將被用戶上傳至社交網(wǎng)絡中,作為

2、用戶分享的內(nèi)容。圖像已然成為了人類記錄生活的重要信息組成部分。用戶的圖像通常通過以下幾個方面進行管理:1)作為獨立個體的圖像,這類圖像通常以單張圖像的形式出現(xiàn),圖像描述獨立物體、風景或者人物等。2)作為事件內(nèi)容的圖像,這類圖像通常以故事相冊的形式得以保存,其內(nèi)容多為通過一系列時間連續(xù)的圖像記錄生活中的一些事件,比如生日聚會,外出旅游。3)作為某一類特定物體的圖像,這類圖像通常以集合相冊的形式得以保存,其內(nèi)容不具有時間連續(xù)性,其中的圖像描

3、述具體的特定物體,比如各種各樣的花、狗。4)作為人臉圖像,這類圖像包含了用戶與親朋好友的合照,用戶希望得到人臉信息。而對于如此大規(guī)模的圖像,如何認知圖像的內(nèi)容并進行管理成為了一項挑戰(zhàn)。
  關(guān)注度機制的靈感來自于人們認知事物的過程。為了更好地認知一個事物,人們在觀察該事物的時候,目光會沿感興趣的地方移動,有時會對著局部細節(jié)仔細觀察,然后再得出最終結(jié)論。這一過程在網(wǎng)絡的學習過程中體現(xiàn)為,對有用的信息給予其較高的權(quán)重而對于無用的信息給

4、予其較低的權(quán)重。無論是在傳統(tǒng)的機器學習領(lǐng)域還是近年來在計算機視覺領(lǐng)域產(chǎn)生了突破式進展的深度學習領(lǐng)域,關(guān)注度機制都可以對圖像認知產(chǎn)生幫助。在傳統(tǒng)的機器學習領(lǐng)域,關(guān)注度機制被廣泛應用于adaboost[2]一類算法中。其將關(guān)注度機制應用于實例上,首先將關(guān)注度集中在容易分類的實例上,接下來逐步將關(guān)注度集中在難以分類的實例上。自2012年以來,深度學習極大地推動了計算機視覺領(lǐng)域的發(fā)展。其在大規(guī)模的圖像數(shù)據(jù)集上訓練得到的分類模型具有很好的可遷移性

5、,在新的任務上表現(xiàn)出很好的泛化能力。這使得大規(guī)模的圖像數(shù)據(jù)的理解分析成為了可能。在此基礎(chǔ)上,我們將關(guān)注度機制應用于網(wǎng)絡中可以幫助網(wǎng)絡更好認知事物。
  在本文中,我們將利用關(guān)注度機制對圖像進行進一步的分析理解。針對用戶圖像,我們逐一對其設計模型。
  對于獨立個體圖像而言,日常生活中的圖像通常包含多個主體,且主體所占空間大小不一。其分類問題是一個多標簽分類問題,而不是傳統(tǒng)的單標簽分類問題。我們利用關(guān)注度機制找到主體所在區(qū)域,

6、利用這些區(qū)域更好地提取相關(guān)特征并挖掘主體之間的空間關(guān)聯(lián)性,最終完成分類任務。
  對于事件內(nèi)容的圖像,我們通常對一個相冊進行事件認知。然而由于用戶存在迥然不同的拍照習慣,往往一個相冊的事件不能通過其內(nèi)一張圖像所能展示,并且一個相冊內(nèi)的圖像也往往不都于這個相冊有關(guān)。我們利用關(guān)注度機制學習圖像重要性,使于相冊事件相關(guān)的圖像有更高的認知權(quán)重,并利用多種視覺特征以及圖像時間特征綜合分析得出最終預測結(jié)果。
  對于某一類特定物體的相冊

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論