基于半監(jiān)督學習的用戶情感分析系統(tǒng)的設計與原型實現(xiàn).pdf_第1頁
已閱讀1頁,還剩89頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、在互聯(lián)網(wǎng)不斷發(fā)展的今天,Twitter,微博等各類社交媒體層出不窮。各種社交媒體成為了用戶發(fā)表想法和宣泄情感的主要平臺。看似并無有效信息的一條條推文,可以分析出針對某個問題大多數(shù)用戶的情感態(tài)度。依靠普通的人力很難對海量的推文進行處理,所以通過讓計算機代替人類來學習分類的方法已經(jīng)成為趨勢。而只需要少量樣本訓練的半監(jiān)督學習方法對解決上述問題具有更好的意義和研究價值,已經(jīng)成為目前學者們的關注焦點。本文設計了一個可以分析情感傾向的平臺。提供了從

2、數(shù)據(jù)處理到特征選擇和算法實現(xiàn)的整套處理流程??晒┯脩糇杂蛇x擇不同的處理方式,并能在已有數(shù)據(jù)集的基礎上并行計算出各種處理方式的分類準確率。本文首先根據(jù)實際應用對系統(tǒng)進行了需求分析。然后以此為基礎對系統(tǒng)的預處理模塊,特征選擇模塊,算法實體模塊和組合運算模塊進行了詳細的設計和實現(xiàn)。
  本文在設計上有如下特色:(1)分布式組合運算。由于在數(shù)據(jù)處理,特征提取和算法選擇上有很多組合方式,用戶很難選出最合適的一種。而一個個嘗試又特別耗時,所以

3、采用分布式的處理方式讓機器自己運算得出每種組合的結果。系統(tǒng)在亂序的數(shù)據(jù)流中解決線程安全問題,能夠多線程的計算各種處理方式的分類結果。并對每種結果進行評估,選擇出針對此種主題數(shù)據(jù)的最佳處理方式。(2)提供多種特征。系統(tǒng)設置了16種情感特征。包括標點符號,詞性,表情符號等各種方面的文本屬性特征。并結合現(xiàn)有的理論及技術,提供N-gram特征和句子間的依存關系特征。通過多種特征結合的方式以達到對數(shù)據(jù)全方位分析的功能。并在此基礎上進行特征篩選。將

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論