

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、當(dāng)前,我們處在一個(gè)瞬息萬(wàn)變的互聯(lián)網(wǎng)時(shí)代。近幾年來(lái),以 SNS、微博、微信等為代表的新型網(wǎng)絡(luò)社交工具迅速崛起,各自擁有了數(shù)量巨大的用戶群體。微博憑借著實(shí)時(shí)性強(qiáng),內(nèi)容簡(jiǎn)練(140字以內(nèi))和發(fā)布方式多樣等優(yōu)點(diǎn),已經(jīng)成為網(wǎng)上信息發(fā)布和傳播的主要平臺(tái)之一。微博在短時(shí)期內(nèi)就能夠聚集大量的文本數(shù)據(jù),如何在這些雜亂、無(wú)序的微博文本數(shù)據(jù)中快速地提取出精煉的、有價(jià)值的話題,是一項(xiàng)艱巨的任務(wù),需要對(duì)現(xiàn)有的話題檢測(cè)技術(shù)進(jìn)行發(fā)展和提高。
本文提出了一種
2、基于LDA-SP(LatentDirichlet Allocation-Single Pass)的微博話題檢測(cè)算法。首先分析了話題檢測(cè)的基本流程,闡述了各個(gè)環(huán)節(jié)使用技術(shù)的基本原理和實(shí)現(xiàn)細(xì)節(jié)。針對(duì)在傳統(tǒng)話題檢測(cè)中,以向量空間模型作為文本模型表示存在著維度過(guò)高、語(yǔ)義表現(xiàn)缺失等缺點(diǎn),本文改進(jìn)了傳統(tǒng)方法,采用潛在狄利克雷分配模型對(duì)微博文本建模,采用Single-Pass算法作為微博話題檢測(cè)中聚類的實(shí)現(xiàn)方法,將兩者結(jié)合使用。對(duì)照實(shí)驗(yàn)的結(jié)果表明,本
3、文提出的算法在解決了預(yù)設(shè)話題數(shù)的缺點(diǎn)的同時(shí),還保證了話題檢測(cè)的精度。
本文提出了一種微博事件的同一性計(jì)算方法。該方法用來(lái)區(qū)分微博數(shù)據(jù)集中具有相似內(nèi)容的不同事件。由于這種“難分”問(wèn)題的存在,主題模型無(wú)法對(duì)相似內(nèi)容的不同事件進(jìn)行分辨。本文首先考慮兩條語(yǔ)義上相似的微博,然后計(jì)算它們?cè)跁r(shí)間、地點(diǎn)等事件特征上的同一性評(píng)分,從而推斷出它們是否表述同一個(gè)事件。將此方法與Single-Pass算法相結(jié)合,最后引入微博數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)表明,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于lda的微博話題聚類研究
- 基于LDA的微博話題聚類研究.pdf
- 基于Labeled-LDA的微博趨勢(shì)話題檢測(cè)技術(shù)研究.pdf
- 基于TH-LDA模型的中文微博熱點(diǎn)事件檢測(cè)及情感分析.pdf
- 基于主題模型的微博話題檢測(cè)與跟蹤研究.pdf
- 基于LDA的微博與傳統(tǒng)媒體的話題對(duì)比研究.pdf
- 基于主題模型的微博話題發(fā)現(xiàn)與話題摘要.pdf
- 基于倒排索引的微博話題檢測(cè).pdf
- 基于LDA模型和密度聚類的新聞話題檢測(cè).pdf
- 基于動(dòng)態(tài)Labeled-LDA模型的微博主題挖掘.pdf
- 基于微博的突發(fā)話題檢測(cè)研究.pdf
- 基于LDA模型的微博情感分析技術(shù)研究.pdf
- 中文微博的話題檢測(cè)及微博預(yù)警.pdf
- 基于LDA融合模型和多層聚類的新聞話題檢測(cè).pdf
- 熱門微博話題事件主題聚類分析.pdf
- 基于主題模型和社區(qū)發(fā)現(xiàn)的微博熱點(diǎn)事件檢測(cè)研究.pdf
- 基于話題模型的教育領(lǐng)域微博賬號(hào)萃取.pdf
- 基于微博的新興熱點(diǎn)事件檢測(cè)研究.pdf
- 基于環(huán)路LDA-HMM模型的視頻異常事件檢測(cè).pdf
- 微博平臺(tái)的熱門話題檢測(cè).pdf
評(píng)論
0/150
提交評(píng)論