

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、即時消息系統(tǒng)的便捷性使得在線群聊成為了人們?nèi)粘I钪薪涣鳒贤ǖ囊粋€重要方式。但是,群聊文本存在內(nèi)容簡短、結構不規(guī)范、回復對象不明確等特點,給群內(nèi)話題的檢測帶來了挑戰(zhàn)。如何從聊天文本流中準確的檢測出群內(nèi)有價值的話題是當前研究中的一個難點和熱點問題。本文針對群聊話題檢測中的兩個關鍵問題:如何緩解聊天文本向量稀疏性和解決聊天話題交叉性展開了研究。
首先,為了降低了聊天短文本的稀疏性和奇異性對話題檢測技術性能的影響,將具有回復關系的聊
2、天文本拼接在一起作為整體處理,提出了一種基于隱式回復特征的群聊話題檢測方法。提出的方法從大量真實的群聊記錄中總結提取出聊天文本中存在的隱式回復特征,借助隱式回復特征發(fā)現(xiàn)群會話中的起始信息,以起始信息作為群聊文本流的分割點,將得到的文本流片段視為一個長文本,在長文本的基礎上進行聊天文本聚類得到話題。實驗結果表明,基于隱式回復特征的群聊話題檢測方法能夠有效的緩解聊天文本向量稀疏性帶來的挑戰(zhàn),其F-measure值達到0.595,比基于歷史統(tǒng)
3、計信息的方法提高了6%,比傳統(tǒng)的基于文本相似度的方法提高了22%。
其次,為了降低話題交叉性對話題檢測技術性能的影響,引入了多話題窗口機制來準確的定位回復信息的回復對象,提出了一種基于多話題窗口的群聊話題檢測方法。提出的方法用多話題窗口保存群會話中最近討論的K個話題,當系統(tǒng)讀入新的消息文本時,借助隱式回復特征和文本相似度來確定新消息是否是對多話題窗口中的某個話題的回復,如果存在回復對象,將新消息文本加入該話題對象中,否則,向前
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于話題檢測與跟蹤的話題搜索技術研究.pdf
- 中文微博熱點話題檢測技術研究.pdf
- 中文微博話題檢測與跟蹤技術研究.pdf
- 針對BBS的話題檢測與演化技術研究.pdf
- 面向新聞報道的話題檢測技術研究.pdf
- 中文Blog熱門話題檢測與跟蹤技術研究.pdf
- 英、漢跨語言話題檢測與跟蹤技術研究.pdf
- 微博熱點話題檢測與跟蹤技術研究.pdf
- 中文微博客熱點話題檢測與跟蹤技術研究.pdf
- 面向微博的新詞發(fā)現(xiàn)和話題檢測技術研究.pdf
- 基于Labeled-LDA的微博趨勢話題檢測技術研究.pdf
- 大規(guī)模新聞網(wǎng)絡視頻話題檢測與跟蹤技術研究.pdf
- 自適應話題跟蹤技術研究.pdf
- 中文微博熱點話題檢測與自動文摘技術研究.pdf
- 微博信息流中突現(xiàn)話題檢測技術研究.pdf
- 基于文本內(nèi)容的微博突發(fā)話題檢測技術研究.pdf
- 微博突發(fā)話題檢測、跟蹤與傳播預測技術研究.pdf
- 基于K-means的網(wǎng)絡話題自動檢測技術研究.pdf
- 基于系統(tǒng)相似模型與持續(xù)時間的話題檢測技術研究.pdf
- 話題檢測研究.pdf
評論
0/150
提交評論