基于深度學(xué)習(xí)的文本有效特征提取及分類研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-08 格式：pdf 頁數(shù)：59 大?。?.26MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁，還剩58頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、文本分類任務(wù)是目前自然語言處理領(lǐng)域最為熱門的研究方向之一，經(jīng)過幾十年的科學(xué)研究已經(jīng)取得了大量的成果。如何有效的從海量文本中獲得有價(jià)值的信息已經(jīng)成為了研究的熱點(diǎn)。傳統(tǒng)基于機(jī)器學(xué)習(xí)的算法存在著忽略文本語義信息、向量稀疏等問題。近幾年，隨著深度學(xué)習(xí)的快速發(fā)展，基于深度學(xué)習(xí)文本有效特征提取已經(jīng)成為解決上述問題的重要手段。但是仍然存在著一些問題，例如不能對文本的有效信息進(jìn)行充分提取以及不能將文本的篇章結(jié)構(gòu)信息進(jìn)行考慮。
　　本文根據(jù)上述的不

2、足進(jìn)行了基于深度學(xué)習(xí)的文本分類研究工作。首先，采用Word Embedding技術(shù)進(jìn)行詞向量訓(xùn)練，可以獲得考慮文本語義信息的詞向量。然后本文提出兩種神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)對文本特征進(jìn)行特征提取以及分類工作。最后將本文提出的網(wǎng)絡(luò)模型應(yīng)用在實(shí)際數(shù)據(jù)中進(jìn)一步驗(yàn)證，證明了本文所提方法實(shí)際應(yīng)用的有效性。本文的主要貢獻(xiàn)有：
　　1、提出一種基于CNN-Attention網(wǎng)絡(luò)文本特征提取方法，使用卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural

3、 Network,CNN）實(shí)現(xiàn)對不同詞語組合的信息進(jìn)行提取，使用注意力機(jī)制（Attention mechanism）給予文本重要的詞語組合信息更多的權(quán)重，實(shí)現(xiàn)文本信息的特征提取。通過和其他文本分類算法進(jìn)行對比實(shí)驗(yàn)，本章所提出的方法均可以有效的提高了文本的分類準(zhǔn)確率：
　?。?）使用局部權(quán)值共享的卷積神經(jīng)網(wǎng)絡(luò)模型，采用不同大小的卷積窗口來實(shí)現(xiàn)對不同上下文詞語組合提取特征。將一個(gè)句子分別考慮前后不同個(gè)數(shù)詞語的組合信息，提取得到文本語義

4、間深層次和多角度的特征信息。
　?。?）使用注意力機(jī)制模型，實(shí)現(xiàn)對文本重要的詞語組合信息進(jìn)行給予更高的權(quán)重操作，可以將重要的詞語組合信息進(jìn)行提取，在對文本信息提取的基礎(chǔ)上更進(jìn)一步實(shí)現(xiàn)對文本深層次的信息進(jìn)行提取，得到文本具有更強(qiáng)表達(dá)力的特征。
　　2、提出一種基于Bi-LSTM（Bi-directional Long Short-Term Memory）網(wǎng)絡(luò)的分層提取文本特征方法。該方法以句子為單位，首先對詞語之間的信息進(jìn)行提

5、取，得到句子的特征信息；再使用網(wǎng)絡(luò)對句子的特征信息進(jìn)行提取，得到文本的特征信息。進(jìn)一步使用注意力機(jī)制分別對文本重要的詞語和句子信息進(jìn)行提取，最終獲得更好的文本表達(dá)特征。該網(wǎng)絡(luò)與將文本整體作為序列信息輸入相比提高了文本分類的準(zhǔn)確率：
　?。?）該方法先對句子中前后詞語之間的信息使用Bi-LSTM得到句子的特征向量表示，再使用Bi-LSTM對前后句子之間的信息進(jìn)行提取，從而實(shí)現(xiàn)對文本從句子到篇章分層信息提取。
　?。?）將注意力

6、機(jī)制分別應(yīng)用在詞語層級和句子層級之后，針對文本不同貢獻(xiàn)度的詞語和句子分別進(jìn)行提取，通過將注意力機(jī)制應(yīng)用在文本分層信息提取上，實(shí)現(xiàn)根據(jù)不同詞語和句子的貢獻(xiàn)度不同進(jìn)行文本的信息提取，從而獲得更具有表達(dá)力的文本特征信息。
　　3、本文實(shí)現(xiàn)一種融合注意力機(jī)制的Bi-LSTM網(wǎng)絡(luò)文本分類系統(tǒng)。為驗(yàn)證本文所提出方法的有效性和實(shí)用價(jià)值，將該方法應(yīng)用在實(shí)習(xí)期間公司的實(shí)際項(xiàng)目中，最終在實(shí)際業(yè)務(wù)場景下收集的YW_News7數(shù)據(jù)庫上測試取得了較高的分類

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于深度學(xué)習(xí)的文本有效特征提取及分類研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

基于深度學(xué)習(xí)的文本有效特征提取及分類研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費(fèi)下載