眾賞文庫
全部分類
  • 抗擊疫情 >
    抗擊疫情
    病毒認知 防護手冊 復(fù)工復(fù)產(chǎn) 應(yīng)急預(yù)案 防控方案 英雄事跡 院務(wù)工作
  • 成品畢設(shè) >
    成品畢設(shè)
    外文翻譯 畢業(yè)設(shè)計 畢業(yè)論文 開題報告 文獻綜述 任務(wù)書 課程設(shè)計 相關(guān)資料 大學生活 期刊論文 實習報告
  • 項目策劃 >
    項目策劃
    土地準備 規(guī)劃設(shè)計 開工開盤 項目綜合 竣工移交 售后移交 智慧方案 安全專項 環(huán)境影響評估報告 可行性研究報告 項目建議書 商業(yè)計劃書 危害評估防治 招投標文件
  • 專業(yè)資料 >
    專業(yè)資料
    人文法律 環(huán)境安全 食品科學 基礎(chǔ)建設(shè) 能源化工 農(nóng)林牧畜 綜合待分類 教育經(jīng)驗 行政人力 企業(yè)管理 醫(yī)學衛(wèi)生 IT技術(shù) 土木建筑 考研專題 財會稅務(wù) 公路隧道 紡織服裝
  • 共享辦公 >
    共享辦公
    總結(jié)匯報 調(diào)研報告 工作計劃 述職報告 講話發(fā)言 心得體會 思想?yún)R報 事務(wù)文書 合同協(xié)議 活動策劃 代理加盟 技術(shù)服務(wù) 求職簡歷 辦公軟件 ppt模板 表格模板 融資協(xié)議 發(fā)言演講 黨團工作 民主生活
  • 學術(shù)文檔 >
    學術(shù)文檔
    自然科學 生物科學 天文科學 醫(yī)學衛(wèi)生 工業(yè)技術(shù) 航空、航天 環(huán)境科學、安全科學 軍事 政學 文化、科學、教育、 交通運輸 經(jīng)濟 語言、文字 文學 農(nóng)業(yè)科學 社會科學總論 藝術(shù) 歷史、地理 哲學 數(shù)理科學和化學 綜合性圖書 哲學宗教
  • 經(jīng)營營銷 >
    經(jīng)營營銷
    綜合文檔 經(jīng)濟財稅 人力資源 運營管理 企業(yè)管理 內(nèi)控風控 地產(chǎn)策劃
  • 教學課件 >
    教學課件
    幼兒教育 小學教育 初中教育 高中教育 職業(yè)教育 成人教育 高等教育 考研資源 試題真題 作業(yè)習題 課后答案 綜合教學
  • 土木建筑 >
    土木建筑
    專項施工 應(yīng)急預(yù)案 建筑規(guī)范 工藝方案 技術(shù)交底 施工表格 圖片圖集
  • 課程導(dǎo)學 >
    課程導(dǎo)學
    醫(yī)學綜合 中醫(yī)養(yǎng)生 醫(yī)學研究 身心發(fā)展 醫(yī)學試題 影像醫(yī)學 醫(yī)院辦公 外科醫(yī)學 老年醫(yī)學 內(nèi)科醫(yī)學 婦產(chǎn)科 神經(jīng)科 醫(yī)學課件 眼鼻喉科 皮膚病科 腫瘤科 兒科醫(yī)學 康復(fù)醫(yī)學 全科醫(yī)學 護理學科 針灸學科 重癥學科 病毒學科 獸醫(yī) 藥學
    • 簡介:統(tǒng)計自然語言處理基本概念,模型,,,,,真實世界中的系統(tǒng),模型1,INPUT,,,OUTPUT,,模型2,,OUTPUT1,OUTPUT2,如果OUTPUT1總是和OUPUT接近,OUTPUT2總是和OUTPUT偏離,我們就認為模型1比模型2好,,,,,,,真實系統(tǒng),,,,模型1,,模型2,INPUT,OUTPUT,,模型由體系結(jié)構(gòu)和參數(shù)兩部分構(gòu)成舉例住宅樓多層板樓高層板樓高層塔樓參數(shù)層數(shù)戶型三室一廳,兩室一廳,舉架高度供熱方式地熱暖氣片,目錄,樣本空間SAMPLESPACE估計器ESTIMATOR和隨機過程STOCHASTICPROCESS信息論INFORMATIONTHEORY數(shù)據(jù)集分類DATASETCLASSIFICATION性能評價PERFORMANCEMEASURE,樣本空間SAMPLESPACE,,試驗EXPERIMENT,試驗一個可觀察結(jié)果的人工或自然的過程,其產(chǎn)生的結(jié)果可能不止一個,且不能事先確定會產(chǎn)生什么結(jié)果例如連擲兩次硬幣樣本空間是一個試驗的全部可能出現(xiàn)的結(jié)果的集合舉例連擲兩次硬幣?{HH,HT,TH,TT},H面朝上T面朝下,事件EVENT,事件一個試驗的一些可能結(jié)果的集合,是樣本空間的一個子集舉例連擲兩次硬幣A至少一次面朝上B第二次面朝下A{HT,TH,HH},B{HT,TT},事件的概率,事件的概率重復(fù)M試驗,如果事件A出現(xiàn)的次數(shù)為N,則事件A的概率為PAN/M,這稱為概率的頻率解釋,或稱統(tǒng)計解釋頻率的穩(wěn)定性又稱為經(jīng)驗大數(shù)定理舉例連擲兩次硬幣A至少一次面朝上B第二次面朝下PA3/4,PB1/2當試驗不能重復(fù)時,概率失去其頻率解釋的含義,此時概率還有其他解釋貝葉斯學派和信念學派一個人出生時的體重,一個人只能出生一次,舉例,舉例連續(xù)三次擲硬幣樣本空間?{HHH,HHT,HTH,HTT,THH,THT,TTH,TTT}事件A恰好兩次面朝下A{HTT,THT,TTH}做1000次試驗,計數(shù)得386次為兩次面朝下估計PA386/10000386繼續(xù)做7組試驗,得373,399,382,355,372,406,359,共8組試驗計算平均值PA03860373/80379,或累計PA386373/80003032/80000379統(tǒng)一的分布假設(shè)為3/80375,概率空間,概率空間的三個公理PA?0P?1PA?BPAPBIFA?B?這三條公理也是概率的原始定義推論P?0A?B?PA0正相關(guān),?0X和Y關(guān)聯(lián)強度大IX,Y0X和Y無關(guān)IX,Y0X和Y具有互補的分布,熵ENTROPY,熵ENTROPYCHAOS(混沌),無序物理學除非施加能量,否則熵不會降低舉例把房間弄亂很容易,整理干凈不容易是不確定性UNCERTAINTY的衡量不確定性越高,熵越高,我們從一次實驗中得到的信息量越大,熵的公式,熵HX?X??PXLOGXPX假設(shè)PXX是隨機變量X的分布基本輸出字母表是?單位BITS熵是X的平均信息量,是自信息量的期望EX?X??PXXIXLOGPX,取2為底,IXLOG2PXEIXELOG2PX?X??PXLOG2PXHXHXHPHPXHXPHPX,熵的例子,擲均勻硬幣,?{H,T}PH5,PT5HP05LOG20505LOG205132面的均勻骰子,擲骰子HP321/32LOG21/325事實上,212,2532PERPLEXITY擲不均勻硬幣PH02,PT08,HP0722PH001,PT099,HP0081,好書店,差書店,,什么時候HP0試驗結(jié)果事先已經(jīng)知道即?X??,PX1?Y??,PY0IFY?X熵有沒有上限沒有一般的上限對于|?|N,HP?LOG2N均衡分布的熵是最大的,,等概率分布2個輸出的等概率分布,HP1BIT32個輸出的等概率分布,HP5BITS43億輸出的等概率分布,HP32BITS非等概率分布32個輸出,2個05,其余為0,HP1BIT怎樣比較具有不同數(shù)量輸出的“熵”,混亂度PERPLEXITY,混亂度GP2HP平均每次試驗有多少種可能的結(jié)果在NLP中,如果詞表中的詞具有統(tǒng)一的分布概率,則最難預(yù)測,熵最大,混亂度最高反之,分布越不均衡,熵越小,混亂度越小,聯(lián)合熵和條件熵,兩個隨機變量X空間是?,Y?聯(lián)合熵JOINTENTROPYX,Y被視為一個事件HX,Y?X???Y??PX,YLOG2PX,Y條件熵CONDITIONALENTROPYHY|X?X???Y??PX,YLOG2PY|XPX,Y是加權(quán),權(quán)值是沒有條件的,條件熵,HY|X?X??PXHY|XX?X??PX?Y??PY|XLOG2PY|X?X???Y??PY|XPXLOG2PY|X?X???Y??PX,YLOG2PY|X,熵的性質(zhì),熵的非負的HX?0CHAINRULEHX,YHY|XHXHX,YHX|YHYHX,Y?HXHY,X和Y獨立時相等HY|X?HY,條件熵比熵小,熵的編碼意義,如果一個符號序列是滿足概率分布P的隨機過程產(chǎn)生的,那么對這個序列進行編碼至少需要的BIT數(shù)是HP壓縮問題如果數(shù)據(jù)中有很多重復(fù)的模式,則易于壓縮,因為熵小否則,熵大,不容易壓縮,編碼實例,怎樣給ISOLATIN1編碼通常用8位經(jīng)驗表明有的字符經(jīng)常出現(xiàn),有的字符很少出現(xiàn)我們可以給經(jīng)常出現(xiàn)的字用較少的BIT來表示,給很少出現(xiàn)的字符用較多的BIT來表示假設(shè)P‘A’03,P‘B’03,P‘C’03,其余PX00004編碼A00,B01,C10,其余11B1B2B8對于符號串ACBBéCBAAC,編碼為ACBBéCBAAC0010010111000011111001000010如果每個符號用8位編碼,需要80位,現(xiàn)在需要28位,語言的熵,PCN1|C1CNCI是語言中的一個字符C1CN是歷史H舉例漢語,N3P趙|圍魏救高P去|我曾經(jīng)低計算語言的條件熵?H?H?C??PC,HLOG2PC|H,各種語言的熵,按字母計算的零階熵法文398BITS意大利文400BITS西班牙文401BITS英文403BITS德文410BITS俄問435BITS中文(按漢字計算)965BITS中文(按筆畫計算)343BITS按詞匯計算的零階熵英語100BITS漢語1146BITS說明漢語的詞匯豐富語言的冗余度英語73;俄語70;漢語63;古文更低,KULLBACKLEIBLER距離,假設(shè)通過一組試驗估計得到的概率分布為P,樣本空間?,隨機變量X真實的分布為Q,相同的?和X現(xiàn)在的問題是P和Q相比,誤差多大KULLBACKLEIBLER距離給出的答案是DQ||P?X??QXLOG2QX/PXEPLOGQX/PX,KL距離(相對熵),習慣上0LOG00PLOGP/0?DISTANCEORDIVERGENCE(分歧)不對稱DQ||P?DP||Q也不滿足三角不等式事實上,DQ||P不是距離,而是分歧HQDQ||P根據(jù)Q分布,對P進行編碼需要的BIT數(shù)(交叉熵),平均互信息,隨機變量XYPX?YX,YPXXPYY兩個離散集之間的平均互信息IX,YDPX,Y||PXPY?X???Y??PX,YLOG2PX,Y/PXPY這里說的是兩個離散集的平均互信息互信息衡量已知Y的分布時,對X的預(yù)測有多大的幫助,或者說Y的知識降低了HX或者說PX,Y和PXPY之間的距離,,互信息的性質(zhì),IX,YHXHX|YHYHY|XIX,YHXHYHX,Y因為HX,YHX|YHYIX,XHX因為HX,X0IX,YIY,XIX,Y?0,交叉熵CROSSENTROPY,典型情況我們得到一個觀察序列T{T1,T2,TN},TI??估計?Y??PYCY/|T|,定義CY|{T?T,TY}|但是,真實的Q不知道,再大的數(shù)據(jù)也不夠問題用P對Q進行估計是否準確方法用一個不同的觀察序列T’估計實際的Q,交叉熵,HP’PHP’DP’||PHP’P?X??P’XLOG2PXP’當然也不是真實的分布,但是我們視為真實世界的分布,以便測試P交叉混亂度GP’P2HP’P,條件交叉熵,實踐中計算的往往是條件交叉熵兩個樣本空間樣本空間?,隨機變量Y,Y?Y上下文樣本空間?,隨機變量X,X?X實驗得到的分布PY|X,“真實”分布P’Y|XHP’P?Y??,X??P’Y,XLOG2PY|X條件交叉熵中的權(quán)值是P’Y,X,不是P’Y|X,,在實際應(yīng)用中,在全部兩個樣本空間上做累加通常不是很方便,因此常常簡化使用如下公式HP’P?Y??,X??P’Y,XLOG2PY|X1/|T’|?I1|T’|LOG2PYI|XI事實上,就是在T’上進行累加,然后歸一化1/|T’|LOG2?I1|T’|PYI|XI,舉例,?{A,B,,Z},概率分布(估計值)PA025,PB05,P?1/64,??{C,,R},P?0,??{S,,Z}測試數(shù)據(jù)為BARB,P’AP’R025,P’B05在?上做累加?ABCDQRSZP’?LOG2P?0505000150025也可以在測試數(shù)據(jù)上進行累加,然后歸一化SIBARBLOG2PSI1261101/4?1025,,HP和HP’P之間可能有各種關(guān)系包括‘?’,‘?’,‘?’舉例(參照上例)HP25測試數(shù)據(jù)BARBHP’P1/4126125測試數(shù)據(jù)PROBABLEHP’P1/866612166425測試數(shù)據(jù)ABBAHP’P1/4211215,交叉熵的使用,不是比較數(shù)據(jù),而是比較分布如果我們有兩個分布P和Q,哪一個更好呢面對“真實數(shù)據(jù)”S,P和Q誰的交叉熵低,誰就更好HTP1/|S|LOG2?I1|S’|PYI|XIHTQ1/|S|LOG2?I1|S’|QYI|XI,,數(shù)據(jù)集分類,,,訓(xùn)練集TRAININGSET用來獲得模型參數(shù)測試集TESTINGSET從訓(xùn)練集以外獨立采樣反映系統(tǒng)面對真實世界的處理能力測試集經(jīng)常被無意識地“做了手腳”交叉確認集CROSSVALIDATIONSET從訓(xùn)練集和測試集以外獨立采樣主要用來幫助做設(shè)計決策,測試集,測試集從訓(xùn)練集去評價系統(tǒng)的性能,結(jié)果往往過于樂觀如果模型的參數(shù)比需要的多很多時,獲得100的準確率也是可能的過擬和OVERFITTING常常出現(xiàn)在訓(xùn)練數(shù)據(jù)的數(shù)量不足以支持模型的復(fù)雜程度之時為此,我們需要另一個數(shù)據(jù)集來模擬用戶的真實需要,,在設(shè)計階段,不允許偷看測試數(shù)據(jù)的細節(jié),以保證測試數(shù)據(jù)不被污染你不能參照測試數(shù)據(jù)來決定模型的復(fù)雜度,特征空間的維數(shù),以及什么時候決定停止訓(xùn)練過程等設(shè)計決策可以參照交叉確認數(shù)據(jù)進行每一個階段采用一個不同測試集當你試圖選擇一個最好的方法使測試效果達到最佳時,實際上已經(jīng)在無意識地使你的系統(tǒng)偏向測試集問題的關(guān)鍵在于測試集并不是真實數(shù)據(jù)本身,如果面向測試集調(diào)整參數(shù),可能造成系統(tǒng)對于從未見過的真實數(shù)據(jù)效果下降,,交叉確認集如果在訓(xùn)練集合上獲得了比較差的結(jié)果,我們必須重新設(shè)計如果在訓(xùn)練集合上獲得了比較好的結(jié)果,那可能是因為模型確實好(在測試數(shù)據(jù)上性能一樣會好)模型過擬和(在測試數(shù)據(jù)上性能會下降)由于不允許使用測試集來改進系統(tǒng)設(shè)計,因此需要另一個數(shù)據(jù)集,性能評價,,,使用有限的樣本進行性能測試有估計誤差性能評價的結(jié)果和測試數(shù)據(jù)的大小有關(guān)不同數(shù)據(jù)集的測試結(jié)果往往不同性能上限PERFORMANCEUPPERBOUND人與人取得一致的指標就是系統(tǒng)性能的上限,,聯(lián)立表CONTINGENCYTABLE,,準確率PPRECISIONN11/N11N21召回率RRECALLN11/N11N12錯誤率EERRORRATEN12N21/N11N12N21N22FMEASURE2PR/PR,謝謝,,
      下載積分: 6 賞幣
      上傳時間:2024-01-05
      頁數(shù): 72
      3人已閱讀
      ( 4 星級)
    • 簡介:經(jīng)管學院2014年語言文字工作總結(jié),總結(jié),2014年,我院結(jié)合本院實際情況,努力提高師生語言文字意識,提升學院文化品位,增強學院凝聚力、向心力。學院領(lǐng)導(dǎo)十分重視語言文字工作,帶頭參加各項語言文字規(guī)范化活動,并派專人成立語言文字工作小組,定期召開語言文字工作會,定期檢查全院師生語言文字工作情況,及時轉(zhuǎn)達學校普通話測試工作及語言文字工作的相關(guān)安排,設(shè)立了相關(guān)獎罰制度,實行年底考核評優(yōu)。學院多次開展語言文字規(guī)范化活動,如學生讀書報告會、“打造絕佳策劃案”培訓(xùn)講座、“寄語春天”教職工詩歌朗誦會、“人際交往和溝通技巧”專題講座、年青年教師教學基本功比賽、我的中國夢奮斗的青春最美麗主題辯論賽等一系列形式生動活潑、意義深遠的語言文字活動。9月,學院還推出普通話宣傳周特別活動,以海報、標語、橫幅、墻報等豐富多樣的形式推廣普通話。學院建有普通話網(wǎng)頁,通過網(wǎng)頁傳播語言文字知識、展示語言文字規(guī)范化活動開展情況。學院組織師生向重慶大學語言文字工作網(wǎng)投稿。此外,學院師生積極參加學校和機關(guān)組織的各類語言文字規(guī)范化活動。,目錄,三、語言文字宣傳工作,一、領(lǐng)導(dǎo)重視機構(gòu)健全,二、積極開展語言文字教育培訓(xùn)、競賽或趣味活動,四、積極參加全國、重慶市、學?;驒C關(guān)組織的語言文字類競賽活動,五、日常工作用語用字規(guī)范情況,點擊添加文本,一、領(lǐng)導(dǎo)重視機構(gòu)健全,經(jīng)管學院建立了學院領(lǐng)導(dǎo)牽頭的語言文字工作領(lǐng)導(dǎo)小組,定期召開專題會議,對語言文字工作進行布置和檢查,安排專人按時報送要求提交的相關(guān)信息和數(shù)據(jù)等。,廖冰副院長主持語言文字工作會,廖冰副院長、辦公室副主任葉平檢查普通話與文字使用規(guī)范情況,,,二、積極開展語言文字教育培訓(xùn)、競賽或趣味活動,學生讀書報告會,“打造絕佳策劃案”培訓(xùn)講座,“寄語春天”教職工詩歌朗誦會,“人際交往和溝通技巧”專題講座,二、積極開展語言文字教育培訓(xùn)、競賽或趣味活動,我的中國夢奮斗的青春最美麗主題辯論賽,師生語言文字規(guī)范知識測試,行政教職工“金秋十月愛我中華”詩歌朗誦活動,普通話推廣情況調(diào)研活動,二、積極開展語言文字教育培訓(xùn)、競賽或趣味活動,經(jīng)管學院舉辦2014年青年教師教學基本功比賽在比賽中,選手們各展所長,展示了青年教師的激情和風貌。授課內(nèi)容充實、清晰,教具、模型使用恰當,講解深入淺出,多媒體課件制作精美,展示了不同的教學特色和授課風格。,“搞定高水平論文”講座,知識競賽之“傳統(tǒng)文化”活動,,,三、語言文字宣傳工作,1推普周宣傳活動,,,2.語言文字網(wǎng)頁專欄,學院建有專門的語言文字網(wǎng)頁,全方位及時反映我院全年開展的各類宣傳、教育、競賽、培訓(xùn)等活動情況,HTTP//SEBACQUEDUCN/PTHYYWZGZ/INDEXJHTML,,,3.新聞投稿16篇,,,四、積極參加全國、重慶市、學?;驒C關(guān)組織的語言文字類競賽活動,袁絲語,能源經(jīng)濟重慶大學第十四屆外語文化節(jié)系列活動之微電影三等獎戴燕珊ACCA班軍訓(xùn)朗誦比賽三等獎陳偉會計1班重慶市首屆科普人員及科普志愿者培訓(xùn)結(jié)業(yè)證書林巧、韋超、信管軍訓(xùn)期間紅色主題朗誦比賽三等獎,五、日常工作用語用字規(guī)范情況,要求師生教職員工講普通話要求師生教職員工規(guī)范使用語言文字在醒目處張貼語言文字宣傳海報、宣傳欄及時傳達學校相關(guān)語言文字工作文件通知學院領(lǐng)導(dǎo)定期檢查語言文字工作的開展情況,
      下載積分: 6 賞幣
      上傳時間:2024-01-05
      頁數(shù): 12
      1人已閱讀
      ( 4 星級)
    • 下載積分: 5 賞幣
      上傳時間:2024-03-06
      頁數(shù): 4
      0人已閱讀
      ( 4 星級)
    • 下載積分: 6 賞幣
      上傳時間:2024-03-05
      頁數(shù): 21
      1人已閱讀
      ( 4 星級)
    • 下載積分: 6 賞幣
      上傳時間:2024-03-05
      頁數(shù): 12
      3人已閱讀
      ( 4 星級)
    • 下載積分: 6 賞幣
      上傳時間:2024-03-06
      頁數(shù): 7
      0人已閱讀
      ( 4 星級)
    • 下載積分: 5 賞幣
      上傳時間:2024-03-05
      頁數(shù): 3
      7人已閱讀
      ( 4 星級)
    • 下載積分: 3 賞幣
      上傳時間:2024-03-05
      頁數(shù): 2
      5人已閱讀
      ( 4 星級)
    • 下載積分: 6 賞幣
      上傳時間:2024-03-06
      頁數(shù): 13
      2人已閱讀
      ( 4 星級)
    • 下載積分: 3 賞幣
      上傳時間:2024-03-06
      頁數(shù): 1
      8人已閱讀
      ( 4 星級)
    • 下載積分: 6 賞幣
      上傳時間:2024-03-06
      頁數(shù): 6
      5人已閱讀
      ( 4 星級)
    • 下載積分: 5 賞幣
      上傳時間:2024-03-05
      頁數(shù): 5
      6人已閱讀
      ( 4 星級)
    • 下載積分: 3 賞幣
      上傳時間:2024-03-06
      頁數(shù): 2
      1人已閱讀
      ( 4 星級)
    • 下載積分: 6 賞幣
      上傳時間:2024-03-06
      頁數(shù): 14
      6人已閱讀
      ( 4 星級)
    • 下載積分: 6 賞幣
      上傳時間:2024-03-05
      頁數(shù): 7
      0人已閱讀
      ( 4 星級)
    關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服客服 - 聯(lián)系我們

    機械圖紙源碼,實習報告等文檔下載

    備案號:浙ICP備20018660號