2005年度漢語(yǔ)詞匯大規(guī)模統(tǒng)計(jì)的分析與思考_第1頁(yè)
已閱讀1頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、12005年度漢語(yǔ)詞匯統(tǒng)計(jì)的分析與思考年度漢語(yǔ)詞匯統(tǒng)計(jì)的分析與思考1蘇新春楊爾弘《廈門大學(xué)學(xué)報(bào)》2006年第6期提要“中國(guó)語(yǔ)言生活狀況報(bào)告(2005)”是迄今為止語(yǔ)料量最大,詞種數(shù)最多,發(fā)布單位最為權(quán)威的調(diào)查數(shù)據(jù)。這是一份反映了新聞?wù)Z言真實(shí)面貌的言語(yǔ)詞性質(zhì)的詞表;語(yǔ)文詞是社會(huì)流通詞語(yǔ)總匯中的主體,它有著高頻性、高分布率、短小化的特點(diǎn);從高頻詞身上可以清晰地觀察到社會(huì)發(fā)展社會(huì)文化。關(guān)鍵詞2005年漢語(yǔ)詞匯計(jì)量研究教育部、國(guó)家語(yǔ)委2006年

2、5月22日在北京舉行新聞發(fā)布會(huì),首次以“中國(guó)語(yǔ)言生活綠皮書(shū)”的形式發(fā)布了“中國(guó)語(yǔ)言生活狀況報(bào)告(2005)”。2調(diào)查報(bào)告分上下兩卷,上卷為不同領(lǐng)域的語(yǔ)言面貌及語(yǔ)言熱點(diǎn)問(wèn)題,下卷為對(duì)報(bào)刊語(yǔ)言、有聲語(yǔ)言、網(wǎng)絡(luò)語(yǔ)言的統(tǒng)計(jì)數(shù)據(jù)。語(yǔ)言生活狀況報(bào)告的公布,受到社會(huì)的廣泛關(guān)注,出席發(fā)布會(huì)的新聞媒體達(dá)60多家。短短兩個(gè)月,覆蓋總語(yǔ)料80%的581個(gè)漢字就編成了字典出版。3“中國(guó)語(yǔ)言生活狀況報(bào)告(2005)”下卷的數(shù)據(jù)由“國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心”的“

3、平面媒體”“網(wǎng)絡(luò)媒體”“有聲媒體”三個(gè)分中心采集。統(tǒng)計(jì)語(yǔ)料來(lái)自全國(guó)15家主流報(bào)紙、6家新聞網(wǎng)站、13家電視臺(tái)、9家廣播電臺(tái)的語(yǔ)料。4總字符數(shù)達(dá)909429700個(gè),來(lái)自報(bào)刊、網(wǎng)站、電臺(tái)電視臺(tái)的三類語(yǔ)料分別占到總數(shù)的59.3%、37.3%、3.4%。語(yǔ)料單位共計(jì)892034個(gè)文本文件。對(duì)這份語(yǔ)料用分詞軟件進(jìn)行切分,得到總字符串為489240995詞次,減去標(biāo)點(diǎn)、符號(hào)、純西文分詞等字符串后,得到416090995詞次,將其概括為詞種,為16

4、51749個(gè)。整個(gè)20世紀(jì),正式公布的關(guān)于漢語(yǔ)、漢字的各種統(tǒng)計(jì),從來(lái)沒(méi)有過(guò)如此大的規(guī)模。1986年出版的《現(xiàn)代漢語(yǔ)頻率詞典》,是我國(guó)第一部嚴(yán)格統(tǒng)計(jì)意義上的詞表,統(tǒng)計(jì)語(yǔ)料是180萬(wàn)字,詞種數(shù)31159條5。1990年出版的《現(xiàn)代漢語(yǔ)常用詞詞頻詞典》,統(tǒng)計(jì)語(yǔ)料是2500萬(wàn)字,詞種數(shù)10萬(wàn)條6。國(guó)家語(yǔ)委研制的《現(xiàn)代漢語(yǔ)通用語(yǔ)料庫(kù)》,容量作者簡(jiǎn)介:蘇新春(1953)廈門大學(xué)中文系教授,江西南昌人。楊爾弘(1965)北京語(yǔ)言大學(xué)語(yǔ)言研究所教授,河

5、北保寶人。1本次漢語(yǔ)詞匯調(diào)查是“中國(guó)語(yǔ)言生活狀況報(bào)告(2005)”的一部分內(nèi)容。楊爾弘承擔(dān)了數(shù)據(jù)匯總工作,蘇新春承擔(dān)了常用詞的分析工作。蘇新春主持“國(guó)家語(yǔ)委十五科研規(guī)劃”的項(xiàng)目“現(xiàn)代漢語(yǔ)通用詞量及分級(jí)”研究,本文即從“通用詞理論”角度進(jìn)行觀察。本文曾在“第二屆國(guó)際漢語(yǔ)詞匯研討會(huì)暨第六屆全國(guó)漢語(yǔ)詞匯學(xué)研討會(huì)”大會(huì)報(bào)告。2《中國(guó)語(yǔ)言綠皮書(shū)中國(guó)語(yǔ)言生活狀況報(bào)告(2005)》由商務(wù)印書(shū)館出版,2006年10月。3《常用漢字581》,語(yǔ)文出版社,

6、2006年7月。415家報(bào)紙為《北京青年報(bào)》、《北京日?qǐng)?bào)》、《北京晚報(bào)》、《法制日?qǐng)?bào)》、《光明日?qǐng)?bào)》、《廣州日?qǐng)?bào)》、《華西都市報(bào)》、《環(huán)球時(shí)報(bào)》、《今晚報(bào)》、《南方周末》、《人民日?qǐng)?bào)》、《深圳特區(qū)報(bào)》、《羊城晚報(bào)》、《揚(yáng)子晚報(bào)》、《中國(guó)青年報(bào)》。6家主要網(wǎng)站為新華網(wǎng)、人民網(wǎng)、中華網(wǎng)、中國(guó)新聞網(wǎng)、新浪網(wǎng)、網(wǎng)易。13家電視臺(tái)為中央電視臺(tái)、北京電視臺(tái)、上海電視臺(tái)、上海東方電視臺(tái)、鳳凰衛(wèi)視、廣東電視臺(tái)、天津電視臺(tái)、安徽電視臺(tái)、山東電視臺(tái)、長(zhǎng)沙電

7、視臺(tái)、重慶電視臺(tái)、東方衛(wèi)視、廣州電視臺(tái),9家廣播電臺(tái)為中央人民廣播電臺(tái)、北京人民廣播電臺(tái)、北京交通臺(tái)、海峽之聲廣播電臺(tái)、深圳廣播電臺(tái)、廣東新聞臺(tái)、天津人民廣播電臺(tái)、上海東方廣播電臺(tái)和中山廣播臺(tái)等9家廣播電臺(tái)。5見(jiàn)《現(xiàn)代漢語(yǔ)頻率詞典》,北京語(yǔ)言學(xué)院出版社,1986年。XI。得到總詞次131萬(wàn)條,常用詞8548條。6劉源《現(xiàn)代漢語(yǔ)常用詞詞頻詞典》,宇航出版社,1990。得到詞種十萬(wàn)條,書(shū)中分布的是一萬(wàn)條常3(12426),ALOC(1060

8、6)8??墒瞧渌?4種,頻次在1000次以上的只有兩種,100至1000次的有4種,100次以下的有8種。這14種標(biāo)注的詞頻合起來(lái)也只占120萬(wàn)次總頻的0.75%??梢?jiàn)訛誤大都出現(xiàn)在低頻范圍。那些絕對(duì)低頻,或是相對(duì)低頻,從概率統(tǒng)計(jì)的角度來(lái)看,它們對(duì)整體數(shù)據(jù)性質(zhì)的影響微乎其微,并不會(huì)妨礙我們的分析,不會(huì)妨礙我們對(duì)詞的通常的意義、用法、功能的認(rèn)識(shí)。二、一份反映新聞?wù)Z言真實(shí)狀況的言語(yǔ)性質(zhì)的詞表二、一份反映新聞?wù)Z言真實(shí)狀況的言語(yǔ)性質(zhì)的詞表166

9、萬(wàn)條詞語(yǔ)包含著怎樣的詞語(yǔ),9是需要我們首先弄明白的問(wèn)題。根據(jù)標(biāo)注,數(shù)量最多的前四種是人名613046條、組織機(jī)構(gòu)名594913條、地名238989條、時(shí)間名99192條,分別占總數(shù)的36.9%、14.5%、35.7%、6%,占總詞種數(shù)的93%。這四類都是典型的專名,屬于言語(yǔ)詞的范疇。當(dāng)然,里面有些很高頻的詞應(yīng)當(dāng)納入語(yǔ)言詞的范圍,但它們?cè)谠擃愒~中占的比例很低,不會(huì)影響到該類詞的規(guī)模。如9.9萬(wàn)條時(shí)間詞,詞頻為1次的就有5萬(wàn)條,詞頻為2次的

10、有1.3萬(wàn)條,如“十萬(wàn)點(diǎn)”、“十一秒”、“10月29日14時(shí)55分”等。在詞頻為1萬(wàn)次以上的134條高頻時(shí)間詞中,“目前、現(xiàn)在、今年、今日、昨天、今天、現(xiàn)代、去年、當(dāng)時(shí)、下午、昨日、未來(lái)、上午”等可屬“語(yǔ)言詞”,而“2004年、2005年、一年、10年、一個(gè)月、5年、3年”等則屬“言語(yǔ)詞”。時(shí)間詞中絕大多數(shù)都是對(duì)具體時(shí)間單位的指稱,屬言語(yǔ)詞。用這樣的方法可以對(duì)人名、組織機(jī)構(gòu)名、地名進(jìn)行同樣的觀察。如“人名”中,詞頻在一千次以上的同姓者中

11、出現(xiàn)了174個(gè)姓氏。一萬(wàn)次以上的有6個(gè)姓氏,“王”姓17711人,“李”姓17100人,“張”姓15431人,“陳”姓12791人,“劉”姓12385人,“馬”姓10296人。實(shí)際語(yǔ)言生活中,人名是一個(gè)天文數(shù)字。13億人就有13億個(gè)名字,假設(shè)平均每個(gè)名字重復(fù)10遍,不相同的名字就有1300萬(wàn)個(gè)?,F(xiàn)在可以來(lái)得出結(jié)論了,2005年度漢語(yǔ)詞匯統(tǒng)計(jì)所得到的詞表,是一份以言語(yǔ)詞為主體的反映了語(yǔ)言使用真實(shí)狀況的詞表。“言語(yǔ)詞”,就是指那些專指性強(qiáng)、

12、重復(fù)率低、使用范圍狹、穩(wěn)定性差的詞語(yǔ)。這與“語(yǔ)言詞”的通用性強(qiáng)、復(fù)現(xiàn)率高、使用范圍廣、穩(wěn)定性好的特點(diǎn)正好相反。這里所說(shuō)的“語(yǔ)言真實(shí)狀況”更準(zhǔn)確地說(shuō)應(yīng)該是新聞?wù)Z言的使用。新聞的構(gòu)成要素是“人”“事”“時(shí)間”“地點(diǎn)”,四者缺一不可。新聞要“新”,因此,一條新聞報(bào)道,總會(huì)帶來(lái)或新的人,或新的事,或新的時(shí)間,或新的地點(diǎn)。因此,“人名”“地名”“組織機(jī)構(gòu)名”“時(shí)間名”在詞語(yǔ)總表中大量出現(xiàn),又是必然的了。認(rèn)識(shí)清楚了2005年度漢語(yǔ)詞語(yǔ)統(tǒng)計(jì)表的言語(yǔ)詞

13、性質(zhì),對(duì)于我們準(zhǔn)確地分析、挖掘、利用這份寶貴的詞匯統(tǒng)計(jì)材料有著重要意義。上世紀(jì)50年代以來(lái),漢語(yǔ)詞語(yǔ)表的研制一直沒(méi)有停止過(guò)。限于歷史原因和技術(shù)條件,前期主要是對(duì)常用詞詞表的研制。10從80年代開(kāi)始,開(kāi)始有了全詞表的研制。在中文信息處理界,詞切分、詞標(biāo)注的軟件一般都帶有大容量的詞表,多在810萬(wàn)條之間。雖然它們的收詞原則各不相同,吐納的嚴(yán)格程度也不一樣,但都希望有相當(dāng)?shù)母采w面。孫茂松主持的“中文信息處理用詞表”,收詞規(guī)模在11萬(wàn)條左右,目

14、前已經(jīng)完成審定工作。這些工作主要是由中文信息處理界完成的,也主要服務(wù)對(duì)象也是自然語(yǔ)言處理。在語(yǔ)言學(xué)界,面向人,服務(wù)于語(yǔ)言教學(xué)等應(yīng)用領(lǐng)域的研制工作也在進(jìn)行著?!冬F(xiàn)代漢語(yǔ)頻率詞典》的8548條,和“對(duì)外漢語(yǔ)8表示地名的省略9上面說(shuō)到調(diào)查結(jié)果的總詞種數(shù)是1651749個(gè)。這是對(duì)詞性標(biāo)注作了歸并處理的結(jié)果,即在多詞性的詞中,歸并為一個(gè)詞性,以高頻者作代表。為了更好地說(shuō)明問(wèn)題,本文下面使用的數(shù)據(jù)是未作詞性歸并的數(shù)據(jù)。它們來(lái)自平面媒體的語(yǔ)料(占59

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論