所屬欄目:電子技術(shù)論文 發(fā)布日期:2014-10-22 16:05 熱度:
摘 要 發(fā)現(xiàn)網(wǎng)絡(luò)新詞在中文信息處理方面具有非常重要的作用和意義。本文提出了一種基于質(zhì)子串分解的網(wǎng)絡(luò)新詞抽取方法。首先,從網(wǎng)絡(luò)上下載語(yǔ)料;然后,使用分解得到質(zhì)串;并 在其基礎(chǔ)上,進(jìn)一步使用改進(jìn)的檢驗(yàn)方法結(jié)合質(zhì)子串分解方法抽取具有復(fù)雜結(jié)構(gòu)的合串并比較驗(yàn)證新詞;實(shí)驗(yàn)結(jié)果顯示,該算法有效地提高了網(wǎng)絡(luò)新詞抽取的精確度。
關(guān)鍵詞 計(jì)算機(jī)仿真,網(wǎng)絡(luò)新詞,質(zhì)子串分解,互信息,F-MI
0引言
新詞是未登錄詞的一種,即新詞也是未收入在詞典中的詞,但它和未登錄詞還是有所不同。它指通過(guò)各種途徑產(chǎn)生的、具有基本詞匯所沒(méi)有的新形式、新意義或新用法的詞語(yǔ)或者是出現(xiàn)在某一時(shí)間段內(nèi)或自某一時(shí)間點(diǎn)以來(lái)所首次出現(xiàn)的具有新詞形,新詞義或者新用法的詞匯。
1新詞獲取系統(tǒng)流程
新詞識(shí)別的信息流采集于門戶網(wǎng)站下載的網(wǎng)頁(yè),組建語(yǔ)料庫(kù),對(duì)語(yǔ)料進(jìn)行預(yù)處理,建立Pat Tree索引 ,然后進(jìn)行術(shù)語(yǔ)抽取。其中術(shù)語(yǔ)抽取的方法采用基于卡方檢驗(yàn)的質(zhì)子串分解方法。
2網(wǎng)絡(luò)新詞識(shí)別方法
該模塊是系統(tǒng)的核心模塊。首先,對(duì)候選術(shù)語(yǔ)集合進(jìn)行C-value參數(shù)計(jì)算,對(duì)于C-value小于給定閾值的候選術(shù)語(yǔ)將被從列表中刪除;然后對(duì)表中的候選術(shù)語(yǔ)進(jìn)行字符串分解,并根據(jù)分解結(jié)果計(jì)算所有候選串的F-MI參數(shù)值;最后,根據(jù)給定的F-MI閾值,淘汰掉錯(cuò)誤的候選術(shù)語(yǔ),并輸出最終的術(shù)語(yǔ)列表。
2.1質(zhì)子串分解
我們把詞簡(jiǎn)單地分為兩類,一類是不可再分解為更小的詞匯單元的詞匯,這類詞我們稱為質(zhì)詞,如“珠穆朗瑪”一詞,任何子串(“珠穆朗”或“朗瑪”等)都不是詞;另一類是由質(zhì)詞組合而成的詞匯,這類詞我們稱為合詞,如“社會(huì)保障體系”則是由三個(gè)質(zhì)詞(“社會(huì)”、 “保障”和“體系”)組合而成的。對(duì)于串S,除了單字串和質(zhì)串以外,都是合串,單字既不是質(zhì)串,也不是合串。對(duì)于合串S,如果S可以串分解為S= S1 S2 S3…Sm,其中Si可以為質(zhì)串或單字,但必須至少有一個(gè)是質(zhì)串,則稱S=S1 S2 S3…S m是S的一種質(zhì)子串分解。
2.2串分解的F-MI
本文采用改進(jìn)的互信息參數(shù)F-MI來(lái)評(píng)估一個(gè)串成為術(shù)語(yǔ)的可能性。參數(shù)F-MI的定義分兩種:串分解的F-MI值和串的F-MI值,其中串的F-MI值的定義以串分解的F-MI為基礎(chǔ)。
對(duì)于串S及S的一種分解S= S1 S2 S3…Sm,串分解的F-MI的計(jì)算公式為:
S表示待計(jì)算的串,F(xiàn)(S)表示S在文檔集中出現(xiàn)的次數(shù),T(S)表示S所有父串在文檔集中出現(xiàn)的次數(shù),而C(S)表示S所有父串的個(gè)數(shù)。
參數(shù)C-value的目標(biāo)是為了提高網(wǎng)狀術(shù)語(yǔ)的抽取效果。由公式3.2可知,對(duì)于極大串S,C-value(S)=F(S);而對(duì)于非極大串S,C- value參數(shù)則綜合考慮了S及其所有父串之間的網(wǎng)狀關(guān)系,例如對(duì)于極大串S1=“珠穆朗瑪”及其子串S2=“珠穆朗”,如果F(S1)=F(S2),則 C-value(S1)=F(S1),而C-value(S2)=0。
而參數(shù)的定義為:
其中,i表示表中的行變量,j表示列變量,Oi,j表示表單元(i,j)的觀測(cè)值,Ei,j表示期望值。這里,我們?nèi)??康謀砝醇撲悖?綾?所示。
表2 單詞質(zhì)量和監(jiān)督出現(xiàn)次數(shù)之間的依賴關(guān)系的2?康謀?
檢驗(yàn)從理論上講適用于各種大小的表,但是對(duì)于2?康謀淼謀澩鐨問(wèn)較嘍約虻ィ?
=(N是語(yǔ)料庫(kù)中二元對(duì)的總數(shù))
2.3串的F-MI
對(duì)某一質(zhì)串S= C1 C2 C3… Cm(其中Ci均為單字),質(zhì)串F-MI的計(jì)算公式為:
其中,本文定義單字的C-value(C)=F(C),如質(zhì)串“珠穆朗瑪”的F-MI值為:
而對(duì)某一合串S,如果S的所有質(zhì)子串分解為:
即共有n種分解方式,根據(jù)公式3.1,分別計(jì)算每一種串分解的F-MI值(f1,f2,f3,…,fn),則合串S的F-MI的定義為:
F-MI(S)=Max(f1,f2,f3,…,fn) (3.5)
本文術(shù)語(yǔ)抽取的重點(diǎn)是合串的抽取。而在抽取到的62190個(gè)合串中,只有4531個(gè)被Hownet收錄,92%以上的合串未被收錄,其原因是這些合串大部分并不屬于嚴(yán)格意義上的詞,而主要是一些短語(yǔ)和組合術(shù)語(yǔ)。另外,本文結(jié)合卡方檢驗(yàn)對(duì)組合術(shù)語(yǔ)出現(xiàn)的偶然性進(jìn)行驗(yàn)證,從而使合串抽取的正確率有所提高。
3實(shí)驗(yàn)結(jié)果及分析
(1)測(cè)試數(shù)據(jù)
我們下載了新浪(http://www.sina.com.cn)網(wǎng)站上從2013年1月到2013年6月的文章,共計(jì)130016篇文章,約345M。
(2)測(cè)試結(jié)果及評(píng)估
本次實(shí)驗(yàn)共抽取到了241998個(gè)術(shù)語(yǔ),其(下轉(zhuǎn)第45頁(yè))(上接第43頁(yè))中108102個(gè)被Hownet收錄,占所有抽取總數(shù)的 44.67%,質(zhì)串99040個(gè)(91.62%),合串9062個(gè)(8.38%);詞典之外(OOV)的133896個(gè)術(shù)語(yǔ)中,質(zhì)串18578個(gè)(占 13.87%),合串115318個(gè)(占86.13%)。當(dāng)我們對(duì)詞典之外的進(jìn)行了人工評(píng)估,并規(guī)定,在合串中只有名詞性短語(yǔ)才被認(rèn)定為是正確的詞匯。正確的詞匯共有204696個(gè),總體準(zhǔn)確率為85.41%。
(3)實(shí)驗(yàn)結(jié)果分析
本文網(wǎng)絡(luò)新詞抽取的重點(diǎn)是合串的抽取。而在抽取到的124380個(gè)合串中,只有9062個(gè)被Hownet收錄,90%以上的合串未被收錄,其原因是這些合串大部分主要是一些短語(yǔ)和組合術(shù)語(yǔ),并不屬于嚴(yán)格意義上的詞。另外,本文采用結(jié)合卡方檢驗(yàn)和互信息F-MI檢測(cè)對(duì)組合術(shù)語(yǔ)出現(xiàn)的偶然性進(jìn)行驗(yàn)證,從而使合串抽取的正確率有所提高(表3、表4)。
我們通過(guò)計(jì)算抽取到的術(shù)語(yǔ)數(shù)目與語(yǔ)料規(guī)模的比值來(lái)考察分析。與文獻(xiàn)(Patrick & Dekang 2001)10M測(cè)試語(yǔ)料抽取到10268個(gè)術(shù)語(yǔ)相比(比值約1026.8),本文在約345M的測(cè)試語(yǔ)料上抽取到241998個(gè)術(shù)語(yǔ)(比值約 876.8),該參數(shù)要小于前者,隨著測(cè)試語(yǔ)料規(guī)模的增大,重復(fù)術(shù)語(yǔ)出現(xiàn)增多,所以在結(jié)果上基本是一致的。
4結(jié)語(yǔ)
本文介紹了基于卡方檢驗(yàn)和質(zhì)子串分解來(lái)獲取網(wǎng)絡(luò)新詞,今后我們將針對(duì)參數(shù)F-MI的特點(diǎn),繼續(xù)對(duì)F-MI公式進(jìn)行研究和改進(jìn),以提高質(zhì)串的抽取效果;在今后會(huì)根據(jù)詞法規(guī)則來(lái)自動(dòng)過(guò)濾非名詞的詞匯。在本文提出的方法和實(shí)驗(yàn)結(jié)果的分析的基礎(chǔ)上,我們將嘗試結(jié)合自然語(yǔ)言處理中的文本自動(dòng)分類技術(shù),基本上自動(dòng)實(shí)時(shí)動(dòng)態(tài)地從 Internet上抓取網(wǎng)頁(yè),并自動(dòng)分類,對(duì)不同類別的文本集分別進(jìn)行術(shù)語(yǔ)抽取,建立一個(gè)實(shí)時(shí)的動(dòng)態(tài)的網(wǎng)絡(luò)新詞發(fā)現(xiàn)系統(tǒng)。
參考文獻(xiàn)
[1] Frantzi K, Ananiadou S. Extracting Nested Collocations[c]. Copenhagen Denmark:Proceeding of COLING,1996:41-46.
[2] Patrick Pantel,Dekang Lin. A Statistical Corpus-Based Term Extractor[c]. Canada:Canadian Conference on AI,2001:36-46.
[3] 劉建舟,何婷婷,姬東鴻等. 基于開(kāi)放語(yǔ)料的漢語(yǔ)術(shù)語(yǔ)的自動(dòng)抽取[c]. 沈陽(yáng):第二十屆東方語(yǔ)言計(jì)算機(jī)處理國(guó)際學(xué)術(shù)會(huì)議,2003:43-49.
[4] 何婷婷,張勇. 基于質(zhì)子串分解的中文術(shù)語(yǔ)自動(dòng)抽取[J].上海:計(jì)算機(jī)工程,2006,32(23):188-190
文章標(biāo)題:計(jì)算機(jī)仿真投稿基于質(zhì)子串分解的網(wǎng)絡(luò)新詞抽取
轉(zhuǎn)載請(qǐng)注明來(lái)自:http://www.56st48f.cn/fblw/dianxin/dianzijishu/23282.html
攝影藝術(shù)領(lǐng)域AHCI期刊推薦《Phot...關(guān)注:107
Nature旗下多學(xué)科子刊Nature Com...關(guān)注:152
中小學(xué)教師值得了解,這些教育學(xué)...關(guān)注:47
2025年寫管理學(xué)論文可以用的19個(gè)...關(guān)注:192
測(cè)繪領(lǐng)域科技核心期刊選擇 輕松拿...關(guān)注:64
及時(shí)開(kāi)論文檢索證明很重要關(guān)注:52
中國(guó)水產(chǎn)科學(xué)期刊是核心期刊嗎關(guān)注:54
國(guó)際出書(shū)需要了解的問(wèn)題解答關(guān)注:58
合著出書(shū)能否評(píng)職稱?關(guān)注:48
電信學(xué)有哪些可投稿的SCI期刊,值...關(guān)注:66
通信工程行業(yè)論文選題關(guān)注:73
SCIE、ESCI、SSCI和AHCI期刊目錄...關(guān)注:121
評(píng)職稱發(fā)論文好還是出書(shū)好關(guān)注:68
復(fù)印報(bào)刊資料重要轉(zhuǎn)載來(lái)源期刊(...關(guān)注:51
英文期刊審稿常見(jiàn)的論文狀態(tài)及其...關(guān)注:69
Web of Science 核心合集期刊評(píng)估...關(guān)注:59
電子信息論文范文
智能科學(xué)技術(shù)論文 廣播電視論文 光電技術(shù)論文 計(jì)算機(jī)信息管理論文 計(jì)算機(jī)網(wǎng)絡(luò)論文 計(jì)算機(jī)應(yīng)用論文 通信論文 信息安全論文 微電子應(yīng)用論文 電子技術(shù)論文 生物醫(yī)學(xué)工程論文 軟件開(kāi)發(fā)論文
SCI期刊分析
copyright © www.56st48f.cn, All Rights Reserved
搜論文知識(shí)網(wǎng) 冀ICP備15021333號(hào)-3