久久精品电影网_久久久久久电影_久久99精品久久久久久按摩秒播_天堂福利影院_国产男女爽爽爽免费视频_国产美女久久

中級(jí)職稱論文基于知網(wǎng)義原信息量的詞語相似度計(jì)算方法

所屬欄目:計(jì)算機(jī)網(wǎng)絡(luò)論文 發(fā)布日期:2015-07-14 13:51 熱度:

  詞語相似度分析是知網(wǎng)檢測中的一個(gè)重要指標(biāo),在信息檢索,分類,選取的時(shí)候都會(huì)用到詞語相似度分析。本文就針對基于知網(wǎng)義原信息量的詞語相似度計(jì)算方法展開了一些論述,文章是一篇中級(jí)職稱論文范文,有需要發(fā)表文章的作者可以聯(lián)系本站在線編輯快速投稿。

  摘要:國內(nèi)利用知網(wǎng)計(jì)算中文詞語相似度通常采用基于義原距離的方法,這些方法依賴于公式設(shè)計(jì)和參數(shù)選取。根據(jù)信息論中計(jì)算兩個(gè)事物相似度的思想,利用知網(wǎng)的分類體系來計(jì)算詞語所包含的義原信息量,將義原及其角色關(guān)系的信息量作為詞語相似度計(jì)算的基本單位,通過計(jì)算兩個(gè)詞語的共有義原及其角色關(guān)系的信息量和所有義原及其角色關(guān)系的信息量的比值來綜合計(jì)算詞語的相似度。實(shí)驗(yàn)結(jié)果證明,該方法合理可行。

  關(guān)鍵詞:義原信息量,角色關(guān)系,詞語相似度,信息處理

  0 引言

  詞語相似度計(jì)算在信息檢索、文本分類、信息抽取、機(jī)器翻譯等領(lǐng)域有著廣泛應(yīng)用。目前,詞語相似度的計(jì)算方法主要有兩大類:一類是基于距離的方法,如基于WordNet中詞語結(jié)點(diǎn)的距離來計(jì)算英語詞語的語義相似度[1],基于知網(wǎng)(Hownet)義原距離來計(jì)算中文詞語的語義相似度[23];另一類是基于語料統(tǒng)計(jì)的方法,這類方法假設(shè)凡是語義相近的詞語,它們的上下文也應(yīng)該相似,利用上下文中詞語的概率分布來計(jì)算詞語相似度[45]。

  自1999年知網(wǎng)(HowNet)正式發(fā)布以來,其受到越來越多研究人員的關(guān)注。基于知網(wǎng)計(jì)算中文詞語的相似度也誕生了很多方法[2,68],這些方法通常根據(jù)意義分解思想,將詞語分解為更小單位(義原)參與相似度計(jì)算,再按照權(quán)重比例綜合計(jì)算詞語整體相似度。利用詞語分解后的單位(義原)參與計(jì)算,割裂了描述詞語的各個(gè)義原之間的關(guān)系,不能充分反應(yīng)出詞語間語義的相似性,計(jì)算結(jié)果也不夠理想。

  本文從整體性角度出發(fā),給出一種基于義原信息量計(jì)算中文詞語相似度的方法。基于知網(wǎng)的分類體系(Taxonomy),將義原及其角色關(guān)系整體作為詞語相似度計(jì)算的基本單位,保留了描述詞語概念的各個(gè)義原間的關(guān)系,并依據(jù)信息論中計(jì)算兩個(gè)事物相似度的思想[4],用兩個(gè)詞語共有義原及其角色關(guān)系的信息量和所有義原及其角色關(guān)系的信息量來綜合計(jì)算詞語的相似度。

  1 知網(wǎng)義原信息量

  1.1 義原信息量

  其中,P(A)表示義原A在某個(gè)語料庫樣本空間中出現(xiàn)的概率。計(jì)算語料庫樣本空間中某個(gè)義原出現(xiàn)的概率很困難。知網(wǎng)作為一個(gè)以各類概念及關(guān)系為描述對象的知識(shí)系統(tǒng),其分類體系本身可以看作是各個(gè)義原出現(xiàn)的一個(gè)樣本空間,那么僅依賴知網(wǎng)分類體系本身而不需其它語料庫,作為計(jì)算義原出現(xiàn)概率的樣本空間也是合理的。本文給出一種根據(jù)知網(wǎng)的分類體系來計(jì)算義原信息量的方法。

  由義原組成的知網(wǎng)分類體系是一棵概念分類樹,在每類義原樹狀層次結(jié)構(gòu)(以下簡稱為義原樹)中,根結(jié)點(diǎn)義原是分類類別,是最大的分類,其它義原都是根結(jié)點(diǎn)義原的子孫。可以認(rèn)為,分支結(jié)點(diǎn)義原包含越多的子孫結(jié)點(diǎn),其信息量越小。葉子結(jié)點(diǎn)是最小的分類,所有葉子結(jié)點(diǎn)的信息量是相同的。

  1.2 義原及其角色關(guān)系的信息量

  在知網(wǎng)的知識(shí)詞典中,每個(gè)詞語由DEF來描述其概念。將DEF分為兩部分:主類義原和特性描述部分。

  定義1:義原及其角色關(guān)系。

  在詞語概念DEF的特性描述部分中,將義原及動(dòng)態(tài)角色與特征(Event Role and Features)[9]的層次結(jié)構(gòu)的組合稱為義原及其角色關(guān)系。

  定義2:主類義原。

  在詞語概念DEF中,把描述詞語概念最左邊的第一個(gè)義原稱為主類義原,也稱為第0層義原及其角色關(guān)系。

  例如詞語“病菌”的一個(gè)概念:DEF={bacteria|微生物:domain={medical|醫(yī)},modifier={able|能:scope={ResultIn|導(dǎo)致:result={disease|疾病}}}}。在“病菌”的DEF中,將“bacteria|微生物”稱為主類義原,其它部分是特性描述部分。在特性描述部分中,將“domain={medical|醫(yī)}”、“modifier={able|能 }”稱為DEF的第一層義原及其角色關(guān)系,其中包含兩個(gè)本層義原“medical|醫(yī)”和“medical|醫(yī)”;把“scope={ResultIn|導(dǎo)致}”稱為第二層義原及其角色關(guān)系,包含一個(gè)本層義原“ResultIn|導(dǎo)致”,將“result={disease|疾病}”稱為第三層的義原及其角色關(guān)系,包含一個(gè)本層義原“disease|疾病”,依次類推。

  其中,I(pj)表示r所包含的第j個(gè)義原pj的信息量。

  例如在詞語“病菌”的DEF中,每層的義原及其角色關(guān)系中包含的本層義原信息量均為3.346,根據(jù)式(4)可得“病菌”的義原及其角色關(guān)系的總信息量為7.946。

  在知網(wǎng)中,包含幾種特殊符號(hào),如“~”、“?”、“MYM”、“*”。其中,“~”表達(dá)的含義是充當(dāng)一個(gè)具體動(dòng)態(tài)角色的值,“?”表示所充當(dāng)?shù)膭?dòng)態(tài)角色的演員一定會(huì)出現(xiàn),“MYM”表示充當(dāng)某一個(gè)動(dòng)態(tài)角色的演員[9] 。設(shè)定模式為“{義原1:{義原2: 動(dòng)態(tài)角色或特征={~}}}”情況下,“~”所表達(dá)內(nèi)容的信息量等于義原1的信息量。將其它特殊符號(hào)及動(dòng)態(tài)角色的信息量設(shè)定為一個(gè)常數(shù),大小與具體詞的信息量相同,為3.346。一個(gè)沒有義原描述的具體詞,其信息量為一個(gè)常數(shù),其大小可規(guī)定為一個(gè)葉子義原結(jié)點(diǎn)的信息量3.346。

  1.3 共有義原及其角色關(guān)系的信息量

  3 實(shí)驗(yàn)結(jié)果及分析

  目前沒有可以評估中文詞語語義相似度算法質(zhì)量的專用數(shù)據(jù)集,本文選取一些常用詞語和知網(wǎng)漢語詞典中以“病”開頭的一些相關(guān)詞語作為實(shí)驗(yàn)對象,與國內(nèi)著名的劉群方法[2]、知網(wǎng)在線[9]的詞語相似度計(jì)算方法進(jìn)行對比分析。劉群方法、知網(wǎng)在線和本文方法的實(shí)驗(yàn)參數(shù)如表1所示。詞語相似度實(shí)驗(yàn)結(jié)果如表2所示。   本文方法與劉群方法、知網(wǎng)在線方法相比較可知,劉群方法是基于義原距離來計(jì)算詞語相似度,當(dāng)義原處在同一類義原樹中,詞語的相似度偏大,例如第3、6組詞語相似度結(jié)果比本文及知網(wǎng)在線方法的結(jié)果都偏大,與人的判斷也不一致。實(shí)際上,劉群方法在詞語相似度計(jì)算上不夠重視能反映出詞語差異的特性描述部分,使得詞語相似度計(jì)算結(jié)果的差異性不夠明顯,例如第4組詞語間相似度結(jié)果過于接近。

  知網(wǎng)在線方法在計(jì)算詞語的相似性時(shí)更加細(xì)化,將詞語的義原結(jié)構(gòu)分解為多個(gè)部分,賦予各部分不同的權(quán)重然后加權(quán)計(jì)算得到整體間的相似度。這種方法實(shí)際上進(jìn)一步割裂了描述詞語的各個(gè)義原之間的關(guān)系,使得詞語相似度計(jì)算的結(jié)果也不夠準(zhǔn)確,例如第1、2、5、8、9組詞語,計(jì)算結(jié)果偏小。另外,知網(wǎng)在線方法對詞語特性描述部分計(jì)算比較復(fù)雜,計(jì)算量也較大。

  綜合來看,本文方法的結(jié)果整體表現(xiàn)更加合理,能夠反映出詞語間語義的相似性和差異,與人的判斷結(jié)果比較一致,計(jì)算也簡單。

  4 結(jié)語

  基于知網(wǎng)義原信息量計(jì)算中文詞語相似度的方法根據(jù)信息論中計(jì)算兩個(gè)事物相似度的思想,利用知網(wǎng)的分類體系來計(jì)算義原信息量,并根據(jù)知網(wǎng)這一關(guān)系系統(tǒng)的特性,從保留義原間關(guān)系的角度出發(fā),將義原及其角色關(guān)系作為計(jì)算概念相似度的基本單位,更能全面反映詞語語義的相似性和差異。基于知網(wǎng)通過義原及其角色關(guān)系的信息量來綜合計(jì)算詞語的相似度,計(jì)算量較少,計(jì)算結(jié)果合理可行。在詞語相似度計(jì)算基礎(chǔ)上,進(jìn)一步研究句子間相似度計(jì)算方法,則有待下一步研究。

  參考文獻(xiàn):

  [1] ENEKO AGIRRE,GERMAN RIGAU.A proposal for word sense disambiguation using conceptual distance[C].Proceedings of the First International Conference on Recent Advanced in NLP,1995:258264.

  [2] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度的計(jì)算[C]. 臺(tái)北:第三屆漢語詞匯語義學(xué)研討會(huì),2002,7(2):5976.

  [3] 董振東,董強(qiáng),郝長伶.《知網(wǎng)》的理論發(fā)現(xiàn)[J].中文信息學(xué)報(bào),2007,21(4):39.

  [4] DEKANG LIN.An informationtheoretic definition of similarity[C].Proceedings of the Fifteenth International Conference on Machine Learning,1998:296304.

  [5] PHILIP RESNIK.Semantic similarity in a taxonomy: an informationbased measure and its application to problems of ambiguity in natural language[J].Journal of Artificial Intelligence Research,1999(2):95130.

  [6] 夏天.漢語詞語語義相似度計(jì)算研究[J].計(jì)算機(jī)工程,2007, 33(6):191194.

  [7] 張亮,尹存燕,陳家駿.基于語義樹的中文詞語相似度計(jì)算與分析[J].中文信息學(xué)報(bào), 2010,24(6):2330.

  [8] 王小林,王義.改進(jìn)的基于知網(wǎng)的詞語相似度算法[J].計(jì)算機(jī)應(yīng)用,2011,31(11):7590.

  中級(jí)職稱論文發(fā)表期刊推薦《山西電子技術(shù)》是山西省電子信息產(chǎn)業(yè)唯一公開發(fā)行的專業(yè)技術(shù)期刊。在30年的辦刊過程中,刊物一直堅(jiān)持電子信息行業(yè)交流信息,探討技術(shù)的園地,主要宣傳報(bào)道電子信息領(lǐng)域新技術(shù)、新成果;為我省電子信息產(chǎn)業(yè)發(fā)展服務(wù)的辦刊宗旨。

文章標(biāo)題:中級(jí)職稱論文基于知網(wǎng)義原信息量的詞語相似度計(jì)算方法

轉(zhuǎn)載請注明來自:http://www.56st48f.cn/fblw/dianxin/wangluo/27406.html

相關(guān)問題解答

SCI服務(wù)

搜論文知識(shí)網(wǎng) 冀ICP備15021333號(hào)-3

主站蜘蛛池模板: 欧美成人a∨高清免费观看 老司机午夜性大片 | 午夜av电影 | 欧美寡妇偷汉性猛交 | 亚洲国产一区二区三区在线观看 | www.久久.com | 亚洲高清免费视频 | 亚洲二区在线 | 91.xxx.高清在线 | 日本不卡免费新一二三区 | 黄色一级特级片 | 色视频欧美 | 毛片免费在线观看 | 欧美综合国产精品久久丁香 | 欧美日韩亚洲视频 | 免费久久网 | 91视视频在线观看入口直接观看 | 中文字幕视频在线观看 | 欧美日韩一卡二卡 | 亚洲一区二区三区在线视频 | 亚洲国产一区二区视频 | 午夜电影在线播放 | 91精品91久久久 | 国产精品一区二区福利视频 | 韩日一区二区 | 在线观看视频一区 | 欧美精品99| 九色 在线 | 亚洲毛片在线观看 | 99看片网 | 中文字幕成人 | 亚洲精品成人在线 | 久久精品久久久久久 | 一级欧美 | 成人毛片在线观看 | 久久激情五月丁香伊人 | 亚洲精品二区 | 91视频免费在观看 | 国产在线网站 | 日本三级全黄三级a | 毛片免费观看 | 天天玩夜夜操 |