頁籤選單縮合
題名 | 基於「知網」的辭彙語義相似度計算=Word Similarity Computing Based on How-net |
---|---|
作者 | 劉群; 李素建; Liu, Qun; Li, Sujian; |
期刊 | International Journal of Computational Linguistics & Chinese Language Processing |
出版日期 | 20020800 |
卷期 | 7:2 2002.08[民91.08] |
頁次 | 頁59-76 |
分類號 | 312.13 |
語文 | chi |
關鍵詞 | 知網; 辭彙語義相似度計算; 自然語言處理; How-net; Word similarity computing; Natural language processing; |
中文摘要 | 詞義相似度計算在很多領域中都有廣泛的應用,例如資訊檢索、資訊抽取、文 本分類、詞義排歧、基於實例的機器翻譯等等。詞義相似度計算的兩種基本方 法是基於世界知識(Ontology)或某種分類體系(Taxonomy)的方法和基於統 計的上下文向量空間模型方法。這兩種方法各有優缺點。 《知網》是一部比較詳盡的語義知識詞典,受到了人們普遍的重視。不過,由 於《知網》中對於一個詞的語義採用的是一種多維的知識表示形式,這給詞語 相似度的計算帶來了麻煩。這一點與WordNet 和《同義詞詞林》不同。在 WordNet 和《同義詞詞林》中,所有同類的語義項(WordNet 的synset 或《同 義詞詞林》的詞群)構成一個樹狀結構,要計算語義項之間的距離,只要計算 樹狀結構中相應結點的距離即可。而在《知網》中辭彙語義相似度的計算存在 以下問題: 1. 每一個詞的語義描述由多個義原組成; 2. 詞語的語義描述中各個義原並不是平等的,它們之間有著複雜的關係,通 過一種專門的知識描述語言來表示。 我們的工作主要包括: 1. 研究《知網》中知識描述語言的語法,瞭解其描述一個詞義所用的多個義 原之間的關係,區分其在詞語相似度計算中所起的作用;我們採用一種更為結構化的方式改寫了《知網》中詞的定義(DEF),其中採用了“集合" 和“特徵結構"這兩種抽象資料結構。 2. 研究了義原的相似度計算方法、集合和特徵結構的相似度計算方法,並在 此基礎上提出了利用《知網》進行詞語相似度計算的演算法; 3. 通過實驗驗證該演算法的有效性,並與其他演算法進行比較。 |
本系統之摘要資訊系依該期刊論文摘要之資訊為主。