查詢結果分析
來源資料
頁籤選單縮合
題 名 | 控制詞彙之自動索引=The Automatic Indexing with Controlled Vocabulary |
---|---|
作 者 | 陳光華; 伍建廷; | 書刊名 | 中國圖書館學會會報 |
卷 期 | 61 1998.12[民87.12] |
頁 次 | 頁81-102 |
分類號 | 019.4 |
關鍵詞 | 自動索引; 控制詞彙; 主題分析; Automatic indexing; Controlled vocabulary; Subject analysis; |
語 文 | 中文(Chinese) |
中文摘要 | 本論文於詞彙頻率統計的基礎下,利用大量經人工控制詞彙索引的文件,配合控 制詞彙所提供的語意訊息,設計一個自動索引模型。索引模型使用新的詞彙顯著性計算公式 TF × OSDF × CSIDF 修正傳統以 TF × IDF 無法將主題專指性詞彙從主題相近的文件集 合中分離出來的問題。 實驗針對 100 個 MeSH 標題,利用總數 60,400 篇文件的摘要與題 名進行訓練與測試,結果顯示索引模型的表現相當優良。摘要部分的索引精確率與索引回現 率可同時到達 90% 以上,題名部分則在索引精確率 90% 的要求下,維持索引回現率於 70% 。透過索引模型產生大量的控制詞彙建議名單,將可以減輕索引一致性的問題,提高文件的 控制詞彙索引數量,改善傳統控制詞彙索引因為產量過少,導致檢索時精確率雖高,但回現 率卻不如自然語言索引的現象。 |
英文摘要 | Based on statistics of word frequency and supported by semantic information of controlled vacabularies, a new model for automatically controlled-vocabulary indexing is proposed in this paper. In the proposed model, a new formula of term significance, TF × OSDF × CSIDF, amends the flaw of TF × IDF, in which subject-specific words with high benefit to subject identification cannot be distinquished from other words in the document collection of the same or close subject. Involving 100 MeSH subject headings and 60,400 abstracts and titles, results of the experiment achieve high performance, whereas indexing precision and recall exceed 90% concurrently in abstract part. In tile part, the indexing precision reaches 90% and indexing recall remains 70%. By consulting a big number of candidates of controlled vocabularies generated by the model, the problem of indexer's consistency could be alleviated. Besides, much time and cost saved will directly prompt quality and quantity of controlled-vocabulary index terms, and finally improve retrieval performance indirectly. |
本系統中英文摘要資訊取自各篇刊載內容。