查詢結果分析
來源資料
相關文獻
- 中文OCR文件檢索測試集之製作與應用
- TREC現況及其對資訊檢索研究之影響
- 中文檢索評估系統可行性研究
- 模糊搜尋、相關詞提示與相關詞回饋在OPAC系統中的成效評估
- Building a Web-based Chinese Information Retrieval System Using Optical Character Recognition Technology: Project Report for Heleni Linton Bursary 1998.
- 中文資訊檢索測試集之設計與製作
- 以籠統查詢評估查詢擴展方法與線上搜尋引擎之資訊檢索效能
- WWW資訊檢索的新趨勢--欄位檢索
- Social Dimensions of the Digital Revolution
- 網路文件自動分類
頁籤選單縮合
題名 | 中文OCR文件檢索測試集之製作與應用=Construction and Application of an Chinese OCR Test Collection for Information Retriveal |
---|---|
作者 | 蔡孟竹; 曾元顯; Tsai, Mung-chu; Tseng, Yuen-hsien; |
期刊 | 教育資料與圖書館學 |
出版日期 | 20030300 |
卷期 | 40:3 民92.03 |
頁次 | 頁325-344 |
分類號 | 028.7 |
語文 | chi |
關鍵詞 | 光學文字辨識; 資訊檢索; 測試集; 成效評估; 中文檢索; OCR; Information retrieval; Test collection; Effectiveness evalution; Chinese document retriveal; |
中文摘要 | 本文描述一套中文OCR檢索測試集的建構過程及其實際的檢索應用。我們克服回溯性資訊需求難以獲得的困難,擬定出30道模擬使用者需求的查詢主題。為獲得真實的OCR文件,我們以OCR軟體將8439篇全文影像轉換成數位檔案,並評估其辨識率在7成上下。為了求得每一道查調主題的相關文件,我們邀請三位人員分別檢視並判斷每一篇文華是否跟查詢主題相關。經由Kendall和諧係數的統計驗證,這三位判斷者在20道查調主題上,相關判斷的結果非常一致,顯示標準答案(即相關文件)有足夠的共識。最後,以12種檢索策略來比較OCR文件的檢索成效,我們發現辨識率降低到7成的情況下,檢索成效差不多也降低到7成左右。 |
英文摘要 | This article describes the process of constructing a Chinese OCR test collection and the application of this collection in an retrieval experiment. We have overcome the difficulty of obtaining past information need for retrospective data and created 30query topics that simulate real user needs. To obtain real OCR documents instead of simulated ones, we have converted 8439 full-text images into 8439 OCR test files. An evaluation of the OCR documents reveals an average of 70% of recognition accuracy. To obtain the relevant documents for each query, we invited 3 judges to examine each of 8439 images and give relevance score to each document for each topic. According to Kendall's statistical coefficient, highly consistent judgments are obtained in 20 query topics. Finally in our experiment with 12 search strategies, our results show that the retrieval effectiveness of OCR documents decrease to 70% when the recognition accuracy is about 70%. |
本系統之摘要資訊系依該期刊論文摘要之資訊為主。