- 網際網路上的多語言辨識系統
- Searching for Information on the Internet Using Medical World Search
- 圖書館與資訊科學的遞嬗
- From Document Retrieval to Web Browsing: Some Universal Concerns
- 從圖書館與資訊科學的遞嬗反思圖書館的定義
- The Global Information Superhighway and Its Impact on Libraries and Education
- 運用詞彙權重技術於自動文件摘要之研究
- 流行音樂之歌唱語言辨識研究
- 網路不當內容過濾之研究調查
- IEC Station:一個Java Based的嵌入式系統
題 名 | 網際網路上的多語言辨識系統=A Multi-Language Identification System on WWW |
作 者 | 蘇哲君; 古倫維; 林其青; 陳心瑋; | 書刊名 | 國立臺灣大學工程學刊 |
卷 期 | 73 1998.06[民87.06] |
頁 次 | 頁155-165 |
分類號 | 312.3 |
關鍵詞 | 資訊檢索; 語言辨識; 網際網路; bigram模型; trigram模型; Information retrieval; Language identification; WWW; Bigram model; Trigram model; |
語 文 | 中文(Chinese) |
中文摘要 | The information dissemination power of WWW is decreased seriously due to various language types. This paper provides a multi-language identification system, which can automatically decide the language type of documents on WWW. We adopt two models-- bigram model and trigram model, and we focus on two important issues, i.e., execution speed and identification accuracy. The relation between the amount of chosen part for identifying text and the efficiency of our system is discussed. The results of the experiments show the difference in speed and accuracy of bigram and trigram models. Moreover, these two models are suitable to different language classes (Eastern Asia or Western Europe). Besides, we find the interference among languages, and explain it with our experimental results. This system provides not only a simple and practical way information retrieval for experts and common users, but aslo a prior work for the hot topic--text summarization. |
英文摘要 | 網際網路上資訊的交流,由於多樣化語言類型所帶來的障礙,大大的降低資 訊傳播的效能。本文提出一套多語言辨識系統,自動判別網際網路上文章的語言 類型。我們採用Bigram和trigram兩種模型,以AltaVista檢索所得的文章來做訓 練,考慮系統的執行速度和辨識正確性之間的取捨,並在選取測試樣本量(字串長 度)與系統辨識效率之間的關係作詳細的探討。實驗結果顯示trigram 與bigram模 型,不僅在速度與正確率上有不同的表現,同時兩種方法對印歐語系與東方語系 的文章也各有適用的範圍。此外,我們發現語言間互有干擾,也將干擾的情形作 了分析。本系統為網際網路上多語言和跨語言資料檢索,建立一套簡單而實用的 方法,並為後續研究例如自動產生文件摘要等,奠定良好的基礎。 |