查詢結果分析
相關文獻
- 基於網路拓撲的聚焦爬蟲研究
- 網路文件自動分類
- A Model for Word Sense Disambiguation
- 在拓樸向量空間中的Michael選擇定理
- On Characterizations of Weighted Composition Opeartors on Non-locally Convex Weighted Spaces of Continuous Functions
- Telecommunications Data Mining for Target Marketing
- 中文全文文件群集索引理論研究與實證
- 留美背景資料知識庫:一個智慧型的檢索系統
- 中文全文資訊檢索之效能評量初探
- 基於文本概念和kNN的跨語種文本過濾
頁籤選單縮合
題 名 | 基於網路拓撲的聚焦爬蟲研究=Research on Focused Crawler Based upon Network Topology |
---|---|
作 者 | 熊菲; 劉雲; 李勇; | 書刊名 | 網際網路技術學刊 |
卷 期 | 9:5 2008.12[民97.12] |
頁 次 | 頁377-380 |
分類號 | 312.1 |
關鍵詞 | 聚焦爬蟲; 鏈結分析; 無標度網路; 向量空間; Focused crawler; Link analysis; Scale-free network; Vector space; |
語 文 | 中文(Chinese) |
中文摘要 | Subject-oriented focued crawler, skips irrelevant links, and receives only relevant information. However, general fouced crawler couldn't deal with redundant links. This paper presents a kind of focused crawler based upon network topology. The crawler gets original URL sets from search engine, then calculates content similarity by the model of vector space. It analyzes link structure of websites, moreover modifies weight of URL according to the characteristic of scale-free network. Relevance feedback is used to disengage irrelevant regions, and the length of buffer is set for irrelevant URL by the distance between URL and seed pages. Experiments results prove that the precision of this focused crawler is higher than general crawler. |
英文摘要 | 聚焦爬蟲面向主題,過濾無關鏈結,只抓取相關的網頁資訊。通用的聚焦爬蟲,無法處理冗餘鏈結,因此本文提出了一種基於網路拓撲的聚焦爬蟲。從搜索引擎獲取初始網頁集,使用向量空間模型計算文本相似性。對抽取出的URL 先進行鏈結分析,再根據無標度網路特徵'修正URL 的權值。同時回饋不相關的主題區域,並通過URL與種子集合的距離設置不相關URL 的緩街區長度。仿真結果表明基於網路拓撲的爬蟲比通用爬蟲具有更高的查準率。 |
本系統中英文摘要資訊取自各篇刊載內容。