基于lucence+heritrix的開源搜索引擎構建(一)
摘要: 最近一直想寫個和搜索相關的東東,所以簡單了解搜索引擎方面的知識,個人總結一個垂直搜索引擎 包含以下幾個部分:
1 web 爬蟲,抓取目標頁面的內容。
2 數據預處理,把抓取下來的數據進行去噪,例如使用htmlparser等工具對去掉無用的標簽數據等等,把
數據結構化DB或者其他存儲系統已被后面使用。
3. 建立索引。
4. 分詞,開發檢索因子, 對索引數據進行檢索。
5. 把檢索到的數據,在web段展現。
下面就結合heritrix1.14.3 和lucence2.2.0,介紹下,整個搜索引擎的開發過程。
閱讀全文
posted @
2009-06-26 02:35 鄧兵野 閱讀(3886) |
評論 (2) 編輯