摘要: 很久沒有寫技術blog了,這段時間心血來潮 對云計算,云存儲產生興趣,遂先把自己實際的安裝配置筆記 記錄下來。
閱讀全文
posted @
2011-12-08 13:14 鄧兵野 閱讀(3507) |
評論 (2) |
編輯 收藏
摘要: 最近一直想寫個和搜索相關的東東,所以簡單了解搜索引擎方面的知識,個人總結一個垂直搜索引擎 包含以下幾個部分:
1 web 爬蟲,抓取目標頁面的內容。
2 數據預處理,把抓取下來的數據進行去噪,例如使用htmlparser等工具對去掉無用的標簽數據等等,把
數據結構化DB或者其他存儲系統已被后面使用。
3. 建立索引。
4. 分詞,開發檢索因子, 對索引數據進行檢索。
5. 把檢索到的數據,在web段展現。
下面就結合heritrix1.14.3 和lucence2.2.0,介紹下,整個搜索引擎的開發過程。
閱讀全文
posted @
2009-06-26 02:35 鄧兵野 閱讀(3886) |
評論 (2) |
編輯 收藏