晚上花了將近兩個小時的時間,看了網絡上一些關于Nutch的介紹.
搞明白的幾個問題:
1.Nutch到底是什么?
Nutch是一個開源的Java語言實現的搜索引擎。它通過完整功能的搜索系統。
2.Nutch和Lucene到底是什么關系?兩者如何取舍?
Nutch基于Lucene,Lucene為Nutch提供文本索引和搜索API。兩者的取舍問題在于Lucene不能夠為你抓取數據,所以如果在有數據源的情況下最好的方式是使用Lucene API來建立索引,完成搜索。如果需要抓取數據的話,那自然是選擇Nutch為好。
3.Nutch的基本安裝步驟?
這個問題有官方文檔。在這里。
PS:似乎網絡Nutch上最多的帖子就是關于這個的.其中比較有意思的就是擺脫Cgywin的一些方法,比如利用window批處理或者利用ant.個人還是覺得ant更通用.
4.Nutch的基本組成?
Nutch基本上兩部分組成:抓取部分和搜索部分。抓取程序抓取頁面并將抓取回來的數據做成反向索引;搜索程序則將反向索引搜索回答用戶的請求。兩者的關聯部分在于索引。
具體內容還需要仔細看文檔和介紹.
5.Nutch文檔集中地?
http://wiki.apache.org/nutch/
補充完成,今日繼續。愚人節快樂!
平凡而簡單的人一個,無權無勢也無牽無掛。一路廝殺,只進不退,死而后已,豈不爽哉!
收起對“車”日行千里的羨慕;收起對“馬”左右逢緣的感嘆;目標記在心里面,向前進。一次一步,一步一腳印,跬步千里。
這個角色很適合現在的我。
posted on 2008-04-01 16:50
過河卒 閱讀(480)
評論(0) 編輯 收藏 所屬分類:
Java/Java框架