再來1號問題:爬蟲的工作過程
來個圖:

動作分解:
<傳言看源代碼理解的更細致,不過偶沒看,偶是根據文檔和下午的操作總結的,錯了請指正。>
1.創建空數據庫Webdb:
2.向Webdb中注入入口攫取地址:
3.根據Webdb中數據生成fetchlist,并生成相應的segment。
4.根據fetchlist攫取內容(fetched content)。
5.根據獲取內容更新Webdb
6.重復執行3-5.這個過程52se稱為“產生/抓取/更新”循環。
7.完成上面的循環后,根據Webdb中信息,如網頁評分和鏈接信息等,再次更新segment.
8.索引被攫取的頁面,生成鏈接。
9.去除indexes中重復的內容和鏈接。
10.依靠indexes合成單一的index文件。大功告成。
上面這些步驟都可以對應到Nutch給我們提供的CrawlTool中的命令上。
爬蟲忙完了,有了數據,我們就可以利用Nutch的search部分功能來查找內容了。
參考:Nutch爬蟲工作流程及文件格式詳細分析
平凡而簡單的人一個,無權無勢也無牽無掛。一路廝殺,只進不退,死而后已,豈不爽哉!
收起對“車”日行千里的羨慕;收起對“馬”左右逢緣的感嘆;目標記在心里面,向前進。一次一步,一步一腳印,跬步千里。
這個角色很適合現在的我。
posted on 2008-04-02 20:53
過河卒 閱讀(558)
評論(0) 編輯 收藏 所屬分類:
Java/Java框架