昨天睡覺前,總結(jié)了感興趣的3個(gè)問題,現(xiàn)在來(lái)回顧一下
1.爬蟲工作的過(guò)程?
2.爬蟲獲取數(shù)據(jù)后,數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)?
3.數(shù)據(jù)如何索引成Lucene設(shè)定的索引格式?
上午干工作耽誤了,下午得閑,看點(diǎn)資料。試簡(jiǎn)單總結(jié)一下上面幾個(gè)問題的。
先回答2號(hào)問題,數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)好了。
Nutch把爬蟲找回來(lái)的資料做成了放在一個(gè)文件夾里面,美其名曰Web database。其實(shí)里面分別就四個(gè)文件夾了事。依次道來(lái):
- crawldb:存放需要抓取的的超鏈接地址;
- segments:存放依據(jù)crawldb中提供的地址抓取到的內(nèi)容信息。segments中的每個(gè)子文件夾存儲(chǔ)fetcher根據(jù)crawldb抓取一次所得的內(nèi)容。這些抓取的內(nèi)容包括有content、crawl_fetch、crawl_generate、crawl_parse、parse_data、parse_text。其中content是抓取下來(lái)的網(wǎng)頁(yè)內(nèi)容;crawl_generate根據(jù)crawldb最初生成;crawl_fetch、content在抓取時(shí)生成;crawl_parse、parse_data、parse_text在解析抓取的數(shù)據(jù)文件時(shí)生成。其中crawl_generate、crawl_fetch和crawl_parse是crawldb的部分url數(shù)據(jù),它們格式一樣,不同的是抓取時(shí)間、狀態(tài)、簽名等有所變化。
- Index和indexes:Index是最終我們所需要得到的東西,而Index就是通過(guò)indexes合并的到的。
- Linkdb:linkdb中存放的是所有超鏈接及其每個(gè)鏈接的連入地址和錨文件。
好了這個(gè)存儲(chǔ)結(jié)構(gòu)的問題完成了。
抽空先寫這么多,呆會(huì)有時(shí)間在繼續(xù)。
平凡而簡(jiǎn)單的人一個(gè),無(wú)權(quán)無(wú)勢(shì)也無(wú)牽無(wú)掛。一路廝殺,只進(jìn)不退,死而后已,豈不爽哉!
收起對(duì)“車”日行千里的羨慕;收起對(duì)“馬”左右逢緣的感嘆;目標(biāo)記在心里面,向前進(jìn)。一次一步,一步一腳印,跬步千里。
這個(gè)角色很適合現(xiàn)在的我。
posted on 2008-04-02 20:52
過(guò)河卒 閱讀(989)
評(píng)論(0) 編輯 收藏 所屬分類:
Java/Java框架