Posted on 2006-12-16 16:10
天霽 閱讀(3601)
評(píng)論(15) 編輯 收藏 所屬分類(lèi):
nutch
??????? 在nutch的開(kāi)發(fā)過(guò)程中,很多程序員都煩惱nutch抓取數(shù)據(jù)后的保存格式,無(wú)法被直接瀏覽和管理,我也同樣煩惱,呵呵,也是被人催得急了,抽出時(shí)間寫(xiě)了這么個(gè)小工具,用來(lái)瀏覽nutch保存的數(shù)據(jù)。
??????? 準(zhǔn)備設(shè)計(jì)的功能有3塊:
??????? 1。瀏覽和管理數(shù)據(jù)。
??????? 2。搜索數(shù)據(jù)。
????????3。導(dǎo)出nutch數(shù)據(jù)到指定數(shù)據(jù)庫(kù)。
??????? 花了一天時(shí)間先寫(xiě)了第一塊的一部分,能夠?yàn)g覽nutch抓取后的數(shù)據(jù),先放在blog上吧,版本定為0.1,其實(shí)0.1也高,0.01比較合適。寫(xiě)的匆忙,代碼比較簡(jiǎn)陋,本想開(kāi)放源碼,又怕貽笑大方,暫時(shí)先不發(fā)布源碼了,只發(fā)布了一個(gè)jar包,代碼并沒(méi)有經(jīng)過(guò)混淆,如果感興趣反編譯過(guò)來(lái)看就好了,或者留個(gè)郵箱,等到基本功能完成了發(fā)布到sourceforge上。
????????基本界面使用說(shuō)明:
?????? 一.?? 下載與安裝:
??????????????? 在這里下載,下載后解壓縮,兩個(gè)解壓縮文件:RedmuTool.jar,startup.bat,一個(gè)類(lèi)包文件
??????????????? 夾:lib。確認(rèn)這三個(gè)在同一文件夾下。
???????二.?? 運(yùn)行:
?????????????? 執(zhí)行startup.bat。界面如下:

?????????? 主界面出現(xiàn)后,F(xiàn)ile-->open,選擇nutch抓取后保存數(shù)據(jù)的文件夾:

???????菜單中不同的選項(xiàng)對(duì)應(yīng)不同的文件夾:
?????? NutchCrawl,對(duì)應(yīng)你選擇的Crawl根目錄。
?????? CrawlDB,對(duì)應(yīng)crawldb文件夾。
?????? LinkDB,對(duì)應(yīng)linkdb文件夾。
?????? Segments,對(duì)應(yīng)segments文件夾。
?????? segment文件夾下是按照抓取時(shí)間命名的文件夾,內(nèi)部分別是content,crawl_fetch,crawl_generate,crawl_parse,parse_data,parse_text,界面中對(duì)應(yīng)的分別是:Content,CrawlFetch,ParseData和ParseText。
??????? 點(diǎn)擊相應(yīng)的選擇,就會(huì)看到相應(yīng)的數(shù)據(jù)內(nèi)容:

????????
????????字段名和相應(yīng)的屬性名相同,未做更多的處理。
???????
???????? 在使用中任何意見(jiàn)均可留言,或發(fā)送郵件到:redmuer@hotmail.com。