<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    posts - 110,  comments - 152,  trackbacks - 0

    昨天睡覺前,總結了感興趣的3個問題,現在來回顧一下

    1.爬蟲工作的過程?

    2.爬蟲獲取數據后,數據的存儲結構?

    3.數據如何索引成Lucene設定的索引格式?

    上午干工作耽誤了,下午得閑,看點資料。試簡單總結一下上面幾個問題的。

    先回答2號問題,數據的存儲結構好了。

    Nutch把爬蟲找回來的資料做成了放在一個文件夾里面,美其名曰Web database。其實里面分別就四個文件夾了事。依次道來:

    • crawldb:存放需要抓取的的超鏈接地址;
    • segments:存放依據crawldb中提供的地址抓取到的內容信息。segments中的每個子文件夾存儲fetcher根據crawldb抓取一次所得的內容。這些抓取的內容包括有content、crawl_fetch、crawl_generate、crawl_parse、parse_data、parse_text。其中content是抓取下來的網頁內容;crawl_generate根據crawldb最初生成;crawl_fetch、content在抓取時生成;crawl_parse、parse_data、parse_text在解析抓取的數據文件時生成。其中crawl_generate、crawl_fetch和crawl_parse是crawldb的部分url數據,它們格式一樣,不同的是抓取時間、狀態、簽名等有所變化。
    • Index和indexes:Index是最終我們所需要得到的東西,而Index就是通過indexes合并的到的。
    • Linkdb:linkdb中存放的是所有超鏈接及其每個鏈接的連入地址和錨文件。

    好了這個存儲結構的問題完成了。

    抽空先寫這么多,呆會有時間在繼續。



    平凡而簡單的人一個,無權無勢也無牽無掛。一路廝殺,只進不退,死而后已,豈不爽哉!
    收起對“車”日行千里的羨慕;收起對“馬”左右逢緣的感嘆;目標記在心里面,向前進。一次一步,一步一腳印,跬步千里。
    這個角色很適合現在的


    posted on 2008-04-02 20:52 過河卒 閱讀(999) 評論(0)  編輯  收藏 所屬分類: Java/Java框架
    文章來自: http://www.blogjava.com/ponzmd/ (彭俊-過河卒) 轉貼請聲明!
    訪問統計:
    主站蜘蛛池模板: 性做久久久久免费看| 最好免费观看韩国+日本| 国产成人精品久久亚洲高清不卡 | 亚洲国产美女精品久久久| 在线观看视频免费国语| 亚洲国产精品成人综合色在线| 女人被男人躁的女爽免费视频| 亚洲爆乳无码精品AAA片蜜桃| 毛片免费观看的视频| 亚洲avav天堂av在线网毛片| 日韩一级免费视频| 一级黄色免费毛片| 欧洲亚洲国产清在高| 99xxoo视频在线永久免费观看| 亚洲成a人片毛片在线| 18禁超污无遮挡无码免费网站国产 | 337P日本欧洲亚洲大胆精品| 免费网站看v片在线香蕉| 深夜A级毛片视频免费| 自拍偷自拍亚洲精品情侣| 久久午夜无码免费| 亚洲成人动漫在线观看| 国产精品免费电影| 中文字幕成人免费高清在线 | 911精品国产亚洲日本美国韩国| 亚洲网站免费观看| 亚洲乱色伦图片区小说| 国产精品亚洲mnbav网站 | 毛片免费在线观看网站| 一级毛片一级毛片免费毛片| 亚洲av日韩av激情亚洲| 国产精品久久久久久久久久免费| 日韩亚洲人成网站| 国产亚洲精品xxx| 免费无码肉片在线观看| 成人a毛片免费视频观看| 久久精品国产亚洲AV高清热| 日本一线a视频免费观看| 久久国产精品国产自线拍免费| 亚洲AV无码国产精品色| 亚洲日韩国产成网在线观看|