<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    posts - 110,  comments - 152,  trackbacks - 0

    再來1號問題:爬蟲的工作過程

    來個圖:

    workflow

    動作分解:
    <傳言看源代碼理解的更細致,不過偶沒看,偶是根據文檔和下午的操作總結的,錯了請指正。>

    1.創建空數據庫Webdb:

    2.向Webdb中注入入口攫取地址:

    3.根據Webdb中數據生成fetchlist,并生成相應的segment。

    4.根據fetchlist攫取內容(fetched content)。

    5.根據獲取內容更新Webdb

    6.重復執行3-5.這個過程52se稱為“產生/抓取/更新”循環。

    7.完成上面的循環后,根據Webdb中信息,如網頁評分和鏈接信息等,再次更新segment.

    8.索引被攫取的頁面,生成鏈接。

    9.去除indexes中重復的內容和鏈接。

    10.依靠indexes合成單一的index文件。大功告成。

    上面這些步驟都可以對應到Nutch給我們提供的CrawlTool中的命令上。

    爬蟲忙完了,有了數據,我們就可以利用Nutch的search部分功能來查找內容了。

     

    參考:Nutch爬蟲工作流程及文件格式詳細分析

    Introduction to Nutch, Part 1: Crawling



    平凡而簡單的人一個,無權無勢也無牽無掛。一路廝殺,只進不退,死而后已,豈不爽哉!
    收起對“車”日行千里的羨慕;收起對“馬”左右逢緣的感嘆;目標記在心里面,向前進。一次一步,一步一腳印,跬步千里。
    這個角色很適合現在的。


    posted on 2008-04-02 20:53 過河卒 閱讀(558) 評論(0)  編輯  收藏 所屬分類: Java/Java框架
    文章來自: http://www.blogjava.com/ponzmd/ (彭俊-過河卒) 轉貼請聲明!
    訪問統計:
    主站蜘蛛池模板: 亚洲av日韩av综合| 亚洲综合激情另类小说区| 黄页网站免费在线观看| a级毛片免费完整视频| 狠狠入ady亚洲精品| 91丁香亚洲综合社区| 日韩亚洲AV无码一区二区不卡| 亚洲国产综合无码一区二区二三区 | 精品一区二区三区无码免费直播 | 久热免费在线视频| 一个人看www免费高清字幕| 亚洲无码一区二区三区 | 成人黄18免费视频| 亚洲免费闲人蜜桃| 免费无码毛片一区二区APP| a级午夜毛片免费一区二区| 国产免费人成视频在线播放播| 男男gay做爽爽免费视频| 亚洲精品天堂无码中文字幕| 激情内射亚洲一区二区三区爱妻| 精品亚洲aⅴ在线观看| 久久精品国产99精品国产亚洲性色| 国产亚洲自拍一区| 曰批全过程免费视频播放网站| 国产色无码精品视频免费| 在线免费视频你懂的| 国产高潮流白浆喷水免费A片 | 国产免费区在线观看十分钟| 国产特黄特色的大片观看免费视频| 一道本不卡免费视频| a在线视频免费观看在线视频三区| 亚州**色毛片免费观看| 国产精品成人69XXX免费视频| a级毛片免费观看在线| 一级中文字幕乱码免费| 国产在线观看无码免费视频| 免费无码又爽又刺激网站直播| 日本视频免费高清一本18| 一级毛片免费观看| 亚洲精品视频免费观看| 国产A∨免费精品视频|