<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    posts - 110,  comments - 152,  trackbacks - 0

    下午配置成功了Nutch0.9.截圖記錄一下。

    nutchsuccess

     

     

     

     

     

     

     

    網(wǎng)絡(luò)上面介紹這個配置的比較多,我就不重復(fù)勞動了。

    推薦文檔如下:Nutch Version 0.8x tutorial ,還有就是這里的篇日志

    我在這里記錄一下遇到的幾個錯誤和解決辦法,大家可能有用。

    如執(zhí)行如下命令:
    ./nutch crawl ../urls.txt  -dir ../ihooyo  -depth 5 -topN 100
    參數(shù)說明:
    -url 就是剛才我們創(chuàng)建的url文件,存放我們要抓取的網(wǎng)址
    -dir 指定抓取內(nèi)容所存放的目錄,如上存在mydir中
    -threads 指定并發(fā)的線程數(shù)
    -depth 表示以要抓取網(wǎng)站頂級網(wǎng)址為起點的爬行深度
    -topN 表示獲取前多少條記錄,可省

    可能錯誤1:

    Generator: jobtracker is 'local', generating exactly one partition.
    Generator: 0 records selected for fetching, exiting ...
    Stopping at depth=0 - no more URLs to fetch.
    No URLs to fetch - check your seed list and URL filters.
    crawl finished: sina5

    說明:指定要抓取的網(wǎng)址(url.txt)經(jīng)過(crawl-urlfilters.xml)過濾后,已經(jīng)沒有可抓取對象了,檢查兩者的匹配即可。

    可能錯誤2:

    Dedup: starting
    Dedup: adding indexes in: ../ihooyo/indexes
    Exception in thread "main" java.io.IOException: Job failed!
            at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604)
            at org.apache.nutch.indexer.DeleteDuplicates.dedup(DeleteDuplicates.java:439)
            at org.apache.nutch.crawl.Crawl.main(Crawl.java:135)

    說明:一般為./conf/nutch-site.xml文件配置有錯誤。請參考如下配置修改。
    [xml]
    <property>
    <name>http.agent.name</name>
    <value>ihooyo</value>
    <description></description>
    </property>
    <property>
    <name>http.agent.description</name>
    <value>apersonblog</value>
    <description></description>
    </property>
    <property>
    <name>http.agent.url</name>
    <value>www.ihooyo.com</value>
    <description></description>
    </property>
    <property>
    <name>http.agent.email</name>
    <value>pjuneye@qq.com</value>
    <description></description>
    </property>
    [/xml]
    這種配置錯誤,在log日志中可找到提示。

    可能錯誤3:

    Injector: Converting injected urls to crawl db entries.
    Exception in thread "main" java.io.IOException: Job failed!
            at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604)
            at org.apache.nutch.crawl.Injector.inject(Injector.java:162)
            at org.apache.nutch.crawl.Crawl.main(Crawl.java:115)

    說明:一般為crawl-urlfilters.txt中配置問題,比如過濾條件應(yīng)為
    +^http://www.ihooyo.com ,而配置成了 http://www.ihooyo.com 這樣的情況就引起如上錯誤。

    好了寫完了。



    平凡而簡單的人一個,無權(quán)無勢也無牽無掛。一路廝殺,只進不退,死而后已,豈不爽哉!
    收起對“車”日行千里的羨慕;收起對“馬”左右逢緣的感嘆;目標(biāo)記在心里面,向前進。一次一步,一步一腳印,跬步千里。
    這個角色很適合現(xiàn)在的


    posted on 2008-04-01 17:11 過河卒 閱讀(1599) 評論(0)  編輯  收藏 所屬分類: Java/Java框架
    文章來自: http://www.blogjava.com/ponzmd/ (彭俊-過河卒) 轉(zhuǎn)貼請聲明!
    訪問統(tǒng)計:
    主站蜘蛛池模板: 成人精品国产亚洲欧洲| 中文字幕亚洲精品资源网| 亚洲AV综合色区无码一二三区| 日本黄网站动漫视频免费| 亚洲激情黄色小说| 日韩精品成人无码专区免费| 亚洲av一本岛在线播放| 成人免费午夜无码视频| 性xxxx黑人与亚洲| 在线播放免费人成视频在线观看| 老子影院午夜伦不卡亚洲| 免费又黄又爽又猛的毛片| 成人无码精品1区2区3区免费看 | 在线观看免费无码专区| 亚洲av中文无码乱人伦在线播放| 99精品在线免费观看| 亚洲天堂2017无码中文| 国产精品免费看久久久无码| 亚洲精品视频免费| 久久亚洲精品成人777大小说| 在线永久免费的视频草莓| 亚洲人成未满十八禁网站| 亚洲精品乱码久久久久久蜜桃 | 亚洲αv在线精品糸列| 中文字幕亚洲免费无线观看日本| 亚洲伊人久久大香线蕉结合| 国产美女无遮挡免费视频| 另类免费视频一区二区在线观看| 亚洲国产超清无码专区| 免费va在线观看| 久久99精品国产免费观看| 中文字幕在线日亚洲9| 国产精品xxxx国产喷水亚洲国产精品无码久久一区 | 亚洲一区二区成人| 麻豆精品国产免费观看| 两个人看www免费视频| 亚洲欧洲AV无码专区| 国产成人精品日本亚洲专区61| 亚洲一区二区三区免费视频| 男女猛烈无遮掩视频免费软件| 亚洲天堂在线播放|