<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    泰仔在線

    java學習,心情日記,繽紛時刻
    posts - 100, comments - 34, trackbacks - 0, articles - 0

    nutch抓取動態網頁

    Posted on 2010-04-24 19:06 泰仔在線 閱讀(2207) 評論(1)  編輯  收藏 所屬分類: 云計算相關
    解決搜索動態內容的問題:
    需要注意在conf下面的2個文件:regex-urlfilter.txt,crawl-urlfilter.txt
    # skip URLs containing certain characters as probable queries, etc.
    -[?*!@=] (-改+)
    這段意思是跳過在連接中存在? * ! @ = 的頁面,因為默認是跳過所以,在動態頁中存在?一般按照默認的是不能抓取到的。可以在上面2個文件中都修改成:
    # skip URLs containing certain characters as probable queries, etc.
    # -[?*!@=]
    另外增加允許的一行
    # accept URLs containing certain characters as probable queries, etc.
    +[?=&]
    意思是抓取時候允許抓取連接中帶 ? = & 這三個符號的連接
    注意:兩個文件都需要修改,因為NUTCH加載規則的順序是crawl-urlfilter.txt-> regex-urlfilter.txt

    轉自:nutch抓取動態網頁

    Feedback

    # re: nutch抓取動態網頁  回復  更多評論   

    2012-03-09 17:06 by da
    ds
    主站蜘蛛池模板: 黄色免费网址大全| va天堂va亚洲va影视中文字幕 | 免费A级毛片无码视频| 亚洲精品一级无码鲁丝片| 国产亚洲精品第一综合| 四虎永久在线精品免费观看地址| 亚洲一级毛片在线播放| 在线看片v免费观看视频777| 亚洲依依成人精品| 四虎影院免费视频| 在线a级毛片免费视频| 亚洲伊人久久精品| 精品久久久久久久免费加勒比| 亚洲熟女精品中文字幕| 国产国产人免费人成免费视频| 豆国产96在线|亚洲| 亚洲婷婷国产精品电影人久久| 色多多www视频在线观看免费| 国产亚洲精品久久久久秋霞 | 九月丁香婷婷亚洲综合色| 日韩精品在线免费观看| 97久久精品亚洲中文字幕无码 | 18pao国产成视频永久免费| 亚洲日本乱码一区二区在线二产线 | 午夜dj免费在线观看| 国产成人亚洲午夜电影| 亚洲中文久久精品无码| 鲁大师在线影院免费观看| 国产亚洲国产bv网站在线| 免费看国产一级片| 日韩人妻无码精品久久免费一| 亚洲AV男人的天堂在线观看| www国产亚洲精品久久久| 久久精品免费视频观看| 亚洲乱妇熟女爽到高潮的片| 亚洲人成色7777在线观看不卡 | 亚洲另类激情专区小说图片| 一级毛片在线免费看| 亚洲欧好州第一的日产suv| 亚洲一区精品伊人久久伊人| 久久久久久精品成人免费图片|