<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    泰仔在線

    java學習,心情日記,繽紛時刻
    posts - 100, comments - 34, trackbacks - 0, articles - 0

    nutch抓取動態網頁

    Posted on 2010-04-24 19:06 泰仔在線 閱讀(2208) 評論(1)  編輯  收藏 所屬分類: 云計算相關
    解決搜索動態內容的問題:
    需要注意在conf下面的2個文件:regex-urlfilter.txt,crawl-urlfilter.txt
    # skip URLs containing certain characters as probable queries, etc.
    -[?*!@=] (-改+)
    這段意思是跳過在連接中存在? * ! @ = 的頁面,因為默認是跳過所以,在動態頁中存在?一般按照默認的是不能抓取到的。可以在上面2個文件中都修改成:
    # skip URLs containing certain characters as probable queries, etc.
    # -[?*!@=]
    另外增加允許的一行
    # accept URLs containing certain characters as probable queries, etc.
    +[?=&]
    意思是抓取時候允許抓取連接中帶 ? = & 這三個符號的連接
    注意:兩個文件都需要修改,因為NUTCH加載規則的順序是crawl-urlfilter.txt-> regex-urlfilter.txt

    轉自:nutch抓取動態網頁

    Feedback

    # re: nutch抓取動態網頁  回復  更多評論   

    2012-03-09 17:06 by da
    ds
    主站蜘蛛池模板: 亚洲伊人色一综合网| 亚洲成人中文字幕| 亚洲欧美熟妇综合久久久久| 无码精品人妻一区二区三区免费看| 亚洲一区二区三区影院| 亚洲精品视频免费| 国产v亚洲v天堂无码网站| 成人自慰女黄网站免费大全| 久久亚洲中文字幕精品一区四| aa级毛片毛片免费观看久| 中文字幕一精品亚洲无线一区| 中文字幕永久免费视频| 国产成人综合亚洲AV第一页| 老司机69精品成免费视频| 久久久国产精品亚洲一区| 黄色网址免费观看| 亚洲狠狠婷婷综合久久蜜芽| 亚洲成a人片在线播放| 岛国岛国免费V片在线观看| 亚洲最大成人网色| 国产无人区码卡二卡三卡免费 | 久久av无码专区亚洲av桃花岛| 在线成人爽a毛片免费软件| 国产精品亚洲精品观看不卡| 日本一区二区三区日本免费| 一级毛片大全免费播放下载| 亚洲91av视频| 成人午夜18免费看| 特级毛片在线大全免费播放| 国产AV无码专区亚洲A∨毛片| 91精品免费国产高清在线| 免费播放美女一级毛片| 亚洲AV综合色区无码一区爱AV | 一二三四免费观看在线电影| 亚洲AV网一区二区三区| 亚洲中久无码永久在线观看同| 在线看无码的免费网站| 毛片亚洲AV无码精品国产午夜| 日韩亚洲一区二区三区| 在线观看视频免费国语| 一个人免费视频观看在线www|