<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    泰仔在線

    java學習,心情日記,繽紛時刻
    posts - 100, comments - 34, trackbacks - 0, articles - 0

    Nutch中的一些小的問題解決

    Posted on 2010-04-23 17:36 泰仔在線 閱讀(433) 評論(0)  編輯  收藏 所屬分類: 云計算相關

    今天主要解決了Nutch中的一些小的問題,下面分別簡述一下。

    1.網頁快照亂碼問題

    Nutch的網頁快照是亂碼,解決辦法是修改tomcat/webapps/nutch目錄下的cached.jsp文件,修改其中的第63行。

    原來的代碼是:content = new String(bean.getContent(details);

    修改后的代碼是:content = new String(bean.getContent(details),"gb2312");

    2.搜索結果高亮顯示

    Nutch默認的搜索結果是沒有高亮的,解決辦法是在關鍵詞中加入html顏色標簽。

    將 org.apache.nutch.searcher.Summary 第107行 代碼 修改為:

    public String toString() {
        StringBuffer buffer = new StringBuffer();
        for (int i = 0; i < fragments.size(); i++) {
          buffer.append(fragments.get(i));
        }
        return "<span style='color:red'>" + buffer.toString()+ "</span>";
    }

    3.抓取頁面大小

    Nutch默認只抓取一個頁面的前65k的內容,在我抓取bbs的時候,會出現只能抓取前幾個回帖的內容,所以想抓取整個頁面的內容,就要解除65k的限制。解決方法是修改nutch/conf中的nutch-site.xml文件,在文件最后添加以下內容:

    <property>
    <name>http.content.limit</name>
    <value>-1</value>
    <description>The length limit for downloaded content, in bytes.
    If this value is nonnegative (>=0), content longer than it will be truncated;
    otherwise, no truncation at all.
    </description>
    </property>

    轉自:實習日記(五)
    主站蜘蛛池模板: 久久精品国产亚洲αv忘忧草| 丁香亚洲综合五月天婷婷| 国产亚洲综合色就色| 一级特级aaaa毛片免费观看| 国产精品色午夜免费视频| 亚洲av日韩精品久久久久久a| 成人免费777777| 亚洲日本VA中文字幕久久道具| 成全高清视频免费观看| 亚洲av无码一区二区三区天堂 | 高清永久免费观看| 国产成人综合亚洲AV第一页| 成人自慰女黄网站免费大全| 亚洲春色在线视频| 久久WWW免费人成一看片| 亚洲一级大黄大色毛片| 午夜无遮挡羞羞漫画免费| 色婷婷六月亚洲综合香蕉| 亚洲欧洲精品成人久久曰影片| h视频在线免费观看| 亚洲av网址在线观看| 亚洲精品视频免费看| 亚洲国产精品网站在线播放| 亚洲日韩在线第一页| 无码少妇精品一区二区免费动态| 亚洲毛片一级带毛片基地| 日韩a级毛片免费观看| fc2成年免费共享视频网站| 亚洲人成影院在线| 啦啦啦中文在线观看电视剧免费版 | 免费在线观影网站| 亚洲国产精品综合久久网各| 日韩免费电影在线观看| 中文永久免费观看网站| 亚洲欧洲日产国码www| 又色又污又黄无遮挡的免费视 | 国产午夜亚洲精品午夜鲁丝片 | 日韩免费观看视频| 久久免费看少妇高潮V片特黄| 亚洲人成网站免费播放| 亚洲国产AV无码专区亚洲AV|