<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    posts - 33,  comments - 70,  trackbacks - 0
    HTMLParser 1.6

    /*
    html : html內(nèi)容
    identifier: 搜索標(biāo)識(shí)
    */

    private?Object[]?extractText(String?html,?String?identifier)
    ????????????
    throws?Exception?{
    ????????List
    <String>?resultTextList?=?new?ArrayList<String>();

    ????????Parser?parser?
    =?new?Parser();
    ????????parser.setInputHTML(html);

    ????????NodeFilter?filter?
    =?new?HasAttributeFilter("class",?identifier);
    ?/* NodeFilter?filter 就是要解析的過濾器,實(shí)現(xiàn)有好多種,我采用的屬性過濾,其他more api*/

    ????????NodeList?nodeList?
    =?parser.extractAllNodesThatMatch(filter);
    /* extractAllNodesThatAre(class)已經(jīng)不被推薦使用,在1.6版本中,我感到更加體形了靈活性.更好的適用了自定義的tag */
    ????????
    if?(nodeList?==?null)
    ????????????
    return?null;
    ????????
    if(nodeList.size()?==?0)
    ????????????
    return?null;

    ????????
    //?System.out.println("start?==============?,size?=?"
    ????????
    //?+?nodeList.size());
    ????????Node[]?nodes?=?nodeList.toNodeArray();
    ????????String?line?
    =?"";
    ????????
    for?(int?i?=?0;?i?<?nodes.length;?i++)?{
    ????????????Node?node?
    =?nodes[i];???/*得到所以符合的節(jié)點(diǎn),類型化做對(duì)應(yīng)的標(biāo)簽類*/
    ????????
    if?(node?instanceof?Span)?{
    ????????????????Span?spanTag?
    =?(Span)?node;
    ????????????????line?
    =?spanTag.toPlainTextString();
    ????????????}
    ?else?if?(node?instanceof?TableColumn)?{
    ????????????????TableColumn?tableTag?
    =?(TableColumn)?node;
    ????????????????line?
    =?tableTag.toPlainTextString();
    ????????????}
    ?else?if?(node?instanceof?Div)?{
    ????????????????Div?divTag?
    =?(Div)?node;
    ????????????????line?
    =?divTag.toPlainTextString();
    ????????????}

    ????????????
    if?(StringUtil.isTrimEmpty(line)){
    ????????????????
    continue;
    ????????????}
    else{
    ????????????????resultTextList.add(line);
    ????????????}

    ????????????
    ????????}

    ????????
    return?resultTextList.toArray();
    ????}


    StringUtil 常用類
    /**
    ?????*?去掉左右空格后字符串是否為空
    ?????
    */

    ????
    public?static?boolean?isTrimEmpty(String?astr)
    ????
    {
    ????????
    if?((null?==?astr)?||?(astr.length()?==?0))
    ????????
    {
    ????????????
    return?true;
    ????????}

    ????????
    if?(isBlank(astr.trim()))
    ????????
    {
    ????????????
    return?true;
    ????????}

    ????????
    return?false;
    ????}


    ????
    /**
    ?????*?字符串是否為空:null或者長(zhǎng)度為0.
    ?????
    */

    ????
    public?static?boolean?isBlank(String?astr)
    ????
    {
    ????????
    if?((null?==?astr)?||?(astr.length()?==?0))
    ????????
    {
    ????????????
    return?true;
    ????????}

    ????????
    else
    ????????
    {
    ????????????
    return?false;
    ????????}

    ????}
    posted on 2006-05-22 17:30 地獄男爵(hellboys) 閱讀(2899) 評(píng)論(1)  編輯  收藏 所屬分類: 編程語言(c/c++ java python sql ......)

    FeedBack:
    # re: HTMLParser屬性解析
    2006-06-02 21:45 | libby
    想請(qǐng)教作者,可能是由于html的語法不規(guī)范所至,我用Htmlparser分析html文檔出現(xiàn)錯(cuò)誤,像普通的Html文檔其結(jié)束標(biāo)記如果存在重復(fù),一般不予理睬,可是在用Htmlparser其會(huì)進(jìn)行處理,往往會(huì)引起一些顯示問題.
    我想利用htmlparser分析html頁面,生成一棵樹,感覺不應(yīng)該出現(xiàn)的錯(cuò)誤卻出現(xiàn)了.
    作者可否跟俺取得聯(lián)系,我想同你討論一下.俺郵箱是:libby22@sohu.com或者M(jìn)SN:libby22@hotmail.com

    著急,謝謝!  回復(fù)  更多評(píng)論
      
    <2006年5月>
    30123456
    78910111213
    14151617181920
    21222324252627
    28293031123
    45678910

    常用鏈接

    隨筆分類

    隨筆檔案

    文章檔案

    相冊(cè)

    連接

    最新隨筆

    搜索

    •  

    最新評(píng)論

    閱讀排行榜

    評(píng)論排行榜

    主站蜘蛛池模板: 国产精品亚洲专区无码WEB| 亚洲小视频在线播放| 国产精品亚洲综合一区在线观看| 成年在线观看网站免费| 亚洲成年人电影网站| www视频免费看| 亚洲综合一区国产精品| 在线日韩av永久免费观看| 99亚洲乱人伦aⅴ精品| 免费毛片在线视频| 老司机精品视频免费| 亚洲一区二区高清| 中文字幕不卡免费高清视频| 亚洲精品乱码久久久久久久久久久久| 最近的2019免费中文字幕| 亚洲Av综合色区无码专区桃色| 91福利免费体验区观看区| 亚洲日韩乱码中文无码蜜桃| 性xxxx视频播放免费| 色视频在线观看免费| 亚洲日产无码中文字幕| 久久大香伊焦在人线免费| 亚洲午夜电影在线观看| 日韩免费毛片视频| 美女巨胸喷奶水视频www免费| 久久久久亚洲精品无码系列| 两个人的视频高清在线观看免费| 亚洲av无码日韩av无码网站冲| 久久久久亚洲AV成人网| 日本最新免费网站| 免费无码国产在线观国内自拍中文字幕| 浮力影院亚洲国产第一页| 久草视频免费在线| 特级毛片全部免费播放| 亚洲AV日韩AV天堂一区二区三区| 91嫩草国产在线观看免费| 九九免费久久这里有精品23| 久久亚洲sm情趣捆绑调教 | 91香蕉国产线在线观看免费| 中国china体内裑精亚洲日本| 精品国产人成亚洲区|