<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    莊周夢(mèng)蝶

    生活、程序、未來
       :: 首頁 ::  ::  :: 聚合  :: 管理

    抽取網(wǎng)頁數(shù)據(jù)的不同思路

    Posted on 2007-11-22 12:35 dennis 閱讀(1155) 評(píng)論(1)  編輯  收藏 所屬分類: javamy open-source
        客戶要求從Internet上的網(wǎng)頁上抽取一定的數(shù)據(jù),用來顯示或者其他用戶,這個(gè)需求很常見。這兩天我們也遇到了這個(gè)需求,本來我一開始想是試用正則表達(dá)式去匹配需要的文本數(shù)據(jù),后來經(jīng)驗(yàn)豐富的經(jīng)理給出了一個(gè)更好的思路,就是使用jtidy將不符合xhtml的HTML文件轉(zhuǎn)化成標(biāo)準(zhǔn)的xhtml文件——本質(zhì)上就是XML文件,然后利用xsl抽取并轉(zhuǎn)換成我們所需要的數(shù)據(jù)的一定格式的xml文件。這樣做其實(shí)就是將XSL模板當(dāng)正則表達(dá)式來用,不過更清晰,當(dāng)網(wǎng)頁改變時(shí)也不需要重新編譯代碼,僅僅修改XSL模板就夠了。過程如下:
         html->xhtml--xsl-->數(shù)據(jù)xml

        做的過程中,初次使用了xsl,xpath等技術(shù),網(wǎng)上找了不少好資料,共享下:
    jtidy: 

    思路來源
    http://www.ibm.com/developerworks/cn/xml/x-wbdm/

    項(xiàng)目地址
    http://jtidy.sourceforge.net/

    參考,解決中文問題使用
    http://m.tkk7.com/jhengfei/archive/2006/03/25/37312.html

    xsl,非常系統(tǒng)教程和實(shí)踐:

    http://www.cnblogs.com/goody9807/category/36016.html

    xpath:

    http://www.yesky.com/201/171201.shtml



    評(píng)論

    # re: 抽取網(wǎng)頁數(shù)據(jù)的不同思路  回復(fù)  更多評(píng)論   

    2009-08-29 16:45 by Fuller
    在我的gooseeker網(wǎng)站上有關(guān)于使用XSLT抽取網(wǎng)頁內(nèi)容的很多資料,我開發(fā)的網(wǎng)頁抓取/數(shù)據(jù)抽取軟件工具包MetaSeeker就是在客戶端用XSLT抽取網(wǎng)頁內(nèi)容的,軟件可下載
    主站蜘蛛池模板: 18pao国产成视频永久免费| 青柠影视在线观看免费高清| 亚洲精品视频免费在线观看| 亚洲AV无码国产精品麻豆天美| 人人公开免费超级碰碰碰视频| 亚洲国产综合无码一区二区二三区 | 午夜亚洲WWW湿好爽 | 久久久久高潮毛片免费全部播放| 亚洲精品乱码久久久久久| 99久久国产精品免费一区二区| 亚洲色成人WWW永久网站| 日本高清不卡aⅴ免费网站| 亚洲国产另类久久久精品| 久久青草精品38国产免费| 久久精品国产亚洲77777| 97视频免费在线| 韩国免费一级成人毛片| 亚洲综合伊人制服丝袜美腿| 99视频在线精品免费观看6| 亚洲人片在线观看天堂无码| 国产免费一区二区三区VR| 一区二区三区精品高清视频免费在线播放 | 免费又黄又爽又猛大片午夜| 在线观看免费亚洲| 一本一道dvd在线观看免费视频 | 一级女性全黄久久生活片免费| 中文字幕亚洲综合久久男男| 一级毛片免费观看不卡的| 亚洲综合色区中文字幕| 四虎在线播放免费永久视频 | 亚洲午夜福利717| 久久er国产精品免费观看2| 亚洲综合激情视频| 四虎成人免费网站在线| jizz免费在线观看| 亚洲一级片在线播放| 亚洲乱码国产一区网址| 88av免费观看入口在线| 色婷婷亚洲一区二区三区| 亚洲精品无码Av人在线观看国产| 和日本免费不卡在线v|