<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    我的蛋殼

    倡導(dǎo)自由、開放、分享的Java技術(shù)社區(qū) http://www.javaread.com

     

    HtmlCleaner,Html解析專家


    通常互聯(lián)網(wǎng)上的HTML頁(yè)面都是不規(guī)則的,非結(jié)構(gòu)化的頁(yè)面。如果我們需要訪問(wèn)或者抽取里面的內(nèi)容的話,我們需要分析HTML頁(yè)面,去除垃圾。
    而最近新發(fā)布的 HtmlCleaner 就是這樣一個(gè)工具. 能夠幫助我們將HTML 文檔 轉(zhuǎn)化為結(jié)構(gòu)化的XML文檔。雖然目前已經(jīng)有了類似這樣的工具,但是HtmlCleaner 能夠完成幾乎所有的HTML轉(zhuǎn)換,而且不到30k,這是他們值得稱道的地方。

    HtmlCleaner是一個(gè)開源的Html文檔解析器。HtmlCleaner能夠安全的解析和轉(zhuǎn)換web上的HTML到標(biāo)準(zhǔn)的XML,重新排序每個(gè)元素,然后生成結(jié)構(gòu)良好(Well-Formed)XML文檔。默認(rèn)它遵循的規(guī)則是類似于大部份web瀏覽器為創(chuàng)文檔對(duì)象模型所使用的規(guī)則。然后,用戶可以提供自定義tag和規(guī)則組來(lái)進(jìn)行過(guò)濾和匹配。它被設(shè)計(jì)的小,快速,靈活而且獨(dú)立。HtmlCleaner也可用在Java代碼中,當(dāng)命令行工具或Ant任務(wù)。 解析后編程輕量級(jí)文檔對(duì)象,能夠很容易的被轉(zhuǎn)換到DOM或者JDom標(biāo)準(zhǔn)文檔,或者通過(guò)各種方式(壓縮,打印)連續(xù)輸出XML

    新版本的重要功能更新包括:
    1.HtmlCleaner的文檔對(duì)象模型現(xiàn)在擁有了一些函數(shù),處理節(jié)點(diǎn)和屬性,所以現(xiàn)在在序列化之前搜索或者編輯是非常容易的。
    2.提供基本HtmlCleaner DOMXPath支持
    3.使用XML配置溫江讓創(chuàng)建定制tag變得更加容易
    4.修復(fù)多個(gè)bug以及API改進(jìn)

    更多詳細(xì)信息:HTML Parser工具HtmlCleaner 2.0發(fā)布



    本文作者:javaread.com

    posted on 2008-07-17 10:06 javaread.com 閱讀(4116) 評(píng)論(6)  編輯  收藏

    評(píng)論

    # re: HtmlCleaner,Html解析專家 2008-07-17 10:51 大水牛

    昨天試了,感覺(jué)還不錯(cuò)  回復(fù)  更多評(píng)論   

    # re: HtmlCleaner,Html解析專家 2008-07-17 11:25 BeanSoft

    呵呵 就知道把鏈接都鏈到你的網(wǎng)站去 變相廣告太多了就不太好了  回復(fù)  更多評(píng)論   

    # re: HtmlCleaner,Html解析專家 2008-07-17 11:40 kenlee14

    我可不管那么多,內(nèi)容對(duì)我有用就行了。以前都用htmlparser來(lái)解析網(wǎng)頁(yè),試試這個(gè)東東看看再說(shuō)。
    嘿嘿,不好再回來(lái)踩你。  回復(fù)  更多評(píng)論   

    # re: HtmlCleaner,Html解析專家 2008-07-17 12:20 隔葉黃鶯

    以前用 htmlparser 就是碰到大部分都是不規(guī)則的 html 代碼,有些沒(méi)轍,這下好了,來(lái)了個(gè)新的搭檔,估計(jì)那些問(wèn)題都好解決了,標(biāo)個(gè)記,以后需要用到時(shí)再回來(lái)。  回復(fù)  更多評(píng)論   

    # re: HtmlCleaner,Html解析專家 2008-07-17 12:42 很暴力

    建議你的javaread.com上面加個(gè)rss,東西不錯(cuò),我想訂閱下,無(wú)奈找不到rss訂閱地址啊。  回復(fù)  更多評(píng)論   

    # re: HtmlCleaner,Html解析專家[未登錄](méi) 2010-04-14 18:53 小毅

    請(qǐng)問(wèn)htmlCleaner 可以模擬 通過(guò)用戶名和密碼來(lái)登錄么?驗(yàn)證碼又怎么處理?  回復(fù)  更多評(píng)論   


    只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。


    網(wǎng)站導(dǎo)航:
     

    導(dǎo)航

    統(tǒng)計(jì)

    常用鏈接

    留言簿(3)

    隨筆檔案

    Java

    友情鏈接

    搜索

    最新評(píng)論

    閱讀排行榜

    評(píng)論排行榜

    主站蜘蛛池模板: 亚洲av无码国产精品色午夜字幕| 亚洲黄色免费网址| 国产免费啪嗒啪嗒视频看看| 亚洲免费福利在线视频| 在线a级毛片免费视频| 亚洲午夜国产精品| 久久久久久久久免费看无码| jiz zz在亚洲| 国产一级一片免费播放| 亚洲av无码成人精品区一本二本 | 五月天婷亚洲天综合网精品偷| 亚洲AV第一成肉网| 免费一级e一片在线播放| a级毛片免费观看在线| 亚洲国产AV无码专区亚洲AV| 成人电影在线免费观看| 无码乱人伦一区二区亚洲一| 亚洲精品视频在线免费| 亚洲老熟女五十路老熟女bbw| 国产精品久久香蕉免费播放| 无码日韩人妻AV一区免费l | 久久经典免费视频| 亚洲色大成网站www久久九 | 亚洲AV人无码综合在线观看| 足恋玩丝袜脚视频免费网站| 亚洲午夜理论片在线观看| 亚洲成AⅤ人影院在线观看| 中文字幕免费在线看线人动作大片| 久久亚洲高清观看| 一二三四免费观看在线视频中文版| 亚洲大码熟女在线观看| 国产亚洲精aa成人网站| 久久免费看黄a级毛片| 国产精品久久久久久亚洲小说| 亚洲无线码一区二区三区| 国产成人无码免费看视频软件 | 国产AV无码专区亚洲AV麻豆丫| 中文字幕亚洲一区| 手机看黄av免费网址| 免费无遮挡无遮羞在线看| 日韩亚洲Av人人夜夜澡人人爽|