<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    我的蛋殼

    倡導(dǎo)自由、開放、分享的Java技術(shù)社區(qū) http://www.javaread.com

     

    HtmlCleaner,Html解析專家


    通?;ヂ?lián)網(wǎng)上的HTML頁面都是不規(guī)則的,非結(jié)構(gòu)化的頁面。如果我們需要訪問或者抽取里面的內(nèi)容的話,我們需要分析HTML頁面,去除垃圾。
    而最近新發(fā)布的 HtmlCleaner 就是這樣一個(gè)工具. 能夠幫助我們將HTML 文檔 轉(zhuǎn)化為結(jié)構(gòu)化的XML文檔。雖然目前已經(jīng)有了類似這樣的工具,但是HtmlCleaner 能夠完成幾乎所有的HTML轉(zhuǎn)換,而且不到30k,這是他們值得稱道的地方。

    HtmlCleaner是一個(gè)開源的Html文檔解析器。HtmlCleaner能夠安全的解析和轉(zhuǎn)換web上的HTML到標(biāo)準(zhǔn)的XML,重新排序每個(gè)元素,然后生成結(jié)構(gòu)良好(Well-Formed)XML文檔。默認(rèn)它遵循的規(guī)則是類似于大部份web瀏覽器為創(chuàng)文檔對象模型所使用的規(guī)則。然后,用戶可以提供自定義tag和規(guī)則組來進(jìn)行過濾和匹配。它被設(shè)計(jì)的小,快速,靈活而且獨(dú)立。HtmlCleaner也可用在Java代碼中,當(dāng)命令行工具或Ant任務(wù)。 解析后編程輕量級文檔對象,能夠很容易的被轉(zhuǎn)換到DOM或者JDom標(biāo)準(zhǔn)文檔,或者通過各種方式(壓縮,打印)連續(xù)輸出XML。

    新版本的重要功能更新包括:
    1.HtmlCleaner的文檔對象模型現(xiàn)在擁有了一些函數(shù),處理節(jié)點(diǎn)和屬性,所以現(xiàn)在在序列化之前搜索或者編輯是非常容易的。
    2.提供基本HtmlCleaner DOMXPath支持
    3.使用XML配置溫江讓創(chuàng)建定制tag變得更加容易
    4.修復(fù)多個(gè)bug以及API改進(jìn)

    更多詳細(xì)信息:HTML Parser工具HtmlCleaner 2.0發(fā)布



    本文作者:javaread.com

    posted on 2008-07-17 10:06 javaread.com 閱讀(4125) 評論(6)  編輯  收藏

    評論

    # re: HtmlCleaner,Html解析專家 2008-07-17 10:51 大水牛

    昨天試了,感覺還不錯(cuò)  回復(fù)  更多評論   

    # re: HtmlCleaner,Html解析專家 2008-07-17 11:25 BeanSoft

    呵呵 就知道把鏈接都鏈到你的網(wǎng)站去 變相廣告太多了就不太好了  回復(fù)  更多評論   

    # re: HtmlCleaner,Html解析專家 2008-07-17 11:40 kenlee14

    我可不管那么多,內(nèi)容對我有用就行了。以前都用htmlparser來解析網(wǎng)頁,試試這個(gè)東東看看再說。
    嘿嘿,不好再回來踩你。  回復(fù)  更多評論   

    # re: HtmlCleaner,Html解析專家 2008-07-17 12:20 隔葉黃鶯

    以前用 htmlparser 就是碰到大部分都是不規(guī)則的 html 代碼,有些沒轍,這下好了,來了個(gè)新的搭檔,估計(jì)那些問題都好解決了,標(biāo)個(gè)記,以后需要用到時(shí)再回來。  回復(fù)  更多評論   

    # re: HtmlCleaner,Html解析專家 2008-07-17 12:42 很暴力

    建議你的javaread.com上面加個(gè)rss,東西不錯(cuò),我想訂閱下,無奈找不到rss訂閱地址啊。  回復(fù)  更多評論   

    # re: HtmlCleaner,Html解析專家[未登錄] 2010-04-14 18:53 小毅

    請問htmlCleaner 可以模擬 通過用戶名和密碼來登錄么?驗(yàn)證碼又怎么處理?  回復(fù)  更多評論   


    只有注冊用戶登錄后才能發(fā)表評論。


    網(wǎng)站導(dǎo)航:
     

    導(dǎo)航

    統(tǒng)計(jì)

    常用鏈接

    留言簿(3)

    隨筆檔案

    Java

    友情鏈接

    搜索

    最新評論

    閱讀排行榜

    評論排行榜

    主站蜘蛛池模板: 成人无码区免费视频观看| 无码日韩精品一区二区三区免费 | 爱爱帝国亚洲一区二区三区| 日本中文字幕免费高清视频| 亚洲成AV人片在线观看无码| a视频免费在线观看| 亚洲中文久久精品无码| baoyu122.永久免费视频| 久久亚洲综合色一区二区三区| a毛看片免费观看视频| 亚洲精品狼友在线播放| 两个人看的www免费| 亚洲bt加勒比一区二区| 久久午夜羞羞影院免费观看| 亚洲色欲www综合网| 成人黄色免费网站| 亚洲熟伦熟女专区hd高清| 午夜私人影院免费体验区| 亚洲成AV人影片在线观看| 亚洲人午夜射精精品日韩| 亚洲免费日韩无码系列| 亚洲AV永久无码精品成人| 99视频免费播放| 亚洲性色精品一区二区在线| 日本无吗免费一二区| 人妻巨大乳hd免费看| 亚洲AV乱码一区二区三区林ゆな| 亚洲视频在线观看免费视频| 久久夜色精品国产噜噜亚洲a| 国产免费一区二区三区VR| av片在线观看永久免费| 久久久亚洲AV波多野结衣 | 免费a级毛片在线观看| 国产成人无码免费看片软件| 亚洲视频2020| 精品免费国产一区二区三区| 黄色网址免费在线观看| 亚洲人成777在线播放| 无码不卡亚洲成?人片| 四虎国产成人永久精品免费| 亚洲欧美日韩国产成人|