地獄男爵之博客無(wú)限
BlogJava
首頁(yè)
新隨筆
聯(lián)系
聚合
管理
posts - 33, comments - 70, trackbacks - 0
HTMLParser屬性解析
HTMLParser 1.6
/*
html : html內(nèi)容
identifier: 搜索標(biāo)識(shí)
*/
private
?Object[]?extractText(String?html,?String?identifier)
????????????
throws
?Exception?
{
????????List
<
String
>
?resultTextList?
=
?
new
?ArrayList
<
String
>
();
????????Parser?parser?
=
?
new
?Parser();
????????parser.setInputHTML(html);
????????NodeFilter?filter?
=
?
new
?HasAttributeFilter(
"
class
"
,?identifier);
?/* NodeFilter?filter 就是要解析的過(guò)濾器,實(shí)現(xiàn)有好多種,我采用的屬性過(guò)濾,其他more api*/
????????NodeList?nodeList?
=
?parser.extractAllNodesThatMatch(filter);
/*
extractAllNodesThatAre(class)已經(jīng)不被推薦使用,在1.6版本中,我感到更加體形了靈活性.更好的適用了自定義的tag
*/
????????
if
?(nodeList?
==
?
null
)
????????????
return
?
null
;
????????
if
(nodeList.size()?
==
?
0
)
????????????
return
?
null
;
????????
//
?System.out.println("start?==============?,size?=?"
????????
//
?+?nodeList.size());
????????Node[]?nodes?
=
?nodeList.toNodeArray();
????????String?line?
=
?
""
;
????????
for
?(
int
?i?
=
?
0
;?i?
<
?nodes.length;?i
++
)?
{
????????????Node?node?
=
?nodes[i];???/*得到所以符合的節(jié)點(diǎn),類型化做對(duì)應(yīng)的標(biāo)簽類*/
????????
if
?(node?
instanceof
?Span)?
{
????????????????Span?spanTag?
=
?(Span)?node;
????????????????line?
=
?spanTag.toPlainTextString();
????????????}
?
else
?
if
?(node?
instanceof
?TableColumn)?
{
????????????????TableColumn?tableTag?
=
?(TableColumn)?node;
????????????????line?
=
?tableTag.toPlainTextString();
????????????}
?
else
?
if
?(node?
instanceof
?Div)?
{
????????????????Div?divTag?
=
?(Div)?node;
????????????????line?
=
?divTag.toPlainTextString();
????????????}
????????????
if
?(StringUtil.isTrimEmpty(line))
{
????????????????
continue
;
????????????}
else
{
????????????????resultTextList.add(line);
????????????}
????????????
????????}
????????
return
?resultTextList.toArray();
????}
StringUtil 常用類
/**?*/
/**
?????*?去掉左右空格后字符串是否為空
?????
*/
????
public
?
static
?
boolean
?isTrimEmpty(String?astr)
????
{
????????
if
?((
null
?
==
?astr)?
||
?(astr.length()?
==
?
0
))
????????
{
????????????
return
?
true
;
????????}
????????
if
?(isBlank(astr.trim()))
????????
{
????????????
return
?
true
;
????????}
????????
return
?
false
;
????}
????
/**?*/
/**
?????*?字符串是否為空:null或者長(zhǎng)度為0.
?????
*/
????
public
?
static
?
boolean
?isBlank(String?astr)
????
{
????????
if
?((
null
?
==
?astr)?
||
?(astr.length()?
==
?
0
))
????????
{
????????????
return
?
true
;
????????}
????????
else
????????
{
????????????
return
?
false
;
????????}
????}
posted on 2006-05-22 17:30
地獄男爵(hellboys)
閱讀(2899)
評(píng)論(1)
編輯
收藏
所屬分類:
編程語(yǔ)言(c/c++ java python sql ......)
FeedBack:
#
re: HTMLParser屬性解析
2006-06-02 21:45 |
libby
想請(qǐng)教作者,可能是由于html的語(yǔ)法不規(guī)范所至,我用Htmlparser分析html文檔出現(xiàn)錯(cuò)誤,像普通的Html文檔其結(jié)束標(biāo)記如果存在重復(fù),一般不予理睬,可是在用Htmlparser其會(huì)進(jìn)行處理,往往會(huì)引起一些顯示問(wèn)題.
我想利用htmlparser分析html頁(yè)面,生成一棵樹(shù),感覺(jué)不應(yīng)該出現(xiàn)的錯(cuò)誤卻出現(xiàn)了.
作者可否跟俺取得聯(lián)系,我想同你討論一下.俺郵箱是:libby22@sohu.com或者M(jìn)SN:libby22@hotmail.com
著急,謝謝!
回復(fù)
更多評(píng)論
新用戶注冊(cè)
刷新評(píng)論列表
只有注冊(cè)用戶
登錄
后才能發(fā)表評(píng)論。
網(wǎng)站導(dǎo)航:
博客園
IT新聞
Chat2DB
C++博客
博問(wèn)
管理
相關(guān)文章:
優(yōu)化MySQL數(shù)據(jù)庫(kù)性能的八種方法
ActiveMQ4.1 +Spring2.0的POJO JMS方案 擴(kuò)展,以更加實(shí)用(基于ss).二
ActiveMQ4.1 +Spring2.0的POJO JMS方案 擴(kuò)展,以更加實(shí)用(基于ss)
compass 中使用annatation 簡(jiǎn)化配置
Compass - springside 中的應(yīng)用
HTMLParser屬性解析
使用Lucene建立自己的搜索引擎初步(轉(zhuǎn))
Copyright ©2025 地獄男爵(hellboys) Powered By:
博客園
模板提供:
滬江博客
<
2006年5月
>
日
一
二
三
四
五
六
30
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
6
7
8
9
10
常用鏈接
我的隨筆
我的評(píng)論
我的參與
最新評(píng)論
隨筆分類
bash
vim(1)
系統(tǒng)綜合(12)
編程語(yǔ)言(c/c++ java python sql ......)(7)
隨筆(6)
隨筆檔案
2010年11月 (1)
2009年3月 (2)
2008年12月 (1)
2008年11月 (1)
2008年6月 (1)
2007年12月 (1)
2007年11月 (1)
2007年4月 (2)
2007年3月 (1)
2006年11月 (1)
2006年10月 (1)
2006年9月 (2)
2006年8月 (1)
2006年7月 (2)
2006年6月 (6)
2006年5月 (3)
2006年4月 (5)
2006年3月 (1)
文章檔案
2005年12月 (1)
相冊(cè)
SARA--以后LP的標(biāo)準(zhǔn)?
恍惚的美麗(2007年的五一)
連接
差沙
我以前blog地址
聰明的豬(cleverpig)
最新隨筆
1.?Open MacVim tabs from command-line
2.?優(yōu)化MySQL數(shù)據(jù)庫(kù)性能的八種方法
3.?Hadoop分布式文件系統(tǒng)(HDFS)的安全隱患
4.?sssh v2.0 - 快速 ssh 登陸腳本
5.?mod_python在 RHEL/CentOs 64 位編譯上的問(wèn)題
6.?我想應(yīng)聘中國(guó)男子國(guó)家足球隊(duì)主教練一職
7.?Android中文文檔v0.1 beta低調(diào)發(fā)布,期待更多同學(xué)來(lái)參加review
8.?歡迎訪問(wèn)Android中國(guó)
9.?ActiveMQ4.1 +Spring2.0的POJO JMS方案 擴(kuò)展,以更加實(shí)用(基于ss).二
10.?ActiveMQ4.1 +Spring2.0的POJO JMS方案 擴(kuò)展,以更加實(shí)用(基于ss)
搜索
最新評(píng)論
1.?re: Mysql 集群簡(jiǎn)介和配置[未登錄](méi)
@dustin
動(dòng)不動(dòng)就說(shuō)不穩(wěn)定,人家島國(guó)的有個(gè)很大很大的社交網(wǎng)站就是這么搞的。你有啥子證據(jù)說(shuō)不穩(wěn)定,服了你。
--菜鳥(niǎo)
2.?re: 約瑟夫環(huán)算法(循環(huán)鏈表解決)
評(píng)論內(nèi)容較長(zhǎng),點(diǎn)擊標(biāo)題查看
--527055685@qq.com
3.?re: 約瑟夫環(huán)算法(循環(huán)鏈表解決)[未登錄](méi)
@huchuhan
看不懂
!
--Sky
4.?re: Mysql 集群簡(jiǎn)介和配置
評(píng)論內(nèi)容較長(zhǎng),點(diǎn)擊標(biāo)題查看
--tmeper
5.?re: 約瑟夫環(huán)算法(循環(huán)鏈表解決)
哥們啥是鏈表?
--huchuhan
閱讀排行榜
1.?Mysql 集群簡(jiǎn)介和配置(61959)
2.?約瑟夫環(huán)算法(循環(huán)鏈表解決)(13327)
3.?妙解網(wǎng)絡(luò)多臺(tái)dhcp引起的IP沖突 (5880)
4.?Compass - springside 中的應(yīng)用(5419)
5.?mod_python在 RHEL/CentOs 64 位編譯上的問(wèn)題(3649)
評(píng)論排行榜
1.?約瑟夫環(huán)算法(循環(huán)鏈表解決)(19)
2.?Compass - springside 中的應(yīng)用(18)
3.?Mysql 集群簡(jiǎn)介和配置(7)
4.?不要一輩子靠技術(shù)生存(7)
5.?我想應(yīng)聘中國(guó)男子國(guó)家足球隊(duì)主教練一職(5)
主站蜘蛛池模板:
100部毛片免费全部播放完整
|
亚洲A∨午夜成人片精品网站
|
亚洲av中文无码乱人伦在线播放
|
亚洲欭美日韩颜射在线二
|
337P日本欧洲亚洲大胆艺术图
|
福利免费在线观看
|
久久亚洲欧洲国产综合
|
丰满少妇作爱视频免费观看
|
大胆亚洲人体视频
|
久草免费福利在线
|
亚洲国产精品无码久久久秋霞2
|
A级毛片高清免费视频在线播放
|
亚洲av无码不卡一区二区三区
|
无码成A毛片免费
|
亚洲av片不卡无码久久
|
在线a毛片免费视频观看
|
国产精品观看在线亚洲人成网
|
亚洲日韩在线观看免费视频
|
99在线免费观看
|
亚洲色偷偷av男人的天堂
|
毛片免费vip会员在线看
|
国产精品亚洲精品久久精品
|
久久99亚洲综合精品首页
|
国产精品免费一区二区三区四区
|
亚洲国产综合AV在线观看
|
免费又黄又爽又猛的毛片
|
色在线亚洲视频www
|
国产在线a不卡免费视频
|
国产真人无码作爱免费视频
|
亚洲精品高清国产麻豆专区
|
波多野结衣免费一区视频
|
亚洲免费在线视频播放
|
国产大片免费观看中文字幕
|
免费看少妇高潮成人片
|
亚洲丰满熟女一区二区v
|
免费一级e一片在线播放
|
**aaaaa毛片免费同男同女
|
色窝窝亚洲AV网在线观看
|
亚洲av午夜成人片精品网站
|
成人毛片18女人毛片免费96
|
一级毛片a女人刺激视频免费
|