地獄男爵之博客無限
BlogJava
首頁
新隨筆
聯(lián)系
聚合
管理
posts - 33, comments - 70, trackbacks - 0
HTMLParser屬性解析
HTMLParser 1.6
/*
html : html內(nèi)容
identifier: 搜索標(biāo)識(shí)
*/
private
?Object[]?extractText(String?html,?String?identifier)
????????????
throws
?Exception?
{
????????List
<
String
>
?resultTextList?
=
?
new
?ArrayList
<
String
>
();
????????Parser?parser?
=
?
new
?Parser();
????????parser.setInputHTML(html);
????????NodeFilter?filter?
=
?
new
?HasAttributeFilter(
"
class
"
,?identifier);
?/* NodeFilter?filter 就是要解析的過濾器,實(shí)現(xiàn)有好多種,我采用的屬性過濾,其他more api*/
????????NodeList?nodeList?
=
?parser.extractAllNodesThatMatch(filter);
/*
extractAllNodesThatAre(class)已經(jīng)不被推薦使用,在1.6版本中,我感到更加體形了靈活性.更好的適用了自定義的tag
*/
????????
if
?(nodeList?
==
?
null
)
????????????
return
?
null
;
????????
if
(nodeList.size()?
==
?
0
)
????????????
return
?
null
;
????????
//
?System.out.println("start?==============?,size?=?"
????????
//
?+?nodeList.size());
????????Node[]?nodes?
=
?nodeList.toNodeArray();
????????String?line?
=
?
""
;
????????
for
?(
int
?i?
=
?
0
;?i?
<
?nodes.length;?i
++
)?
{
????????????Node?node?
=
?nodes[i];???/*得到所以符合的節(jié)點(diǎn),類型化做對(duì)應(yīng)的標(biāo)簽類*/
????????
if
?(node?
instanceof
?Span)?
{
????????????????Span?spanTag?
=
?(Span)?node;
????????????????line?
=
?spanTag.toPlainTextString();
????????????}
?
else
?
if
?(node?
instanceof
?TableColumn)?
{
????????????????TableColumn?tableTag?
=
?(TableColumn)?node;
????????????????line?
=
?tableTag.toPlainTextString();
????????????}
?
else
?
if
?(node?
instanceof
?Div)?
{
????????????????Div?divTag?
=
?(Div)?node;
????????????????line?
=
?divTag.toPlainTextString();
????????????}
????????????
if
?(StringUtil.isTrimEmpty(line))
{
????????????????
continue
;
????????????}
else
{
????????????????resultTextList.add(line);
????????????}
????????????
????????}
????????
return
?resultTextList.toArray();
????}
StringUtil 常用類
/**?*/
/**
?????*?去掉左右空格后字符串是否為空
?????
*/
????
public
?
static
?
boolean
?isTrimEmpty(String?astr)
????
{
????????
if
?((
null
?
==
?astr)?
||
?(astr.length()?
==
?
0
))
????????
{
????????????
return
?
true
;
????????}
????????
if
?(isBlank(astr.trim()))
????????
{
????????????
return
?
true
;
????????}
????????
return
?
false
;
????}
????
/**?*/
/**
?????*?字符串是否為空:null或者長(zhǎng)度為0.
?????
*/
????
public
?
static
?
boolean
?isBlank(String?astr)
????
{
????????
if
?((
null
?
==
?astr)?
||
?(astr.length()?
==
?
0
))
????????
{
????????????
return
?
true
;
????????}
????????
else
????????
{
????????????
return
?
false
;
????????}
????}
posted on 2006-05-22 17:30
地獄男爵(hellboys)
閱讀(2899)
評(píng)論(1)
編輯
收藏
所屬分類:
編程語言(c/c++ java python sql ......)
FeedBack:
#
re: HTMLParser屬性解析
2006-06-02 21:45 |
libby
想請(qǐng)教作者,可能是由于html的語法不規(guī)范所至,我用Htmlparser分析html文檔出現(xiàn)錯(cuò)誤,像普通的Html文檔其結(jié)束標(biāo)記如果存在重復(fù),一般不予理睬,可是在用Htmlparser其會(huì)進(jìn)行處理,往往會(huì)引起一些顯示問題.
我想利用htmlparser分析html頁面,生成一棵樹,感覺不應(yīng)該出現(xiàn)的錯(cuò)誤卻出現(xiàn)了.
作者可否跟俺取得聯(lián)系,我想同你討論一下.俺郵箱是:libby22@sohu.com或者M(jìn)SN:libby22@hotmail.com
著急,謝謝!
回復(fù)
更多評(píng)論
新用戶注冊(cè)
刷新評(píng)論列表
只有注冊(cè)用戶
登錄
后才能發(fā)表評(píng)論。
網(wǎng)站導(dǎo)航:
博客園
IT新聞
Chat2DB
C++博客
博問
管理
相關(guān)文章:
優(yōu)化MySQL數(shù)據(jù)庫性能的八種方法
ActiveMQ4.1 +Spring2.0的POJO JMS方案 擴(kuò)展,以更加實(shí)用(基于ss).二
ActiveMQ4.1 +Spring2.0的POJO JMS方案 擴(kuò)展,以更加實(shí)用(基于ss)
compass 中使用annatation 簡(jiǎn)化配置
Compass - springside 中的應(yīng)用
HTMLParser屬性解析
使用Lucene建立自己的搜索引擎初步(轉(zhuǎn))
Copyright ©2025 地獄男爵(hellboys) Powered By:
博客園
模板提供:
滬江博客
<
2006年5月
>
日
一
二
三
四
五
六
30
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
6
7
8
9
10
常用鏈接
我的隨筆
我的評(píng)論
我的參與
最新評(píng)論
隨筆分類
bash
vim(1)
系統(tǒng)綜合(12)
編程語言(c/c++ java python sql ......)(7)
隨筆(6)
隨筆檔案
2010年11月 (1)
2009年3月 (2)
2008年12月 (1)
2008年11月 (1)
2008年6月 (1)
2007年12月 (1)
2007年11月 (1)
2007年4月 (2)
2007年3月 (1)
2006年11月 (1)
2006年10月 (1)
2006年9月 (2)
2006年8月 (1)
2006年7月 (2)
2006年6月 (6)
2006年5月 (3)
2006年4月 (5)
2006年3月 (1)
文章檔案
2005年12月 (1)
相冊(cè)
SARA--以后LP的標(biāo)準(zhǔn)?
恍惚的美麗(2007年的五一)
連接
差沙
我以前blog地址
聰明的豬(cleverpig)
最新隨筆
1.?Open MacVim tabs from command-line
2.?優(yōu)化MySQL數(shù)據(jù)庫性能的八種方法
3.?Hadoop分布式文件系統(tǒng)(HDFS)的安全隱患
4.?sssh v2.0 - 快速 ssh 登陸腳本
5.?mod_python在 RHEL/CentOs 64 位編譯上的問題
6.?我想應(yīng)聘中國(guó)男子國(guó)家足球隊(duì)主教練一職
7.?Android中文文檔v0.1 beta低調(diào)發(fā)布,期待更多同學(xué)來參加review
8.?歡迎訪問Android中國(guó)
9.?ActiveMQ4.1 +Spring2.0的POJO JMS方案 擴(kuò)展,以更加實(shí)用(基于ss).二
10.?ActiveMQ4.1 +Spring2.0的POJO JMS方案 擴(kuò)展,以更加實(shí)用(基于ss)
搜索
最新評(píng)論
1.?re: Mysql 集群簡(jiǎn)介和配置[未登錄]
@dustin
動(dòng)不動(dòng)就說不穩(wěn)定,人家島國(guó)的有個(gè)很大很大的社交網(wǎng)站就是這么搞的。你有啥子證據(jù)說不穩(wěn)定,服了你。
--菜鳥
2.?re: 約瑟夫環(huán)算法(循環(huán)鏈表解決)
評(píng)論內(nèi)容較長(zhǎng),點(diǎn)擊標(biāo)題查看
--527055685@qq.com
3.?re: 約瑟夫環(huán)算法(循環(huán)鏈表解決)[未登錄]
@huchuhan
看不懂
!
--Sky
4.?re: Mysql 集群簡(jiǎn)介和配置
評(píng)論內(nèi)容較長(zhǎng),點(diǎn)擊標(biāo)題查看
--tmeper
5.?re: 約瑟夫環(huán)算法(循環(huán)鏈表解決)
哥們啥是鏈表?
--huchuhan
閱讀排行榜
1.?Mysql 集群簡(jiǎn)介和配置(61960)
2.?約瑟夫環(huán)算法(循環(huán)鏈表解決)(13327)
3.?妙解網(wǎng)絡(luò)多臺(tái)dhcp引起的IP沖突 (5882)
4.?Compass - springside 中的應(yīng)用(5419)
5.?mod_python在 RHEL/CentOs 64 位編譯上的問題(3650)
評(píng)論排行榜
1.?約瑟夫環(huán)算法(循環(huán)鏈表解決)(19)
2.?Compass - springside 中的應(yīng)用(18)
3.?Mysql 集群簡(jiǎn)介和配置(7)
4.?不要一輩子靠技術(shù)生存(7)
5.?我想應(yīng)聘中國(guó)男子國(guó)家足球隊(duì)主教練一職(5)
主站蜘蛛池模板:
国产精品亚洲专区无码WEB
|
亚洲小视频在线播放
|
国产精品亚洲综合一区在线观看
|
成年在线观看网站免费
|
亚洲成年人电影网站
|
www视频免费看
|
亚洲综合一区国产精品
|
在线日韩av永久免费观看
|
99亚洲乱人伦aⅴ精品
|
免费毛片在线视频
|
老司机精品视频免费
|
亚洲一区二区高清
|
中文字幕不卡免费高清视频
|
亚洲精品乱码久久久久久久久久久久
|
最近的2019免费中文字幕
|
亚洲Av综合色区无码专区桃色
|
91福利免费体验区观看区
|
亚洲日韩乱码中文无码蜜桃
|
性xxxx视频播放免费
|
色视频在线观看免费
|
亚洲日产无码中文字幕
|
久久大香伊焦在人线免费
|
亚洲午夜电影在线观看
|
日韩免费毛片视频
|
美女巨胸喷奶水视频www免费
|
久久久久亚洲精品无码系列
|
两个人的视频高清在线观看免费
|
亚洲av无码日韩av无码网站冲
|
久久久久亚洲AV成人网
|
日本最新免费网站
|
免费无码国产在线观国内自拍中文字幕
|
浮力影院亚洲国产第一页
|
久草视频免费在线
|
特级毛片全部免费播放
|
亚洲AV日韩AV天堂一区二区三区
|
91嫩草国产在线观看免费
|
九九免费久久这里有精品23
|
久久亚洲sm情趣捆绑调教
|
91香蕉国产线在线观看免费
|
中国china体内裑精亚洲日本
|
精品国产人成亚洲区
|