我的BT下載實(shí)驗(yàn)室
姚明的NBA
BT下載
小說520
常用鏈接
我的隨筆
我的評論
我的參與
最新評論
留言簿
(3)
給我留言
查看公開留言
查看私人留言
隨筆檔案
(28)
2008年9月 (1)
2008年8月 (2)
2008年7月 (6)
2008年6月 (4)
2008年5月 (7)
2008年4月 (1)
2008年1月 (4)
2006年6月 (3)
文章檔案
(1)
2008年1月 (1)
我最愛的網(wǎng)站
BT
bt精靈
bt精靈,比特精靈
NBA中文網(wǎng)
NBA中文網(wǎng)|NBA直播|NBA視頻|NBA2008|科比|NBA火箭隊(duì)|NBA湖人隊(duì)|NBA球星|NBA賽程
NBA中文網(wǎng)
這個(gè)網(wǎng)站是我自己做的.呵呵.
北京歡迎你
北京歡迎你,是北京歡迎你這首歌
小說520網(wǎng)
小說,小說520網(wǎng)
最新電影網(wǎng)
最新電影網(wǎng),最新電影網(wǎng),最新電影網(wǎng)
搜索
最新評論
1.?re: 通過JOX輕松實(shí)現(xiàn)JavaBeans與XML的相互轉(zhuǎn)換 [未登錄]
542728579@qq.com
--熊貓
2.?re: 如何把Hibernate2.1升級到Hibernate3.0? [未登錄]
我了你個(gè)去哦!這個(gè)...
--cloud
3.?re: 用freemarker生成靜態(tài)頁面
13366630368@163.com
--王健
4.?re: 用freemarker生成靜態(tài)頁面
mahui1980a@163.com
謝謝??!
--馬輝
5.?re: 用freemarker生成靜態(tài)頁面
quickbomber@gmail.com
3Q~
--Hello
閱讀排行榜
1.?如何分析網(wǎng)頁-----使用HtmlParser(1)(4870)
2.?HttpClient的使用(4400)
3.?用freemarker生成靜態(tài)頁面(3997)
4.?修正版 瘋狂代碼 寫給WEB2.0的站長(3993)
5.?Web cache 說明[翻譯](3681)
評論排行榜
1.?用freemarker生成靜態(tài)頁面(48)
2.?修正版 瘋狂代碼 寫給WEB2.0的站長(12)
3.?測試網(wǎng)站性能的30款免費(fèi)在線工具(11)
4.?通過JOX輕松實(shí)現(xiàn)JavaBeans與XML的相互轉(zhuǎn)換 (10)
5.?轉(zhuǎn)帖:360可以為了錢淪為流氓軟件,程序員的我不行!(10)
Powered by:
博客園
模板提供:
滬江博客
BlogJava
|
首頁
|
發(fā)新隨筆
|
發(fā)新文章
|
聯(lián)系
|
聚合
|
管理
通過htmlParser抓取百度相關(guān)內(nèi)容
最近這兩天我做了個(gè)
最新電影網(wǎng)
的視頻網(wǎng)站,主要是從土豆抓取來的.所以
內(nèi)容頁
就是框架,不便于搜索的抓取。所以我就想加些相關(guān)內(nèi)容,像這樣的
內(nèi)容
由于我就是通過百度搜索關(guān)鍵字來填充內(nèi)容。下面就是我通過htmlParser抓取的代碼。
public
class
BaiduResultAction
extends
BaseAction
{
public
static
final
Logger logger
=
Logger
.getLogger(BaiduResultAction.
class
);
/** */
/**
* 組裝新聞
*
*
@param
url
*
@return
*/
public
String compNews(String url)
{
String returnContent
=
null
;
try
{
ParserModel parserModel
=
new
ParserModel();
//
table 的抓取標(biāo)簽
String content
=
"
border=\
"
0
\
"
cellpadding=\
"
0
\
"
cellspacing=\
"
0
\
""
;
parserModel.setContent(content);
NodeClassNameFilter contentNodeClassNameFilter
=
new
NodeClassNameFilter(
TableTag.
class
, parserModel);
NodeList contentList
=
getAllNodeList(url,
contentNodeClassNameFilter);
//
對table的處理 只取第一個(gè)table中的一項(xiàng)記錄
//
如果全部抓取內(nèi)容,則要去掉最后一個(gè)break;
for
(
int
i
=
1
; i
<
contentList.size(); i
++
)
{
if
(contentList.elementAt(i)
instanceof
TableTag)
{
TableTag tableContent
=
(TableTag) contentList
.elementAt(i);
int
rowCount
=
tableContent.getRowCount();
TableRow[] arrRows
=
tableContent.getRows();
for
(
int
j
=
0
; j
<
arrRows.length; j
++
)
{
TableRow tableRow
=
arrRows[j];
TableColumn[] arrColumm
=
tableRow.getColumns();
for
(
int
k
=
0
; k
<
arrColumm.length; k
++
)
{
String columContent
=
arrColumm[k].toHtml();
if
(columContent
!=
null
)
{
String[] split
=
columContent.split(
"
<br>
"
);
if
(split.length
>
2
)
returnContent
=
split[
1
].substring(
0
,split[
1
].length()
-
4
);
}
break
;
}
}
}
break
;
}
}
catch
(IllegalArgumentException e)
{
//
TODO Auto-generated catch block
e.printStackTrace();
return
null
;
}
catch
(Exception e)
{
//
TODO Auto-generated catch block
e.printStackTrace();
}
return
returnContent;
}
public
static
void
main(String[] args)
throws
Exception
{
BaiduResultAction action
=
new
BaiduResultAction();
//
抓取sohu的內(nèi)容.通過百度
String url
=
"
http://www.baidu.com/s?wd=%BA%DA%BF%CD%B5%DB%B9%FAII+11%28112%29++site%3Asohu.com
"
;
//
String url = "
http://bbs.hoopchina.com/htm_data/96/0712/274754.html
";
//
List<String> hrefList = sinaAction.parseLink(url, getIndexFilter());
/**/
/*
logger.debug(sinaAction.compNews(url));
*/
action.compNews(url);
}
}
效果如下:http://www.tondou.cn/c/2008-05-12/314146
發(fā)表于 2008-05-12 22:00
BT下載與小說520
閱讀(1969)
評論(6)
編輯
收藏
評論
#
re: 通過htmlParser抓取百度相關(guān)內(nèi)容
回復(fù)
更多評論
good....
ci
評論于 2008-05-12 22:15
#
re: 通過htmlParser抓取百度相關(guān)內(nèi)容
回復(fù)
更多評論
有沒有源碼參考一下呀?ParserModel,NodeClassNameFilter這兩個(gè)類都是自定義的嗎?我用的類包是這里面的:htmlparser1_6_20060610
晚秋
評論于 2008-05-13 15:57
#
re: 通過htmlParser抓取百度相關(guān)內(nèi)容
回復(fù)
更多評論
@晚秋
是自定義的.看你網(wǎng)名好像是女性哦.
王能
評論于 2008-05-13 16:17
#
re: 通過htmlParser抓取百度相關(guān)內(nèi)容
回復(fù)
更多評論
呵呵,有沒有源碼呀?xiaoqiu369@hotmail.com.發(fā)一份可以嗎?
晚秋
評論于 2008-05-13 16:54
#
re: 通過htmlParser抓取百度相關(guān)內(nèi)容
回復(fù)
更多評論
我貼的就是原代碼啊.
王能
評論于 2008-05-13 17:17
#
re: 通過htmlParser抓取百度相關(guān)內(nèi)容
回復(fù)
更多評論
有沒有源碼參考一下呀?ParserModel,NodeClassNameFilter這兩個(gè)類都是自定義的嗎?
liupishan@sina.com
評論于 2009-03-17 20:07
新用戶注冊
刷新評論列表
只有注冊用戶
登錄
后才能發(fā)表評論。
網(wǎng)站導(dǎo)航:
博客園
IT新聞
Chat2DB
C++博客
博問
管理
主站蜘蛛池模板:
亚洲国产精品无码久久九九大片
|
91亚洲国产成人久久精品网站
|
久久精品亚洲AV久久久无码
|
4399影视免费观看高清直播
|
老司机亚洲精品影院无码
|
亚洲短视频男人的影院
|
在线观看免费黄色网址
|
久久久久久亚洲av成人无码国产
|
热99RE久久精品这里都是精品免费
|
中文字幕亚洲无线码
|
三年片在线观看免费西瓜视频
|
亚洲日本乱码在线观看
|
日本免费一区二区久久人人澡
|
无码乱人伦一区二区亚洲
|
老汉精品免费AV在线播放
|
亚洲国产美女视频
|
成年轻人网站色免费看
|
婷婷国产偷v国产偷v亚洲
|
区三区激情福利综合中文字幕在线一区亚洲视频1
|
国产亚洲精品美女久久久久
|
国产jizzjizz免费视频
|
caoporm超免费公开视频
|
中文字幕人成人乱码亚洲电影
|
免费观看成人久久网免费观看
|
久久精品国产亚洲av麻豆色欲
|
亚洲免费人成视频观看
|
亚洲中文字幕一区精品自拍
|
免费99热在线观看
|
在线观看片免费人成视频无码
|
亚洲精品日韩专区silk
|
韩国欧洲一级毛片免费
|
A级毛片成人网站免费看
|
亚洲日本在线播放
|
四虎国产精品免费视
|
免费观看成人久久网免费观看
|
亚洲综合色区中文字幕
|
日韩精品成人亚洲专区
|
免费人成在线观看网站品爱网
|
久久综合久久综合亚洲
|
国产成人亚洲精品狼色在线
|
日韩精品福利片午夜免费观着
|