有一段時間沒寫博客了,這幾天回到學(xué)校我同學(xué)要趕著交畢業(yè)設(shè)計,讓我?guī)退麑憘€爬蟲,專門抓搜狐的新聞,我用過爬蟲,但是從來沒有自己寫過爬蟲,于是Google了一下,找到了一篇不錯的文章:
使用 HttpClient 和 HtmlParser 實現(xiàn)簡易爬蟲 . 參考里面的代碼,自己寫了個簡易的搜狐新聞爬蟲。
爬蟲的主要工做就是到搜狐的新聞首頁上去抓取新聞,然后將新聞添加到數(shù)據(jù)庫中。
代碼其實很簡單的:
LinkParser.java
import com.sohu.SohuNews;
import java.util.HashSet;
import java.util.Set;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
/**
* 這個類是用來搜集新聞鏈接地址的。將符合正則表達式的URL添加到URL數(shù)組中。
* @author guanminglin
*/
public class LinkParser {
// 獲取一個網(wǎng)站上的鏈接,filter 用來過濾鏈接
public static Set<String> extracLinks(String url, LinkFilter filter) {
Set<String> links = new HashSet<String>();
try {
Parser parser = new Parser(url);
parser.setEncoding("gb2312");
// 過濾 <frame >標簽的 filter,用來提取 frame 標簽里的 src 屬性所表示的鏈接
NodeFilter frameFilter = new NodeFilter() {
public boolean accept(Node node) {
if (node.getText().startsWith("frame src=")) {
return true;
} else {
return false;
}
}
};
// OrFilter 來設(shè)置過濾 <a> 標簽,和 <frame> 標簽
OrFilter linkFilter = new OrFilter(new NodeClassFilter(
LinkTag.class), frameFilter);
// 得到所有經(jīng)過過濾的標簽
NodeList list = parser.extractAllNodesThatMatch(linkFilter);
for (int i = 0; i < list.size(); i++) {
Node tag = list.elementAt(i);
if (tag instanceof LinkTag)// <a> 標簽
{
LinkTag link = (LinkTag) tag;
String linkUrl = link.getLink();// url
if (filter.accept(linkUrl)) {
links.add(linkUrl);
}
} else// <frame> 標簽
{
// 提取 frame 里 src 屬性的鏈接如 <frame src="test.html"/>
String frame = tag.getText();
int start = frame.indexOf("src=");
frame = frame.substring(start);
int end = frame.indexOf(" ");
if (end == -1) {
end = frame.indexOf(">");
}
String frameUrl = frame.substring(5, end - 1);
if (filter.accept(frameUrl)) {
links.add(frameUrl);
}
}
}
} catch (ParserException e) {
e.printStackTrace();
}
return links;
}
public void doParser(String url) {
SohuNews news = new SohuNews();
Set<String> links = LinkParser.extracLinks(
url, new LinkFilter() {
//提取以 http://news.sohu.com 開頭的鏈接
public boolean accept(String url) {
if (url.matches("http://news.sohu.com/[\\d]+/n[\\d]+.shtml")) {
return true;
} else {
return false;
}
}
});
//循環(huán)迭代出連接,然后提取該連接中的新聞。
for (String link : links) {
System.out.println(link);
news.parser(link); //解析連接
}
}
//測試主頁新聞,可以得到主頁上所有符合要求的網(wǎng)頁地址,并進行訪問。
public static void main(String[] args) {
String url = "http://news.sohu.com/";
LinkParser parser = new LinkParser();
parser.doParser(url);
}
}
上面這段帶碼比較簡單,就是用來提取 http://news.sohu.com 上面的新聞連接 ,格式類似這樣:
http://news.sohu.com/20090518/n264012864.shtml
所以寫了一小段的正則表達式來匹配他:
Set<String> links = LinkParser.extracLinks(
url, new LinkFilter() {
//提取以 http://news.sohu.com 開頭的鏈接
public boolean accept(String url) {
if (url.matches("http://news.sohu.com/[\\d]+/n[\\d]+.shtml")) {
return true;
} else {
return false;
}
}
});
還有一個核心類就是用來解析搜狐新聞的類,該類用于重網(wǎng)頁中提取出新聞,然后將新聞添加到數(shù)據(jù)庫中。代碼中還用到了一個NewsBean
這段代碼就不貼出來了,很簡單的POJO 代碼。核心代碼都在下面。
SohuNews.java
import com.sohu.bean.NewsBean;
import com.sohu.db.ConnectionManager;
import java.util.ArrayList;
import java.util.List;
import java.util.logging.Level;
import java.util.logging.Logger;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.beans.StringBean;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.Div;
import org.htmlparser.tags.HeadingTag;
import org.htmlparser.tags.Span;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import java.sql.PreparedStatement;
import java.sql.SQLException;
/**
* 用于對搜狐網(wǎng)站上的新聞進行抓取
* @author guanminglin <guanminglin@gmail.com>
*/
public class SohuNews {
private Parser parser = null; //用于分析網(wǎng)頁的分析器。
private List newsList = new ArrayList(); //暫存新聞的List;
private NewsBean bean = new NewsBean();
private ConnectionManager manager = null; //數(shù)據(jù)庫連接管理器。
private PreparedStatement pstmt = null;
public SohuNews() {
}
/**
* 獲得一條完整的新聞。
* @param newsBean
* @return
*/
public List getNewsList(final NewsBean newsBean) {
List list = new ArrayList();
String newstitle = newsBean.getNewsTitle();
String newsauthor = newsBean.getNewsAuthor();
String newscontent = newsBean.getNewsContent();
String newsdate = newsBean.getNewsDate();
list.add(newstitle);
list.add(newsauthor);
list.add(newscontent);
list.add(newsdate);
return list;
}
/**
* 設(shè)置新聞對象,讓新聞對象里有新聞數(shù)據(jù)
* @param newsTitle 新聞標題
* @param newsauthor 新聞作者
* @param newsContent 新聞內(nèi)容
* @param newsDate 新聞日期
* @param url 新聞鏈接
*/
public void setNews(String newsTitle, String newsauthor, String newsContent, String newsDate, String url) {
bean.setNewsTitle(newsTitle);
bean.setNewsAuthor(newsauthor);
bean.setNewsContent(newsContent);
bean.setNewsDate(newsDate);
bean.setNewsURL(url);
}
/**
* 該方法用于將新聞添加到數(shù)據(jù)庫中。
*/
protected void newsToDataBase() {
//建立一個線程用來執(zhí)行將新聞插入到數(shù)據(jù)庫中。
Thread thread = new Thread(new Runnable() {
public void run() {
boolean sucess = saveToDB(bean);
if (sucess != false) {
System.out.println("插入數(shù)據(jù)失敗");
}
}
});
thread.start();
}
/**
* 將新聞插入到數(shù)據(jù)庫中
* @param bean
* @return
*/
public boolean saveToDB(NewsBean bean) {
boolean flag = true;
String sql = "insert into news(newstitle,newsauthor,newscontent,newsurl,newsdate) values(?,?,?,?,?)";
manager = new ConnectionManager();
String titleLength = bean.getNewsTitle();
if (titleLength.length() > 60) { //標題太長的新聞不要。
return flag;
}
try {
pstmt = manager.getConnection().prepareStatement(sql);
pstmt.setString(1, bean.getNewsTitle());
pstmt.setString(2, bean.getNewsAuthor());
pstmt.setString(3, bean.getNewsContent());
pstmt.setString(4, bean.getNewsURL());
pstmt.setString(5, bean.getNewsDate());
flag = pstmt.execute();
} catch (SQLException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
} finally {
try {
pstmt.close();
manager.close();
} catch (SQLException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
}
}
return flag;
}
/**
* 獲得新聞的標題
* @param titleFilter
* @param parser
* @return
*/
private String getTitle(NodeFilter titleFilter, Parser parser) {
String titleName = "";
try {
NodeList titleNodeList = (NodeList) parser.parse(titleFilter);
for (int i = 0; i < titleNodeList.size(); i++) {
HeadingTag title = (HeadingTag) titleNodeList.elementAt(i);
titleName = title.getStringText();
}
} catch (ParserException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
}
return titleName;
}
/**
* 獲得新聞的責(zé)任編輯,也就是作者。
* @param newsauthorFilter
* @param parser
* @return
*/
private String getNewsAuthor(NodeFilter newsauthorFilter, Parser parser) {
String newsAuthor = "";
try {
NodeList authorList = (NodeList) parser.parse(newsauthorFilter);
for (int i = 0; i < authorList.size(); i++) {
Div authorSpan = (Div) authorList.elementAt(i);
newsAuthor = authorSpan.getStringText();
}
} catch (ParserException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
}
return newsAuthor;
}
/*
* 獲得新聞的日期
*/
private String getNewsDate(NodeFilter dateFilter, Parser parser) {
String newsDate = null;
try {
NodeList dateList = (NodeList) parser.parse(dateFilter);
for (int i = 0; i < dateList.size(); i++) {
Span dateTag = (Span) dateList.elementAt(i);
newsDate = dateTag.getStringText();
}
} catch (ParserException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
}
return newsDate;
}
/**
* 獲取新聞的內(nèi)容
* @param newsContentFilter
* @param parser
* @return content 新聞內(nèi)容
*/
private String getNewsContent(NodeFilter newsContentFilter, Parser parser) {
String content = null;
StringBuilder builder = new StringBuilder();
try {
NodeList newsContentList = (NodeList) parser.parse(newsContentFilter);
for (int i = 0; i < newsContentList.size(); i++) {
Div newsContenTag = (Div) newsContentList.elementAt(i);
builder = builder.append(newsContenTag.getStringText());
}
content = builder.toString(); //轉(zhuǎn)換為String 類型。
if (content != null) {
parser.reset();
parser = Parser.createParser(content, "gb2312");
StringBean sb = new StringBean();
sb.setCollapse(true);
parser.visitAllNodesWith(sb);
content = sb.getStrings();
// String s = "\";} else{ document.getElementById('TurnAD444').innerHTML = \"\";} } showTurnAD444(intTurnAD444); }catch(e){}";
content = content.replaceAll("\\\".*[a-z].*\\}", "");
content = content.replace("[我來說兩句]", "");
} else {
System.out.println("沒有得到新聞內(nèi)容!");
}
} catch (ParserException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
}
return content;
}
/**
* 根據(jù)提供的URL,獲取此URL對應(yīng)網(wǎng)頁所有的純文本信息,次方法得到的信息不是很純,
*常常會得到我們不想要的數(shù)據(jù)。不過如果你只是想得到某個URL 里的所有純文本信息,該方法還是很好用的。
* @param url 提供的URL鏈接
* @return RL對應(yīng)網(wǎng)頁的純文本信息
* @throws ParserException
* @deprecated 該方法被 getNewsContent()替代。
*/
@Deprecated
public String getText(String url) throws ParserException {
StringBean sb = new StringBean();
//設(shè)置不需要得到頁面所包含的鏈接信息
sb.setLinks(false);
//設(shè)置將不間斷空格由正規(guī)空格所替代
sb.setReplaceNonBreakingSpaces(true);
//設(shè)置將一序列空格由一個單一空格所代替
sb.setCollapse(true);
//傳入要解析的URL
sb.setURL(url);
//返回解析后的網(wǎng)頁純文本信息
return sb.getStrings();
}
/**
* 對新聞URL進行解析提取新聞,同時將新聞插入到數(shù)據(jù)庫中。
* @param content
*/
public void parser(String url) {
try {
parser = new Parser(url);
NodeFilter titleFilter = new TagNameFilter("h1");
NodeFilter contentFilter = new AndFilter(new TagNameFilter("div"), new HasAttributeFilter("id", "sohu_content"));
NodeFilter newsdateFilter = new AndFilter(new TagNameFilter("span"), new HasAttributeFilter("class", "c"));
NodeFilter newsauthorFilter = new AndFilter(new TagNameFilter("div"), new HasAttributeFilter("class", "editUsr"));
String newsTitle = getTitle(titleFilter, parser);
parser.reset(); //記得每次用完parser后,要重置一次parser。要不然就得不到我們想要的內(nèi)容了。
String newsContent = getNewsContent(contentFilter, parser);
System.out.println(newsContent); //輸出新聞的內(nèi)容,查看是否符合要求
parser.reset();
String newsDate = getNewsDate(newsdateFilter, parser);
parser.reset();
String newsauthor = getNewsAuthor(newsauthorFilter, parser);
//先設(shè)置新聞對象,讓新聞對象里有新聞內(nèi)容。
setN
ews(newsTitle, newsauthor, newsContent, newsDate, url);
//將新聞添加到數(shù)據(jù)中。
this.newsToDataBase();
} catch (ParserException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
}
}
//單個文件測試網(wǎng)頁
public static void main(String[] args) {
SohuNews news = new SohuNews();
news.parser("http://news.sohu.com/20090518/n264012864.shtml");
}
}
存放新聞的數(shù)據(jù)庫用的是MySql 建表語句如下:(其實不用數(shù)據(jù)庫也可以的,在SohuNews類中注釋掉那行紅色的代碼就可以了,所有得到的新聞都會在后臺打印的。)
CREATE DATABASE IF NOT EXISTS sohunews;
USE sohunews;
--
-- Definition of table `news`
--
DROP TABLE IF EXISTS `news`;
CREATE TABLE `news` (
`newsid` int(11) NOT NULL auto_increment,
`newstitle` varchar(60) NOT NULL,
`newsauthor` varchar(20) NOT NULL,
`newscontent` text NOT NULL,
`newsurl` char(130) NOT NULL,
`newsdate` varchar(24) NOT NULL,
PRIMARY KEY (`newsid`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
以上的代碼寫的很粗糙,項目中使用到了HtmlParser工具包,如果需要可以到http://sourceforge.net/projects/htmlparser 網(wǎng)站上下載。如果有需要這個
這篇文章只是一篇拋磚引玉的文章,希望懂爬蟲的你能夠給點意見,大家交流交流!!
項目源代碼:
SohuNews