很久沒把自己做的東西拿出來和大家分享了,今天總算想到可以寫一些東西了。嘿嘿
美女圖片爬蟲程序很簡單,就是從目標網站上將一些美女圖片抓取下來,并按文件夾的方式歸類存放。
現在以
http://www.36mn.com/網站為例,將論壇上面的一個個圖片抓取下來慢慢欣賞。
程序說明:
com.th.spider.Main 運行這個抓取美女圖片
com.th.spider.test.* 樣例程序
com.th.spider.CookieLogin 模擬登陸實例
com.th.spider.Clean 清除沒圖片的目錄和無效圖片目錄
用技術創(chuàng)造快感!!!! 嘿嘿
下載資源:圖片抓取代碼.zip 網絡爬蟲原理與實戰(zhàn)PPT.zip主要技術:Jsoup、HttpClient.
配置說明:config.properties
#保存目錄
save.dir=D:/GIRL
#網站根路徑#
url.base=http://www.36mn.com/
#URL訪問模板
url.template=http://www.36mn.com/forum-62-#page#.html
#開始PAGE 替換url.template中page參數#
page.start=1
#結束PAGE 替換url.template中page參數#
page.end=2
#線程池大小,并發(fā)抓取圖片的最大線程數#
thread.pool.size=50
配置中的page.start 和 page.end 指定了抓取論壇開始頁到結束頁,如果想抓取整個論壇的就page.start=1,page.end=100吧。
配置目錄save.dir 默認會創(chuàng)建一個D:/GIRL的目錄,用戶保存抓取圖片。圖片保存方式:D:/GIRL/頁號/帖子名/圖片名
抓取思路:
1.獲取論壇中的每個帖子標題和連接。
2.請求帖子連接返回帖子內容。
3.分析獲取圖片的URL。
4.定位URL下載圖片到本地。
論壇帖子列表 http://www.36mn.com/forum-62-1.html 
其中一個帖子內容 http://www.36mn.com/thread-22672-1-2.html
l
抓取結果
