Posted on 2012-01-13 15:45
小明 閱讀(3237)
評(píng)論(1) 編輯 收藏 所屬分類:
開(kāi)源項(xiàng)目
最近開(kāi)發(fā)的一個(gè)通用網(wǎng)絡(luò)爬蟲(chóng)平臺(tái),主要是想滿足自己想從特定網(wǎng)站抓取大量?jī)?nèi)容的需求,有如下特點(diǎn):
1. 支持cookie/session,所以支持登錄論壇和網(wǎng)站
2. 支持圖像識(shí)別,可以由人工識(shí)別或者機(jī)器識(shí)別
3. 多線程下載,性能不錯(cuò)
4. 支持代理
5. 支持HTTPS和證書(shū)驗(yàn)證
6. 支持可插拔腳本,對(duì)特別網(wǎng)站使用特別的腳本(javascript編寫(xiě))。
7. 有Web界面,操作方便
項(xiàng)目位置:
http://code.google.com/p/ssnaker/下載:
http://ssnaker.googlecode.com/files/snaker_1.00_b7.zip
最新的版本也實(shí)現(xiàn)一個(gè)火車(chē)票刷票的功能(具體實(shí)現(xiàn)都放在engines/train.js)