Posted on 2010-02-02 22:29
Gavin.lee 閱讀(468)
評論(0) 編輯 收藏 所屬分類:
經(jīng)驗&常識
搜索引擎使用網(wǎng)絡(luò)爬蟲尋找網(wǎng)絡(luò)內(nèi)容,網(wǎng)絡(luò)上的HTML文檔使用超鏈接連接了起來,就像織成了一張網(wǎng),網(wǎng)絡(luò)爬蟲也叫網(wǎng)絡(luò)蜘蛛,順著這張網(wǎng)爬行,每到一個網(wǎng)頁就用抓取程序?qū)⑦@個網(wǎng)頁抓下來,將內(nèi)容抽取出來,同時抽取超鏈接,作為進一步爬行的線索。網(wǎng)絡(luò)爬蟲總是要從某個起點開始爬,這個起點叫做種子,你可以告訴它,也可以到一些網(wǎng)址列表網(wǎng)站上獲取
網(wǎng)頁抓取/數(shù)據(jù)抽取/信息提取軟件工具包MetaSeeker是一套完整的解決方案,里面有定題網(wǎng)絡(luò)爬蟲,也叫聚焦網(wǎng)絡(luò)爬蟲,這種爬蟲抓取下來一個頁面后并不抽取所有的超鏈接,而是只找主題相關(guān)的鏈接,籠統(tǒng)的說就是爬行的范圍是受控的。網(wǎng)絡(luò)爬蟲實現(xiàn)代碼主要集中在MetaSeeker工具包中的DataScraper工具??梢詮?gooseeker網(wǎng)站下載下來看