采集網站:http://news.sina.com.cn
采集任務:新浪國內新聞
任務列表地址:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml
第一步:添加采集站點
操作:
模塊管理-》采集管理-》采集站點管理-》添加采集站點
兩個屬性:基本信息和站點規則,其中,基本信息為必填項。站點規則可以填寫,也可以不填寫。所以說這一步可以很簡單,也可以稍微麻煩些(設置站點規則) 。
A:基本信息填寫:
站點名稱:就是你給這個網站做的記號,便于以后管理所用。
站點 URL:就是網站的地址了。注意如果你采集的是網站的二級域名,比如
http://roll.news.sina.com.cn 那么,這里就填寫二級域名。
站點描述:這個可以為空。
B:站點規則:
整個站點內容頁(注意是內容頁,就是文章的詳細展示頁面)的通用規則,這里如果設置好后,以后添加采集任務時,會自動繼承這個規則,就會省很多工作量。
第二步:添加采集任務
操作:模塊管理-》采集管理-》采集任務管理-》添加采集任務
或者:模塊管理-》采集管理-》采集站點管理-》新浪國內新聞 一行中 “添加任務”
采集任務有三個屬性:網址采集 內容規則 高級設置
A 網站采集:
網址采集的目的是從列表頁采集到文章內容頁的網址,通俗點就是模仿鼠標從列表頁點擊文章內容頁鏈接。下面對各個填寫項說明一下:
基本信息:
所屬站點:這個必須選擇,只有選擇了站點后,后續操作才能正常進行。
任務名稱:這個必須填寫,用于記憶。
簡單描述:可不填寫
發布欄目:一定要選擇欄目,只有選擇發布欄目,才能在內容規則里出現對應的發布字段!
網址采集:
單一網頁或者無規律網頁:這個最簡單,只采集列表頁的一頁。
比如:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml,
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_2.shtml
采集多個規律網頁:
如果采集頁面地址很有規律,可以采用“批量添加多頁”方式http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_2.shtml變成
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_ (*).shtml 其中(*)就表示任意字符或者數字,我們稱其為通配符。接下來,我們來定義這個通配符的變化范圍:
通配符范圍: 從____到_____ 步長倍數:___ 倒序生成 補零: _____
頁碼=通配符×步長倍數
倒序生成:主要是為了采集來的內容也按照原文章列表里的順序, 一般網站列表分頁都是都是按照時間降序的,最新發布的文章都在第一頁,優先采集
頁碼數大的。后采集頁面數小的。注意:現在有的站點列表頁是倒序生成的。
補零:就是有的網站文章列表地址 1-10 頁的地址中規律是這樣的:index_01.shtml ,index_02.shtml對于這種情況,選中“補零“,就會自動在生成的頁碼上補零了。
文章網址篩選:這個是用來過濾非文章內容網址的,就是要求文章內容地址里必須包含什么字符,不能包含什么字符。
頁面某一區域內獲取網址:這個很重要,是用來確定文章列表的上下界限的。不填寫則自動匹配真個頁面區域。正確填寫可以過濾掉不需要的網頁鏈接,填寫要點是:
1、找到文章列表的第一條記錄,然后頁面空白處右鍵->查看源文件,里面搜索第一條記錄的名稱,在第一條記錄之前,尋找特殊標志作為邊界起點填到第一個框里。
2、找到文章列表的最后一條記錄或者分頁標志,在最后一條記錄之后尋找特殊標識,作為邊界終點填寫到第二個框里。注意,這個特殊標識必須為邊界起點之后第一次出現! 比如:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml 頁面中,我尋找的
邊界:
其中“<ul class="list_009">”出現在列表頁第一條記錄之前,并且是唯一的;而“<div class="hs01"></div>”是在出現在列表頁最后一條記錄之后,并且是“<ul class="list_009">”之后第一次出現。所以可以作為邊界終點。
縮略圖采集規則:這個是用來采集列表頁縮略圖用的,留空即可。
采集登陸網站: 這個是針對需要登陸后才能訪問的內容設計的,cookie 的獲取,可以使用 ieHTTPHeaders 獲取,或者用火車頭采集器獲取。可以參考相應工具。然后把獲取的 cookie 粘貼到 使用已有的 COOKIE 后面的框框里即可。
B 內容規則:
內容規則這里看起來比較復雜,其實也很簡單,為了便于說明,我們只采集標題、內容兩個字段。采集內容網址:
http://news.sina.com.cn/c/2009-05-20/151017854839.shtml 的內容采集規則,請你打開這個網址,然后頁面空白處右鍵->查看源文件搜索標題和內容的開始邊界。
標題:用了<title>和</title>作為邊界。實際上用 <title>和_就可以。由于title中都含有“_新聞中心_新浪網”這里用了信息替換功能。
內容:<!-- 正文內容 begin -->和<!-- 正文內容 end -->作為邊界,不過觀察代碼里面還有一些其他的注釋和鏈接所以用了信息替換替換掉“<!--google_ad_section_start --> ”多個替換用“(|)”分隔開。
Html自動清除 就是清除采集內容中帶有的一些html標記了,根據實際情況自行選擇即可。
設置文章分頁采集和合并:
分頁代碼的邊界是指分頁代碼列表的上下邊界。
C高級設置:
列表頁編碼設置:列表頁的編碼,是 GBK還是 UTF-8,查看方法,打開列表頁,然后頁面空白處右鍵->查看源文件,搜索“charset=”等號之后就為頁面編碼。
內容頁編碼設置:這個是文章內容頁的編碼,查看方法同上。
下載圖片、下載 flash、下載文件等這些都很簡單,看描述就行了
多線程設置:這里,把線程數設置為 5 最后,數值越大,采集速度越快,占用系統資源也越大。
超時時間:就是采集內容鏈接無響應時間,不用改變。 都設置好了,這時候點擊“保持設置”就行了。
第三步:開始采集網址
操作:模塊管理-》采集管理-》采集任務管理-》管理操作中的采集網址。
第四步:開始采集內容
操作:采集網址完成后,點擊“采集內容”
或者:模塊管理-》采集管理-》采集任務管理-》管理操作中的采集內容。
點擊采集內容后,會自動顯示采集進度條:
第五步:發布內容
操作:采集內容完成后,點擊“發布內容”
這里有需要注意的地方就是生成 html(發布速度慢!):如果你發布的內容較少,可以選中此項,如果你發布的文章超過百篇以上,建議不要選中該文件!因為 phpcms 默認的每發布文章會更新網站首頁、列表頁、欄目頁、內容頁的 html, 批量發布時會導致頻繁更新這些頁面而嚴重降低發布效率,取消該選項,發布文章時,只添加文章到數據庫里,效率很高,發布完成后,可以通過 phpcms 內置的“生成 HTML”功能,只更新特定欄目和欄目下的內容頁就行了。
“生成 HTML”操作位于“內容管理”-》“生成 HTML”根據需要更新欄目頁和更新內容頁即可。
www.kuangtao.net 狂淘購物網