亚洲综合国产欧洲丝袜,亚洲三级在线播放,久久亚洲国产精品五月天

手把手教你怎么寫織夢5.5采集規則

今天給大家講一講怎么寫織夢5.3的采集規則教程!

首先我們打開織夢后臺點擊采集——采集節點管理——增加新節點

這里我們以采集普通文章為例，我們選擇普通文章，然后確定

我們進入了采集的設置頁面，填寫節點名稱，就是給這個新節點取個名字，這里你可以任意填寫。

然后打開你想要采集的文章列表頁，這里我們以織夢官網為例http://www.dedecms.com/web-manage/jianzhanxinde/ 打開這個頁面，右鍵——查看源文件

找到目標頁面編碼，就在charset后面

頁面基本信息其他的一般就不用管了，填完了如圖

現在我們來填寫列表網址獲取規則

看看文章列表第一頁的地址http://www.dedecms.com/web-manage/jianzhanxinde/list_49_1.html

對比第二頁的地址http://www.dedecms.com/web-manage/jianzhanxinde/list_49_2.html

我們發現了他們除了49_后面的數字不一樣，其他的都一樣，所以我們可以這樣寫

http://www.dedecms.com/web-manage/jianzhanxinde/list_49_(*).html

就是把1換成了(*) 因為這里只有2頁，所以我們就填從1到2 每頁遞增當然是1了，2-1...是等于1吧

這里我們就填寫完了

可能大家采集的有些列表沒有規則，那就只有手工指定列表網址了，如圖

每行寫一個頁面地址

列表規則寫完了，我們就開始寫文章網址匹配規則了,回到文章列表頁

右鍵查看源文件找到區域開始的HTML，就是找文章列表開始的標志。

我們很容易的找到了如圖中的“新聞列表” 。從這里開始，后面就是文章列表里

我們再找文章列表結束的HTML

就是這個了，一個很容易找到的標志

如果鏈接中含有圖片：

不處理采集為縮略圖這里根據自己的需要選擇

對區域網址進行再次篩選： (使用正則表達式)	必須包含： (優先級高于后者)
	不能包含：

打開源文件，我們可以很清楚的看到，文章鏈接都是以.html結束的

所以，我們在必須包含后面填.html 如果遇到有些列表很麻煩，還可以填寫后面的不能包含

我們點擊保存設置進入下一步，可以看到我們獲得的文章網址

最新電影

看到這些就是對的了，我們保存信息進入下一步設置內容字段獲取規則

我們看看文章有沒有分頁，隨便進入一篇文章看看。。我們看到這里的文章沒有分頁

所以這里的我們就默認了

我們現在來找文章標題等等隨便進入一篇文章，右鍵查看源文件

看看這些

依照源碼填寫

我們再來填寫文章內容的開始，結束

和上面的一樣，找到開始和結束標志

開始：

結束：

你想過濾文章中的什么內容就到過濾規則里寫吧，比如要過濾文章中的圖片

選擇常用規則

再勾選IMG 然后確定

這樣我們就把正文中的圖片過濾了

設置完畢后點保存設置并預覽

這樣一個采集規則就寫好了，很簡單吧有些網站很難寫，可要多下點功夫了哦

我們點保存并開始采集——開始采集網頁一會的功夫就采集完了

我們看看我們采集到的文章

看來是成功了，我們導出數據吧

完成了，更新一下文檔吧，可以看到采集到了文章咯

www.kuangtao.net 狂淘購物網

posted on 2010-02-15 00:38 狂淘閱讀(2121) 評論(0) 編輯收藏所屬分類: SEO

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: 影響網站排名的49因素如何設置更好，更方便的首選域？ .htaccess使用指南 robots.txt用法和seo作用-Googlebot/Baiduspider 如何查看網站被百度抓取的情況？日志中的HTTP狀態碼都代表什么？如何使用標簽阻止網頁被收錄？如何使用robots不讓百度和google收錄網站地圖提交如何生成標準的網站地圖

狂淘

公告

留言簿(1)

隨筆分類(5)

隨筆檔案(6)

文章分類(181)

文章檔案(183)

相冊

QQ客服

博客

狂淘網

最新隨筆

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜