亚洲精品美女网站,精品国产_亚洲人成在线高清,亚洲综合激情九月婷婷

傳統(tǒng)搜索引擎綜述

傳統(tǒng)搜索引擎的工作原理：
1）從互聯(lián)網(wǎng)上抓取網(wǎng)頁
利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的Spider系統(tǒng)程序，自動訪問互聯(lián)網(wǎng)，并沿著任何網(wǎng)頁中的所有URL爬到其它網(wǎng)頁，重復(fù)這過程，并把爬過的所有網(wǎng)頁收集回來。
2）建立索引數(shù)據(jù)庫
由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析，提取相關(guān)網(wǎng)頁信息（包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的所有關(guān)鍵詞、關(guān)鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈接關(guān)系等），根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算，得到每一個網(wǎng)頁針對頁面文字中及超鏈中每一個關(guān)鍵詞的相關(guān)度（或重要性），然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。
3）在索引數(shù)據(jù)庫中搜索排序
當(dāng)用戶輸入關(guān)鍵詞搜索后，由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。因?yàn)樗邢嚓P(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)度早已算好，所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序，相關(guān)度越高，排名越靠前。最后，由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。

傳統(tǒng)的搜索引擎一般使用兩種技術(shù)來實(shí)現(xiàn)信息檢索:
1.使用網(wǎng)站分類技術(shù)實(shí)現(xiàn)目錄檢索，即把網(wǎng)站進(jìn)行樹狀的歸類，登陸的網(wǎng)站屬于至少一個類別，對每個站點(diǎn)都有簡略的描述。Yahoo采用了這種方法。為了分類科學(xué)準(zhǔn)確，需要有一支各科人才組成的維護(hù)隊(duì)伍。
2.使用全文檢索技術(shù)。全文檢索技術(shù)處理的對象是文本，它能夠?qū)Υ罅课臋n建立由字（詞）到文檔的倒排索引，在此基礎(chǔ)上，用戶使用關(guān)鍵詞來對文檔進(jìn)行查詢時，系統(tǒng)將給用戶返回該關(guān)鍵詞的網(wǎng)頁。

posted on 2010-04-02 09:58 Ying-er 閱讀(321) 評論(0) 編輯收藏

常用鏈接

留言簿(4)

隨筆分類

隨筆檔案

友情鏈接

各人常用鏈接

搜索

積分與排名

最新評論

閱讀排行榜


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理