亚洲国产精品自在在线观看,亚洲视频在线免费看,久久精品亚洲福利

http://code.google.com/p/nutla/

1、概述
只為lucene提供分布式搜索框架。7*24千G以上索引文件支持數千萬級的用戶搜索訪問。
Nut開發環境：jdk1.6.0.21+lucene3.0.2+eclipse3.6+hadoop0.20.2+zookeeper3.3.1+linux

2、特新
a、熱插拔
b、可擴展
c、高負載
d、易使用,與現有項目無縫集成
e、支持排序
f、7*24服務
g、失敗轉移

3、搜索流程
Nut由Index、Search、Client、Cache和DB五部分構成。
Client處理用戶請求和對搜索結果排序。Search對請求進行搜索，Search上只放索引，數據存儲在DB中，Nut將索引和存儲分離。Cache緩存的是搜索條件和結果文檔id。DB存儲著數據，Client根據搜索排序結果,取出當前頁中的文檔id從DB上讀取數據。

用戶發起搜索請求給由Nut Client構成的集群，由某個Nut Client根據搜索條件查詢Cache服務器是否有該緩存，如果有緩存根據緩存的文檔id直接從DB讀取數據，如果沒有緩存將查詢條件同時發給后面的n臺搜索服務器，搜索服務器將搜索結果返回給Nut Client由其排序，取出當前頁文檔id，將搜索條件和當前文檔id緩存，同時從DB讀取數據。

4、索引流程
Hadoop Mapper/Reducer 建立索引。再將索引從HDFS分發到各個索引服務器。
對索引的更新分為兩種：刪除和添加（更新分解為刪除和添加）。
a、刪除
在HDFS上刪除索引，將生成的*.del文件分發到所有的索引服務器上去或者對HDFS索引目錄刪除索引再分發到對應的索引服務器上去。
b、添加
新添加的數據用另一臺服務器來生成。
刪除和添加步驟可按不同定時策略來實現。

5、Zookeeper服務器狀態管理策略

假如我們有100份索引放在100臺正在運行中搜索服務器上，那么將索引按照如下的方式放在備用中搜索服務器上：index 1,index 2,index 3,index 4,index 5,index 6,index 7,index 8,index 9,index 10放在B 1 上，index 6,index 7,index 8,index 9,index 10,index 11,index 12,index 13,index 14,index 15放在B 2上。。。。。。index 96,index 97,index 98,index 99,index 100,index 5,index 4,index 3,index 2,index 1放在最后一臺備用搜索服務器上。那么每份索引會存在3臺機器中（1份正在運行中，2份備份中）。
盡管這樣設計每份索引會存在3臺機器中，仍然不是絕對安全的。假如運行中的index 1,index 2,index 3同時宕機的話，那么就會有一份索引搜索服務無法正確啟用。那么這樣設計，作者認為是在安全性和機器資源兩者之間一個比較適合的方案。

備用中的搜索服務器會定時檢查運行中搜索服務器的狀態。一旦發現與自己索引對應的服務器宕機就會先向zookeeper申請分布式鎖，得到鎖的服務器就將自己加入到運行中搜索服務器組，同時從備用搜索服務器組中刪除自己，并停止運行中搜索服務器檢查服務。

posted on 2010-09-25 15:41 nianzai 閱讀(2741) 評論(4) 編輯收藏所屬分類: Nut(lucene + hadoop 分布式并行計算框架)

常用鏈接

留言簿(9)

隨筆分類

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: Nut開發環境搭建(虛擬機下hadoop0.20.2+zookeeper3.3.3+hbase0.90.2開發環境的搭建) lucene + hadoop 分布式搜索運行框架 Nut 1.0a9 Nut開發環境搭建(虛擬機下hadoop0.20.2+zookeeper3.3.1+hbase0.20.6開發環境的搭建) lucene + hadoop 分布式搜索運行框架 Nut 1.0a8 lucene + hadoop 分布式搜索運行框架 Nut 1.0a7