<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    隨筆-23  評論-58  文章-0  trackbacks-0
    http://code.google.com/p/nutla/

    1、概述
     只為lucene提供分布式搜索框架。7*24千G以上索引文件支持數(shù)千萬級的用戶搜索訪問。
     Nut開發(fā)環(huán)境:jdk1.6.0.21+lucene3.0.2+eclipse3.6+hadoop0.20.2+zookeeper3.3.1+linux

    2、特新
     a、熱插拔
     b、可擴展
     c、高負載
     d、易使用,與現(xiàn)有項目無縫集成
    e、支持排序
    f、7*24服務(wù)
    g、失敗轉(zhuǎn)移

    3、搜索流程
    Nut由Index、Search、Client、Cache和DB五部分構(gòu)成。
    Client處理用戶請求和對搜索結(jié)果排序。Search對請求進行搜索,Search上只放索引,數(shù)據(jù)存儲在DB中,Nut將索引和存儲分離。Cache緩存的是搜索條件和結(jié)果文檔id。DB存儲著數(shù)據(jù),Client根據(jù)搜索排序結(jié)果,取出當前頁中的文檔id從DB上讀取數(shù)據(jù)。

    用戶發(fā)起搜索請求給由Nut Client構(gòu)成的集群,由某個Nut Client根據(jù)搜索條件查詢Cache服務(wù)器是否有該緩存,如果有緩存根據(jù)緩存的文檔id直接從DB讀取數(shù)據(jù),如果沒有緩存將查詢條件同時發(fā)給后面的n臺搜索服務(wù)器,搜索服務(wù)器將搜索結(jié)果返回給Nut Client由其排序,取出當前頁文檔id,將搜索條件和當前文檔id緩存,同時從DB讀取數(shù)據(jù)。

    4、索引流程
    Hadoop Mapper/Reducer 建立索引。再將索引從HDFS分發(fā)到各個索引服務(wù)器。
    對索引的更新分為兩種:刪除和添加(更新分解為刪除和添加)。
    a、刪除
    在HDFS上刪除索引,將生成的*.del文件分發(fā)到所有的索引服務(wù)器上去或者對HDFS索引目錄刪除索引再分發(fā)到對應(yīng)的索引服務(wù)器上去。
    b、添加
    新添加的數(shù)據(jù)用另一臺服務(wù)器來生成。
    刪除和添加步驟可按不同定時策略來實現(xiàn)。

     


    5、Zookeeper服務(wù)器狀態(tài)管理策略


    假如我們有100份索引放在100臺正在運行中搜索服務(wù)器上,那么將索引按照如下的方式放在備用中搜索服務(wù)器上:index 1,index 2,index 3,index 4,index 5,index 6,index 7,index 8,index 9,index 10放在B 1 上,index 6,index 7,index 8,index 9,index 10,index 11,index 12,index 13,index 14,index 15放在B 2上。。。。。。index 96,index 97,index 98,index 99,index 100,index 5,index 4,index 3,index 2,index 1放在最后一臺備用搜索服務(wù)器上。那么每份索引會存在3臺機器中(1份正在運行中,2份備份中)。
    盡管這樣設(shè)計每份索引會存在3臺機器中,仍然不是絕對安全的。假如運行中的index 1,index 2,index 3同時宕機的話,那么就會有一份索引搜索服務(wù)無法正確啟用。那么這樣設(shè)計,作者認為是在安全性和機器資源兩者之間一個比較適合的方案。

    備用中的搜索服務(wù)器會定時檢查運行中搜索服務(wù)器的狀態(tài)。一旦發(fā)現(xiàn)與自己索引對應(yīng)的服務(wù)器宕機就會先向zookeeper申請分布式鎖,得到鎖的服務(wù)器就將自己加入到運行中搜索服務(wù)器組,同時從備用搜索服務(wù)器組中刪除自己,并停止運行中搜索服務(wù)器檢查服務(wù)。

    posted on 2010-09-25 15:41 nianzai 閱讀(2735) 評論(4)  編輯  收藏 所屬分類: Nut(lucene + hadoop 分布式并行計算框架)

    評論:
    # re: lucene + hadoop 分布式搜索運行框架 Nut 1.0a7 2010-10-12 13:51 | gogogo45
    有一個問題想請教一下,lucene的文檔得分算法中有一個反轉(zhuǎn)文檔頻率參數(shù),
    是由org.apache.lucene.search.DefaultSimilarity.java:70
    idf(int docFreq, int numDocs) 得出的。
    docFreq表示有當前檢索詞條的文檔總數(shù), numDocs索引中總共的文檔數(shù)量

    如果按照您設(shè)計的將索引分散在多個服務(wù)器上,這兩個值都只是當前機子文檔的數(shù)量,是否會對搜索的結(jié)果造成一些不好的影響呢?  回復(fù)  更多評論
      
    # re: lucene + hadoop 分布式搜索運行框架 Nut 1.0a7[未登錄] 2010-10-13 09:06 | nianzai
    是的,nut目前還不能實現(xiàn)全局評分,以后可能會做一個可選的。如果實現(xiàn)全局評分的話,并發(fā)會下降一半的
      回復(fù)  更多評論
      
    # re: lucene + hadoop 分布式搜索運行框架 Nut 1.0a7[未登錄] 2010-10-13 11:49 | nianzai
    全局評分的實現(xiàn)大概是這樣的:
    每次搜索要分二次。第一次搜索得到文檔總數(shù)和文檔詞頻。第二次搜索再將第一次搜索的結(jié)果作為參數(shù)。
    所以并發(fā)必定會下降一半的。

    這種方式并不好。作者認為比較好的方式是按內(nèi)容切分索引。這樣兩者都能有比較好的兼顧。nut在下一個版本alpha8時,會采用這種方式。  回復(fù)  更多評論
      
    # re: lucene + hadoop 分布式搜索運行框架 Nut 1.0a7 2010-10-14 16:50 | gogogo45
    是啊。感覺Lucene在這方面似乎沒有做到支持超大規(guī)模的數(shù)據(jù)量。
    或許能通過改造Lucene底層的index生成方法來達到目的,不過那種生成就針對具體的項目而言了  回復(fù)  更多評論
      
    主站蜘蛛池模板: 毛片免费视频观看| eeuss在线兵区免费观看| 8x成人永久免费视频| 久久精品亚洲综合一品| 男人进去女人爽免费视频国产| 亚洲国产精品成人综合久久久| 亚洲电影在线播放| 十八禁在线观看视频播放免费| 114级毛片免费观看| 亚洲成AV人在线播放无码| 中文字幕久无码免费久久| 国产AV无码专区亚洲Av| 久久精品无码精品免费专区| 亚洲三级电影网址| 在线观看免费高清视频| 亚洲精华国产精华精华液好用 | 亚洲国产美国国产综合一区二区| 久久精品国产亚洲77777| 四虎永久在线精品免费观看视频| 成人免费视频国产| 免费一级特黄特色大片| 亚洲精品无码久久千人斩| 日韩精品无码免费一区二区三区| 日本xxwwxxww在线视频免费| 日产久久强奸免费的看| 亚洲成AV人片在| 国产免费AV片在线播放唯爱网| 亚洲综合无码AV一区二区| 亚洲免费视频网站| 亚洲日韩AV一区二区三区四区| 少妇性饥渴无码A区免费| 亚洲综合自拍成人| 最新猫咪www免费人成| 免费视频精品一区二区| 亚洲国产人成在线观看69网站| xxxx日本在线播放免费不卡| 国产A在亚洲线播放| 在线jyzzjyzz免费视频| 国产精品午夜免费观看网站| 亚洲中文无码a∨在线观看| 免费二级毛片免费完整视频|