<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    posts - 28, comments - 37, trackbacks - 0, articles - 0

    zookeeper 簡(jiǎn)介

    Posted on 2011-10-29 20:18 俞靈 閱讀(5210) 評(píng)論(1)  編輯  收藏

    本周末學(xué)習(xí)zookeeper,原理和安裝配置

    本文參考: http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/

    http://zookeeper.apache.org/

     

    Zookeeper 作為一個(gè)分布式的服務(wù)框架,主要用來(lái)解決分布式集群中應(yīng)用系統(tǒng)的一致性問(wèn)題,它能提供基于類(lèi)似于文件系統(tǒng)的目錄節(jié)點(diǎn)樹(shù)方式的數(shù)據(jù)存儲(chǔ),但是 Zookeeper 并不是用來(lái)專(zhuān)門(mén)存儲(chǔ)數(shù)據(jù)的,它的作用主要是用來(lái)維護(hù)和監(jiān)控你存儲(chǔ)的數(shù)據(jù)的狀態(tài)變化。通過(guò)監(jiān)控這些數(shù)據(jù)狀態(tài)的變化,從而可以達(dá)到基于數(shù)據(jù)的集群管理。

    Zookeeper安裝和配置比較簡(jiǎn)單,可以參考官網(wǎng).

    數(shù)據(jù)模型

    Zookeeper 會(huì)維護(hù)一個(gè)具有層次關(guān)系的數(shù)據(jù)結(jié)構(gòu),它非常類(lèi)似于一個(gè)標(biāo)準(zhǔn)的文件系統(tǒng),如圖 1 所示:


    1 Zookeeper 數(shù)據(jù)結(jié)構(gòu)

    Zookeeper 這種數(shù)據(jù)結(jié)構(gòu)有如下這些特點(diǎn):

    1. 每個(gè)子目錄項(xiàng)如 NameService 都被稱(chēng)作為 znode,這個(gè) znode 是被它所在的路徑唯一標(biāo)識(shí),如 Server1 這個(gè) znode 的標(biāo)識(shí)為 /NameService/Server1
    2. znode 可以有子節(jié)點(diǎn)目錄,并且每個(gè) znode 可以存儲(chǔ)數(shù)據(jù),注意 EPHEMERAL 類(lèi)型的目錄節(jié)點(diǎn)不能有子節(jié)點(diǎn)目錄
    3. znode 是有版本的,每個(gè) znode 中存儲(chǔ)的數(shù)據(jù)可以有多個(gè)版本,也就是一個(gè)訪(fǎng)問(wèn)路徑中可以存儲(chǔ)多份數(shù)據(jù)
    4. znode 可以是臨時(shí)節(jié)點(diǎn),一旦創(chuàng)建這個(gè) znode 的客戶(hù)端與服務(wù)器失去聯(lián)系,這個(gè) znode 也將自動(dòng)刪除,Zookeeper 的客戶(hù)端和服務(wù)器通信采用長(zhǎng)連接方式,每個(gè)客戶(hù)端和服務(wù)器通過(guò)心跳來(lái)保持連接,這個(gè)連接狀態(tài)稱(chēng)為 session,如果 znode 是臨時(shí)節(jié)點(diǎn),這個(gè) session 失效,znode 也就刪除了
    5. znode 的目錄名可以自動(dòng)編號(hào),如 App1 已經(jīng)存在,再創(chuàng)建的話(huà),將會(huì)自動(dòng)命名為 App2
    6. znode 可以被監(jiān)控,包括這個(gè)目錄節(jié)點(diǎn)中存儲(chǔ)的數(shù)據(jù)的修改,子節(jié)點(diǎn)目錄的變化等,一旦變化可以通知設(shè)置監(jiān)控的客戶(hù)端,這個(gè)是 Zookeeper 的核心特性,Zookeeper 的很多功能都是基于這個(gè)特性實(shí)現(xiàn)的,后面在典型的應(yīng)用場(chǎng)景中會(huì)有實(shí)例介紹

     

    ZooKeeper 典型的應(yīng)用場(chǎng)景

    Zookeeper 從設(shè)計(jì)模式角度來(lái)看,是一個(gè)基于觀(guān)察者模式設(shè)計(jì)的分布式服務(wù)管理框架,它負(fù)責(zé)存儲(chǔ)和管理大家都關(guān)心的數(shù)據(jù),然后接受觀(guān)察者的注冊(cè),一旦這些數(shù)據(jù)的狀態(tài)發(fā)生 變化,Zookeeper 就將負(fù)責(zé)通知已經(jīng)在 Zookeeper 上注冊(cè)的那些觀(guān)察者做出相應(yīng)的反應(yīng),從而實(shí)現(xiàn)集群中類(lèi)似 Master/Slave 管理模式,關(guān)于 Zookeeper 的詳細(xì)架構(gòu)等內(nèi)部細(xì)節(jié)可以閱讀 Zookeeper 的源碼

    下面詳細(xì)介紹這些典型的應(yīng)用場(chǎng)景,也就是 Zookeeper 到底能幫我們解決那些問(wèn)題?下面將給出答案。

    統(tǒng)一命名服務(wù)(Name Service)

    分布式應(yīng)用中,通常需要有一套完整的命名規(guī)則,既能夠產(chǎn)生唯一的名稱(chēng)又便于人識(shí)別和記住,通常情況下用樹(shù)形的名稱(chēng)結(jié)構(gòu)是一個(gè)理想的選擇,樹(shù)形 的名稱(chēng)結(jié)構(gòu)是一個(gè)有層次的目錄結(jié)構(gòu),既對(duì)人友好又不會(huì)重復(fù)。說(shuō)到這里你可能想到了 JNDI(Java Naming and Directory Interface,Java命名和目錄接口,是一組在Java應(yīng)用中訪(fǎng)問(wèn)命名和目錄服務(wù)的API),沒(méi)錯(cuò) Zookeeper 的 Name Service 與 JNDI 能夠完成的功能是差不多的,它們都是將有層次的目錄結(jié)構(gòu)關(guān)聯(lián)到一定資源上,但是 Zookeeper 的 Name Service 更加是廣泛意義上的關(guān)聯(lián),也許你并不需要將名稱(chēng)關(guān)聯(lián)到特定資源上,你可能只需要一個(gè)不會(huì)重復(fù)名稱(chēng),就像數(shù)據(jù)庫(kù)中產(chǎn)生一個(gè)唯一的數(shù)字主鍵一樣。

    Name Service 已經(jīng)是 Zookeeper 內(nèi)置的功能,你只要調(diào)用 Zookeeper 的 API 就能實(shí)現(xiàn)。如調(diào)用 create 接口就可以很容易創(chuàng)建一個(gè)目錄節(jié)點(diǎn)。

    配置管理(Configuration Management

    配置的管理在分布式應(yīng)用環(huán)境中很常見(jiàn),例如同一個(gè)應(yīng)用系統(tǒng)需要多臺(tái) PC Server 運(yùn)行,但是它們運(yùn)行的應(yīng)用系統(tǒng)的某些配置項(xiàng)是相同的,如果要修改這些相同的配置項(xiàng),那么就必須同時(shí)修改每臺(tái)運(yùn)行這個(gè)應(yīng)用系統(tǒng)的 PC Server,這樣非常麻煩而且容易出錯(cuò)。

    像這樣的配置信息完全可以交給 Zookeeper 來(lái)管理,將配置信息保存在 Zookeeper 的某個(gè)目錄節(jié)點(diǎn)中,然后將所有需要修改的應(yīng)用機(jī)器監(jiān)控配置信息的狀態(tài),一旦配置信息發(fā)生變化,每臺(tái)應(yīng)用機(jī)器就會(huì)收到 Zookeeper 的通知,然后從 Zookeeper 獲取新的配置信息應(yīng)用到系統(tǒng)中。


    2. 配置管理結(jié)構(gòu)圖

    集群管理(Group Membership

    Zookeeper 能夠很容易的實(shí)現(xiàn)集群管理的功能,如有多臺(tái) Server 組成一個(gè)服務(wù)集群,那么必須要一個(gè)“總管”知道當(dāng)前集群中每臺(tái)機(jī)器的服務(wù)狀態(tài),一旦有機(jī)器不能提供服務(wù),集群中其它集群必須知道,從而做出調(diào)整重新分配服 務(wù)策略。同樣當(dāng)增加集群的服務(wù)能力時(shí),就會(huì)增加一臺(tái)或多臺(tái) Server,同樣也必須讓“總管”知道。

    Zookeeper 不僅能夠幫你維護(hù)當(dāng)前的集群中機(jī)器的服務(wù)狀態(tài),而且能夠幫你選出一個(gè)“總管”,讓這個(gè)總管來(lái)管理集群,這就是 Zookeeper 的另一個(gè)功能 Leader Election。

    它們的實(shí)現(xiàn)方式都是在 Zookeeper 上創(chuàng)建一個(gè) EPHEMERAL 類(lèi)型的目錄節(jié)點(diǎn),然后每個(gè) Server 在它們創(chuàng)建目錄節(jié)點(diǎn)的父目錄節(jié)點(diǎn)上調(diào)用 getChildren(String path, boolean watch) 方法并設(shè)置 watch 為 true,由于是 EPHEMERAL 目錄節(jié)點(diǎn),當(dāng)創(chuàng)建它的 Server 死去,這個(gè)目錄節(jié)點(diǎn)也隨之被刪除,所以 Children 將會(huì)變化,這時(shí) getChildren上的 Watch 將會(huì)被調(diào)用,所以其它 Server 就知道已經(jīng)有某臺(tái) Server 死去了。新增 Server 也是同樣的原理。

    Zookeeper 如何實(shí)現(xiàn) Leader Election,也就是選出一個(gè) Master Server。和前面的一樣每臺(tái) Server 創(chuàng)建一個(gè) EPHEMERAL 目錄節(jié)點(diǎn),不同的是它還是一個(gè) SEQUENTIAL 目錄節(jié)點(diǎn),所以它是個(gè) EPHEMERAL_SEQUENTIAL 目錄節(jié)點(diǎn)。之所以它是 EPHEMERAL_SEQUENTIAL 目錄節(jié)點(diǎn),是因?yàn)槲覀兛梢越o每臺(tái) Server 編號(hào),我們可以選擇當(dāng)前是最小編號(hào)的 Server 為 Master,假如這個(gè)最小編號(hào)的 Server 死去,由于是 EPHEMERAL 節(jié)點(diǎn),死去的 Server 對(duì)應(yīng)的節(jié)點(diǎn)也被刪除,所以當(dāng)前的節(jié)點(diǎn)列表中又出現(xiàn)一個(gè)最小編號(hào)的節(jié)點(diǎn),我們就選擇這個(gè)節(jié)點(diǎn)為當(dāng)前 Master。這樣就實(shí)現(xiàn)了動(dòng)態(tài)選擇 Master,避免了傳統(tǒng)意義上單 Master 容易出現(xiàn)單點(diǎn)故障的問(wèn)題。


    3. 集群管理結(jié)構(gòu)圖

    這部分的示例代碼如下,完整的代碼請(qǐng)看源代碼:


    清單 3. Leader Election 關(guān)鍵代碼

                                   
     void findLeader() throws InterruptedException { 
            byte[] leader = null; 
            try { 
                leader = zk.getData(root + "/leader", true, null); 
            } catch (Exception e) { 
                logger.error(e); 
            } 
            if (leader != null) { 
                following(); 
            } else { 
                String newLeader = null; 
                try { 
                    byte[] localhost = InetAddress.getLocalHost().getAddress(); 
                    newLeader = zk.create(root + "/leader", localhost, 
                    ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.EPHEMERAL); 
                } catch (Exception e) { 
                    logger.error(e); 
                } 
                if (newLeader != null) { 
                    leading(); 
                } else { 
                    mutex.wait(); 
                } 
            } 
        } 

     

    共享鎖(Locks)

    共享鎖在同一個(gè)進(jìn)程中很容易實(shí)現(xiàn),但是在跨進(jìn)程或者在不同 Server 之間就不好實(shí)現(xiàn)了。Zookeeper 卻很容易實(shí)現(xiàn)這個(gè)功能,實(shí)現(xiàn)方式也是需要獲得鎖的 Server 創(chuàng)建一個(gè) EPHEMERAL_SEQUENTIAL 目錄節(jié)點(diǎn),然后調(diào)用 getChildren方法獲取當(dāng)前的目錄節(jié)點(diǎn)列表中最小的目錄節(jié)點(diǎn)是不是就是自己創(chuàng)建的目錄節(jié)點(diǎn),如果正是自己創(chuàng)建的,那么它就獲得了這個(gè)鎖,如果不是那么它就調(diào)用 exists(String path, boolean watch) 方法并監(jiān)控 Zookeeper 上目錄節(jié)點(diǎn)列表的變化,一直到自己創(chuàng)建的節(jié)點(diǎn)是列表中最小編號(hào)的目錄節(jié)點(diǎn),從而獲得鎖,釋放鎖很簡(jiǎn)單,只要?jiǎng)h除前面它自己所創(chuàng)建的目錄節(jié)點(diǎn)就行了。


    4. Zookeeper 實(shí)現(xiàn) Locks 的流程圖

    同步鎖的實(shí)現(xiàn)代碼如下,完整的代碼請(qǐng)看源代碼:


    清單 4. 同步鎖的關(guān)鍵代碼

                                   
     void getLock() throws KeeperException, InterruptedException{ 
            List<String> list = zk.getChildren(root, false); 
            String[] nodes = list.toArray(new String[list.size()]); 
            Arrays.sort(nodes); 
            if(myZnode.equals(root+"/"+nodes[0])){ 
                doAction(); 
            } 
            else{ 
                waitForLock(nodes[0]); 
            } 
        } 
        void waitForLock(String lower) throws InterruptedException, KeeperException {
            Stat stat = zk.exists(root + "/" + lower,true); 
            if(stat != null){ 
                mutex.wait(); 
            } 
            else{ 
                getLock(); 
            } 
        } 

     

    隊(duì)列管理

    Zookeeper 可以處理兩種類(lèi)型的隊(duì)列:

    1. 當(dāng)一個(gè)隊(duì)列的成員都聚齊時(shí),這個(gè)隊(duì)列才可用,否則一直等待所有成員到達(dá),這種是同步隊(duì)列。
    2. 隊(duì)列按照 FIFO 方式進(jìn)行入隊(duì)和出隊(duì)操作,例如實(shí)現(xiàn)生產(chǎn)者和消費(fèi)者模型。

    同步隊(duì)列用 Zookeeper 實(shí)現(xiàn)的實(shí)現(xiàn)思路如下:

    創(chuàng)建一個(gè)父目錄 /synchronizing,每個(gè)成員都監(jiān)控標(biāo)志(Set Watch)位目錄 /synchronizing/start 是否存在,然后每個(gè)成員都加入這個(gè)隊(duì)列,加入隊(duì)列的方式就是創(chuàng)建 /synchronizing/member_i 的臨時(shí)目錄節(jié)點(diǎn),然后每個(gè)成員獲取 / synchronizing 目錄的所有目錄節(jié)點(diǎn),也就是 member_i。判斷 i 的值是否已經(jīng)是成員的個(gè)數(shù),如果小于成員個(gè)數(shù)等待 /synchronizing/start 的出現(xiàn),如果已經(jīng)相等就創(chuàng)建 /synchronizing/start。

    用下面的流程圖更容易理解:


    5. 同步隊(duì)列流程圖

    同步隊(duì)列的關(guān)鍵代碼如下,完整的代碼請(qǐng)看附件:


    清單 5. 同步隊(duì)列

                                   
     void addQueue() throws KeeperException, InterruptedException{ 
            zk.exists(root + "/start",true); 
            zk.create(root + "/" + name, new byte[0], Ids.OPEN_ACL_UNSAFE, 
            CreateMode.EPHEMERAL_SEQUENTIAL); 
            synchronized (mutex) { 
                List<String> list = zk.getChildren(root, false); 
                if (list.size() < size) { 
                    mutex.wait(); 
                } else { 
                    zk.create(root + "/start", new byte[0], Ids.OPEN_ACL_UNSAFE,
                     CreateMode.PERSISTENT); 
                } 
            } 
     } 

     

    當(dāng)隊(duì)列沒(méi)滿(mǎn)是進(jìn)入 wait(),然后會(huì)一直等待 Watch 的通知,Watch 的代碼如下:

     public void process(WatchedEvent event) { 
            if(event.getPath().equals(root + "/start") &&
             event.getType() == Event.EventType.NodeCreated){ 
                System.out.println("得到通知"); 
                super.process(event); 
                doAction(); 
            } 
        } 

     

    FIFO 隊(duì)列用 Zookeeper 實(shí)現(xiàn)思路如下:

    實(shí)現(xiàn)的思路也非常簡(jiǎn)單,就是在特定的目錄下創(chuàng)建 SEQUENTIAL 類(lèi)型的子目錄 /queue_i,這樣就能保證所有成員加入隊(duì)列時(shí)都是有編號(hào)的,出隊(duì)列時(shí)通過(guò) getChildren( ) 方法可以返回當(dāng)前所有的隊(duì)列中的元素,然后消費(fèi)其中最小的一個(gè),這樣就能保證 FIFO

    下面是生產(chǎn)者和消費(fèi)者這種隊(duì)列形式的示例代碼,完整的代碼請(qǐng)看附件:


    清單 6. 生產(chǎn)者代碼

                                   
     boolean produce(int i) throws KeeperException, InterruptedException{ 
            ByteBuffer b = ByteBuffer.allocate(4); 
            byte[] value; 
            b.putInt(i); 
            value = b.array(); 
            zk.create(root + "/element", value, ZooDefs.Ids.OPEN_ACL_UNSAFE, 
                        CreateMode.PERSISTENT_SEQUENTIAL); 
            return true; 
        } 



    清單 7. 消費(fèi)者代碼

                                   
     int consume() throws KeeperException, InterruptedException{ 
            int retvalue = -1; 
            Stat stat = null; 
            while (true) { 
                synchronized (mutex) { 
                    List<String> list = zk.getChildren(root, true); 
                    if (list.size() == 0) { 
                        mutex.wait(); 
                    } else { 
                        Integer min = new Integer(list.get(0).substring(7)); 
                        for(String s : list){ 
                            Integer tempValue = new Integer(s.substring(7)); 
                            if(tempValue < min) min = tempValue; 
                        } 
                        byte[] b = zk.getData(root + "/element" + min,false, stat); 
                        zk.delete(root + "/element" + min, 0); 
                        ByteBuffer buffer = ByteBuffer.wrap(b); 
                        retvalue = buffer.getInt(); 
                        return retvalue; 
                    } 
                } 
            } 
     } 

     

    總結(jié)

    Zookeeper 作為 Hadoop 項(xiàng)目中的一個(gè)子項(xiàng)目,是 Hadoop 集群管理的一個(gè)必不可少的模塊,它主要用來(lái)控制集群中的數(shù)據(jù),如它管理 Hadoop 集群中的 NameNode,還有 Hbase 中 Master Election、Server 之間狀態(tài)同步等。

    本文介紹的 Zookeeper 的基本知識(shí),以及介紹了幾個(gè)典型的應(yīng)用場(chǎng)景。這些都是 Zookeeper 的基本功能,最重要的是 Zoopkeeper 提供了一套很好的分布式集群管理的機(jī)制,就是它這種基于層次型的目錄樹(shù)的數(shù)據(jù)結(jié)構(gòu),并對(duì)樹(shù)中的節(jié)點(diǎn)進(jìn)行有效管理,從而可以設(shè)計(jì)出多種多樣的分布式的數(shù)據(jù)管 理模型,而不僅僅局限于上面提到的幾個(gè)常用應(yīng)用場(chǎng)景。


    Feedback

    # re: zookeeper 簡(jiǎn)介  回復(fù)  更多評(píng)論   

    2012-08-24 17:30 by 11111111
    牛人!!!!!!!

    只有注冊(cè)用戶(hù)登錄后才能發(fā)表評(píng)論。


    網(wǎng)站導(dǎo)航:
     
    主站蜘蛛池模板: 人人爽人人爽人人片A免费| 国拍在线精品视频免费观看| 亚洲中文无码永久免| 亚洲精品国产精品乱码视色| 日本黄页网站免费| 色老头永久免费网站| 青柠影视在线观看免费高清 | 亚洲精品无码mⅴ在线观看| 久久综合九九亚洲一区| 亚洲国产精品碰碰| 国产高清免费在线| 国产va免费精品观看精品| 最近的中文字幕大全免费8| 国产无遮挡裸体免费视频在线观看 | 日本视频在线观看永久免费| 久久精品国产亚洲AV未满十八| 亚洲av无码乱码国产精品fc2| 亚洲国产精品一区二区第四页| 精品剧情v国产在免费线观看| 99久久国产热无码精品免费| 最近中文字幕2019高清免费| 国色精品va在线观看免费视频| jizz免费在线影视观看网站| 免费中文字幕视频| 黄色一级毛片免费| 国产综合成人亚洲区| 亚洲成a∨人片在无码2023| 亚洲性无码一区二区三区| 亚洲 欧洲 自拍 另类 校园| 日本亚洲免费无线码| 亚洲日韩AV一区二区三区四区| 亚洲香蕉久久一区二区| 亚洲国产区男人本色在线观看| 久久精品国产99国产精品亚洲| 久久久久亚洲国产| 亚洲欧洲国产综合AV无码久久| 亚洲日韩看片无码电影| 亚洲AV女人18毛片水真多| 色妞www精品视频免费看| 免费人成网站永久| 一级特黄录像免费播放肥|