來自Facebook核心數(shù)據(jù)組的Jeff Johnson周三在QCon紐約的演講中公布了Apollo,它是Facebook的一種類似于Paxos的NoSQL數(shù)據(jù)庫。Apollo構(gòu)建于Apache Thrift 2 RPC框架,采用C++11開發(fā),是一種分層存儲系統(tǒng),所有數(shù)據(jù)被劃分到Shard,非常類似于HBase中的區(qū)域服務(wù)器。Johnson表示它最大的好處是在線低延遲存儲,特別是在Flash和內(nèi)存中。
區(qū)別于面向文檔和鍵值的存儲,Apollo是一種修改的數(shù)據(jù)結(jié)構(gòu),允許你存儲Map、隊列、樹以及鍵值等等。系統(tǒng)中每個單獨的數(shù)據(jù)塊都非常小,從1字節(jié)到1MB,而所有的總大小則從1MB到10+PB。它支持的服務(wù)器從最少三臺到數(shù)千臺之多。
每個Shard有四個組件。第一個是Quorum一致性協(xié)議,它基于來自斯坦福的強Leader一致性協(xié)議Raft。Johnson說他的團隊非常喜歡Raft的一個原因是Leader的故障恢復(fù)非常好定義,因為就是Quorum視圖的變化。話雖如此,他說這真的不比Multi-paxos簡單:
我們不得不做大量的工作,從讓你異步讀寫磁盤到處理Follower忙于后臺事務(wù)等場景,因為服務(wù)器上有其它東西或者磁盤非常慢,錯誤檢查等等。
第二個組件是存儲。目前主存儲基于RocksDB,是一種構(gòu)建于Google LevelDB的Key/Value存儲結(jié)構(gòu)。雖然它是Key/Value存儲,Facebook使用它來模擬其它數(shù)據(jù)結(jié)構(gòu)。Apollo被設(shè)計為可以存儲未知的結(jié)構(gòu),團隊也正在增加對MySQL的支持以作為一種替代存儲引擎。
第三個組件是客戶端API,它擁有read()和write()方法。Apollo在Shard層執(zhí)行的所有操作都是原子操作,因此你可以描述前置條件,如果滿足,它返回reads或writes。代碼示例如下:
read(conditions : {map(m1).contains(x)},
reads : {deque(d2).back()})
上面的代碼表示“如果Map m1包含x,就返回雙端隊列(Deque)d2的back上的值。”
你能將任意多個條件和任意數(shù)量的Read結(jié)合在一起。
Write也非常類似,同樣允許你描述條件:
write(conditions : {ver(k1) == v}, reads : {},
writes : {val(k1) := x})
最后一個組件是容錯狀態(tài)機(Fault Tolerant State Machine,FTSM)。它們主要由系統(tǒng)代碼使用,但也可以被用戶代碼使用。每個FTSM都屬于Shard,例如,在一個有三臺機器的Shard中,它們?nèi)客瑫r執(zhí)行相同的代碼。它們能存取每臺機器的持久化存儲。最重要的是,如果一個節(jié)點故障,代碼將按所有節(jié)點都同意的正確順序繼續(xù)執(zhí)行。
狀態(tài)機還被用于負載均衡、數(shù)據(jù)遷移、Shard創(chuàng)建和銷毀,以及協(xié)調(diào)跨Shard事務(wù)。狀態(tài)機也存在外部副作用,例如它們能發(fā)送RPC請求到遠程機器,但不論何時它們要變更持久化狀態(tài),都必須提交給Raft以取得所有服務(wù)器的同意。
Facebook目前將Apollo用于替換Memcached的一些應(yīng)用場景,同時Johnson也明確表示Facebook大規(guī)模地使用了Memcached。該公司同時正在嘗試使用它作為一種可靠的隊列系統(tǒng),用于發(fā)送Facebook消息到iOS、Android和運營商SMS。它也可能用于更快速的分析。
Apollo仍處于開發(fā)階段,還沒有開源,但Johnson說那是Facebook尋求并樂意去做的方式。Johnson的演示稿已經(jīng)提供給QCon紐約的參會者,在適當(dāng)?shù)臅r候會發(fā)布給所有人。
查看英文原文:Facebook Announces Apollo, a New NoSQL Database for On-line Low Latency Storage
posted on 2014-08-16 09:50
憶風(fēng) 閱讀(262)
評論(0) 編輯 收藏