亚洲AV无码一区二区乱子伦,亚洲男女内射在线播放,久久亚洲国产最新网站

分布式系統(tǒng)理論基礎 - 時間、時鐘和事件順序

jinfeng_wang — Fri, 03 Feb 2017 07:44:00 GMT

http://www.cnblogs.com/bangerlee/p/5448766.html

十六號…… 四月十六號。一九六零年四月十六號下午三點之前的一分鐘你和我在一起，因為你我會記住這一分鐘。從現(xiàn)在開始我們就是一分鐘的朋友，這是事實，你改變不了，因為已經過去了。我明天會再來。
—— 《阿飛正傳》

現(xiàn)實生活中時間是很重要的概念，時間可以記錄事情發(fā)生的時刻、比較事情發(fā)生的先后順序。分布式系統(tǒng)的一些場景也需要記錄和比較不同節(jié)點間事件發(fā)生的順序，但不同于日常生活使用物理時鐘記錄時間，分布式系統(tǒng)使用邏輯時鐘記錄事件順序關系，下面我們來看分布式系統(tǒng)中幾種常見的邏輯時鐘。

物理時鐘 vs 邏輯時鐘

可能有人會問，為什么分布式系統(tǒng)不使用物理時鐘(physical clock)記錄事件？每個事件對應打上一個時間戳，當需要比較順序的時候比較相應時間戳就好了。

這是因為現(xiàn)實生活中物理時間有統(tǒng)一的標準，而分布式系統(tǒng)中每個節(jié)點記錄的時間并不一樣，即使設置了 NTP 時間同步節(jié)點間也存在毫秒級別的偏差^[1][2]。因而分布式系統(tǒng)需要有另外的方法記錄事件順序關系，這就是邏輯時鐘(logical clock)。

Lamport timestamps

Leslie Lamport 在1978年提出邏輯時鐘的概念，并描述了一種邏輯時鐘的表示方法，這個方法被稱為Lamport時間戳(Lamport timestamps)^[3]。

分布式系統(tǒng)中按是否存在節(jié)點交互可分為三類事件，一類發(fā)生于節(jié)點內部，二是發(fā)送事件，三是接收事件。Lamport時間戳原理如下：

圖1: Lamport timestamps space time (圖片來源: wikipedia)

每個事件對應一個Lamport時間戳，初始值為0
如果事件在節(jié)點內發(fā)生，時間戳加1
如果事件屬于發(fā)送事件，時間戳加1并在消息中帶上該時間戳
如果事件屬于接收事件，時間戳 = Max(本地時間戳，消息中的時間戳) + 1

假設有事件a、b，C(a)、C(b)分別表示事件a、b對應的Lamport時間戳，如果C(a) < C(b)，則有a發(fā)生在b之前(happened before)，記作 a -> b，例如圖1中有 C1 -> B1。通過該定義，事件集中Lamport時間戳不等的事件可進行比較，我們獲得事件的偏序關系(partial order)。

如果C(a) = C(b)，那a、b事件的順序又是怎樣的？假設a、b分別在節(jié)點P、Q上發(fā)生，P_i、Q_j分別表示我們給P、Q的編號，如果 C(a) = C(b) 并且 P_i<Q_j，同樣定義為a發(fā)生在b之前，記作 a => b。假如我們對圖1的A、B、C分別編號A_i = 1、B_j = 2、C_k = 3，因 C(B4) = C(C3) 并且 B_j < C_k，則 B4 => C3。

通過以上定義，我們可以對所有事件排序、獲得事件的全序關系(total order)。上圖例子，我們可以從C1到A4進行排序。

Vector clock

Lamport時間戳幫助我們得到事件順序關系，但還有一種順序關系不能用Lamport時間戳很好地表示出來，那就是同時發(fā)生關系(concurrent)^[4]。例如圖1中事件B4和事件C3沒有因果關系，屬于同時發(fā)生事件，但Lamport時間戳定義兩者有先后順序。

Vector clock是在Lamport時間戳基礎上演進的另一種邏輯時鐘方法，它通過vector結構不但記錄本節(jié)點的Lamport時間戳，同時也記錄了其他節(jié)點的Lamport時間戳^[5][6]。Vector clock的原理與Lamport時間戳類似，使用圖例如下：

圖2: Vector clock space time (圖片來源: wikipedia)

假設有事件a、b分別在節(jié)點P、Q上發(fā)生，Vector clock分別為T_a、T_b，如果 T_b[Q] > T_a[Q] 并且 T_b[P] >= T_a[P]，則a發(fā)生于b之前，記作 a -> b。到目前為止還和Lamport時間戳差別不大，那Vector clock怎么判別同時發(fā)生關系呢？

如果 T_b[Q] > T_a[Q] 并且 T_b[P] < T_a[P]，則認為a、b同時發(fā)生，記作 a <-> b。例如圖2中節(jié)點B上的第4個事件 (A:2，B:4，C:1) 與節(jié)點C上的第2個事件 (B:3，C:2) 沒有因果關系、屬于同時發(fā)生事件。

Version vector

基于Vector clock我們可以獲得任意兩個事件的順序關系，結果或為先后順序或為同時發(fā)生，識別事件順序在工程實踐中有很重要的引申應用，最常見的應用是發(fā)現(xiàn)數(shù)據(jù)沖突(detect conflict)。

分布式系統(tǒng)中數(shù)據(jù)一般存在多個副本(replication)，多個副本可能被同時更新，這會引起副本間數(shù)據(jù)不一致^[7]，Version vector的實現(xiàn)與Vector clock非常類似^[8]，目的用于發(fā)現(xiàn)數(shù)據(jù)沖突^[9]。下面通過一個例子說明Version vector的用法^[10]：

圖3: Version vector

client端寫入數(shù)據(jù)，該請求被S_x處理并創(chuàng)建相應的vector ([S_x, 1])，記為數(shù)據(jù)D1
第2次請求也被S_x處理，數(shù)據(jù)修改為D2，vector修改為([S_x, 2])
第3、第4次請求分別被S_y、S_z處理，client端先讀取到D2，然后D3、D4被寫入S_y、S_z
第5次更新時client端讀取到D2、D3和D4 3個數(shù)據(jù)版本，通過類似Vector clock判斷同時發(fā)生關系的方法可判斷D3、D4存在數(shù)據(jù)沖突，最終通過一定方法解決數(shù)據(jù)沖突并寫入D5

Vector clock只用于發(fā)現(xiàn)數(shù)據(jù)沖突，不能解決數(shù)據(jù)沖突。如何解決數(shù)據(jù)沖突因場景而異，具體方法有以最后更新為準(last write win)，或將沖突的數(shù)據(jù)交給client由client端決定如何處理，或通過quorum決議事先避免數(shù)據(jù)沖突的情況發(fā)生^[11]。

由于記錄了所有數(shù)據(jù)在所有節(jié)點上的邏輯時鐘信息，Vector clock和Version vector在實際應用中可能面臨的一個問題是vector過大，用于數(shù)據(jù)管理的元數(shù)據(jù)(meta data)甚至大于數(shù)據(jù)本身^[12]。

解決該問題的方法是使用server id取代client id創(chuàng)建vector (因為server的數(shù)量相對client穩(wěn)定)，或設定最大的size、如果超過該size值則淘汰最舊的vector信息^[10][13]。

小結

以上介紹了分布式系統(tǒng)里邏輯時鐘的表示方法，通過Lamport timestamps可以建立事件的全序關系，通過Vector clock可以比較任意兩個事件的順序關系并且能表示無因果關系的事件，將Vector clock的方法用于發(fā)現(xiàn)數(shù)據(jù)版本沖突，于是有了Version vector。

[1] Time is an illusion, George Neville-Neil, 2016

[2] There is No Now, Justin Sheehy, 2015

[3] Time, Clocks, and the Ordering of Events in a Distributed System, Leslie Lamport, 1978

[4] Timestamps in Message-Passing Systems That Preserve the Partial Ordering, Colin J. Fidge, 1988

[5] Virtual Time and Global States of Distributed Systems, Friedemann Mattern, 1988

[6] Why Vector Clocks are Easy, Bryan Fink, 2010

[7] Conflict Management, CouchDB

[8] Version Vectors are not Vector Clocks, Carlos Baquero, 2011

[9] Detection of Mutual Inconsistency in Distributed Systems, IEEE Transactions on Software Engineering , 1983

[10] Dynamo: Amazon’s Highly Available Key-value Store, Amazon, 2007

[11] Conflict Resolution, Jeff Darcy , 2010

[12] Why Vector Clocks Are Hard, Justin Sheehy, 2010

[13] Causality Is Expensive (and What To Do About It), Peter Bailis ,2014

jinfeng_wang 2017-02-03 15:44 發(fā)表評論

分布式系統(tǒng)理論基礎 - 選舉、多數(shù)派和租約

jinfeng_wang — Fri, 03 Feb 2017 07:25:00 GMT

http://www.cnblogs.com/bangerlee/p/5767845.html

選舉(election)是分布式系統(tǒng)實踐中常見的問題，通過打破節(jié)點間的對等關系，選得的leader(或叫master、coordinator)有助于實現(xiàn)事務原子性、提升決議效率。多數(shù)派(quorum)的思路幫助我們在網絡分化的情況下達成決議一致性，在leader選舉的場景下幫助我們選出唯一leader。租約(lease)在一定期限內給予節(jié)點特定權利，也可以用于實現(xiàn)leader選舉。

下面我們就來學習分布式系統(tǒng)理論中的選舉、多數(shù)派和租約。

選舉(electioin)

一致性問題(consistency)是獨立的節(jié)點間如何達成決議的問題，選出大家都認可的leader本質上也是一致性問題，因而如何應對宕機恢復、網絡分化等在leader選舉中也需要考量。

Bully算法^[1]是最常見的選舉算法，其要求每個節(jié)點對應一個序號，序號最高的節(jié)點為leader。leader宕機后次高序號的節(jié)點被重選為leader，過程如下：

(a). 節(jié)點4發(fā)現(xiàn)leader不可達，向序號比自己高的節(jié)點發(fā)起重新選舉，重新選舉消息中帶上自己的序號

(b)(c). 節(jié)點5、6接收到重選信息后進行序號比較，發(fā)現(xiàn)自身的序號更大，向節(jié)點4返回OK消息并各自向更高序號節(jié)點發(fā)起重新選舉

(d). 節(jié)點5收到節(jié)點6的OK消息，而節(jié)點6經過超時時間后收不到更高序號節(jié)點的OK消息，則認為自己是leader

(e). 節(jié)點6把自己成為leader的信息廣播到所有節(jié)點

回顧《分布式系統(tǒng)理論基礎 - 一致性、2PC和3PC》就可以看到，Bully算法中有2PC的身影，都具有提議(propose)和收集反饋(vote)的過程。

在一致性算法Paxos、ZAB^[2]、Raft^[3]中，為提升決議效率均有節(jié)點充當leader的角色。ZAB、Raft中描述了具體的leader選舉實現(xiàn)，與Bully算法類似ZAB中使用zxid標識節(jié)點，具有最大zxid的節(jié)點表示其所具備的事務(transaction)最新、被選為leader。

多數(shù)派(quorum)

在網絡分化的場景下以上Bully算法會遇到一個問題，被分隔的節(jié)點都認為自己具有最大的序號、將產生多個leader，這時候就需要引入多數(shù)派(quorum)^[4]。多數(shù)派的思路在分布式系統(tǒng)中很常見，其確保網絡分化情況下決議唯一。

多數(shù)派的原理說起來很簡單，假如節(jié)點總數(shù)為2f+1，則一項決議得到多于 f 節(jié)點贊成則獲得通過。leader選舉中，網絡分化場景下只有具備多數(shù)派節(jié)點的部分才可能選出leader，這避免了多l(xiāng)eader的產生。

多數(shù)派的思路還被應用于副本(replica)管理，根據(jù)業(yè)務實際讀寫比例調整寫副本數(shù)V_w、讀副本數(shù)V_r，用以在可靠性和性能方面取得平衡^[5]。

租約(lease)

選舉中很重要的一個問題，以上尚未提到：怎么判斷l(xiāng)eader不可用、什么時候應該發(fā)起重新選舉？最先可能想到會通過心跳(heart beat)判別leader狀態(tài)是否正常，但在網絡擁塞或瞬斷的情況下，這容易導致出現(xiàn)雙主。

租約(lease)是解決該問題的常用方法，其最初提出時用于解決分布式緩存一致性問題^[6]，后面在分布式鎖^[7]等很多方面都有應用。

租約的原理同樣不復雜，中心思想是每次租約時長內只有一個節(jié)點獲得租約、到期后必須重新頒發(fā)租約。假設我們有租約頒發(fā)節(jié)點Z，節(jié)點0、1和2競選leader，租約過程如下：

(a). 節(jié)點0、1、2在Z上注冊自己，Z根據(jù)一定的規(guī)則(例如先到先得)頒發(fā)租約給節(jié)點，該租約同時對應一個有效時長；這里假設節(jié)點0獲得租約、成為leader

(b). leader宕機時，只有租約到期(timeout)后才重新發(fā)起選舉，這里節(jié)點1獲得租約、成為leader

租約機制確保了一個時刻最多只有一個leader，避免只使用心跳機制產生雙主的問題。在實踐應用中，zookeeper、ectd可用于租約頒發(fā)。

小結

在分布式系統(tǒng)理論和實踐中，常見leader、quorum和lease的身影。分布式系統(tǒng)內不一定事事協(xié)商、事事民主，leader的存在有助于提升決議效率。

本文以leader選舉作為例子引入和講述quorum、lease，當然quorum和lease是兩種思想，并不限于leader選舉應用。

最后提一個有趣的問題與大家思考，leader選舉的本質是一致性問題，Paxos、Raft和ZAB等解決一致性問題的協(xié)議和算法本身又需要或依賴于leader，怎么理解這個看似“蛋生雞、雞生蛋”的問題？^[8]

[1] Elections in a Distributed Computing System, Hector Garcia-Molina, 1982

[2] ZooKeeper’s atomic broadcast protocol: Theory and practice, Andre Medeiros, 2012

[3] In Search of an Understandable Consensus Algorithm, Diego Ongaro and John Ousterhout, 2013

[4] A quorum-based commit protocol, Dale Skeen, 1982

[5] Weighted Voting for Replicated Data, David K. Gifford, 1979

[6] Leases: An Efficient Fault-Tolerant Mechanism for Distributed File Cache Consistency, Cary G. Gray and David R. Cheriton, 1989

[7] The Chubby lock service for loosely-coupled distributed systems, Mike Burrows, 2006

[8] Why is Paxos leader election not done using Paxos?

jinfeng_wang 2017-02-03 15:25 發(fā)表評論

分布式系統(tǒng)理論基礎 - 一致性、2PC和3PC

jinfeng_wang — Fri, 03 Feb 2017 07:02:00 GMT

http://www.cnblogs.com/bangerlee/p/5268485.html

引言

狹義的分布式系統(tǒng)指由網絡連接的計算機系統(tǒng)，每個節(jié)點獨立地承擔計算或存儲任務，節(jié)點間通過網絡協(xié)同工作。廣義的分布式系統(tǒng)是一個相對的概念，正如Leslie Lamport所說^[1]：

What is a distributed systeme. Distribution is in the eye of the beholder.
To the user sitting at the keyboard, his IBM personal computer is a nondistributed system.
To a flea crawling around on the circuit board, or to the engineer who designed it, it's very much a distributed system.

一致性是分布式理論中的根本性問題，近半個世紀以來，科學家們圍繞著一致性問題提出了很多理論模型，依據(jù)這些理論模型，業(yè)界也出現(xiàn)了很多工程實踐投影。下面我們從一致性問題、特定條件下解決一致性問題的兩種方法(2PC、3PC)入門，了解最基礎的分布式系統(tǒng)理論。

一致性(consensus)

何為一致性問題？簡單而言，一致性問題就是相互獨立的節(jié)點之間如何達成一項決議的問題。分布式系統(tǒng)中，進行數(shù)據(jù)庫事務提交(commit transaction)、Leader選舉、序列號生成等都會遇到一致性問題。這個問題在我們的日常生活中也很常見，比如牌友怎么商定幾點在哪打幾圈麻將：

《賭圣》，1990

假設一個具有N個節(jié)點的分布式系統(tǒng)，當其滿足以下條件時，我們說這個系統(tǒng)滿足一致性：

全認同(agreement): 所有N個節(jié)點都認同一個結果
值合法(validity): 該結果必須由N個節(jié)點中的節(jié)點提出
可結束(termination): 決議過程在一定時間內結束，不會無休止地進行下去

有人可能會說，決定什么時候在哪搓搓麻將，4個人商量一下就ok，這不很簡單嗎？

但就這樣看似簡單的事情，分布式系統(tǒng)實現(xiàn)起來并不輕松，因為它面臨著這些問題：

消息傳遞異步無序(asynchronous): 現(xiàn)實網絡不是一個可靠的信道，存在消息延時、丟失，節(jié)點間消息傳遞做不到同步有序(synchronous)
節(jié)點宕機(fail-stop): 節(jié)點持續(xù)宕機，不會恢復
節(jié)點宕機恢復(fail-recover): 節(jié)點宕機一段時間后恢復，在分布式系統(tǒng)中最常見
網絡分化(network partition): 網絡鏈路出現(xiàn)問題，將N個節(jié)點隔離成多個部分
拜占庭將軍問題(byzantine failure)^[2]: 節(jié)點或宕機或邏輯失敗，甚至不按套路出牌拋出干擾決議的信息

假設現(xiàn)實場景中也存在這樣的問題，我們看看結果會怎樣：

我: 老王，今晚7點老地方，搓夠48圈不見不散！ …… （第二天凌晨3點） 隔壁老王: 沒問題！       // 消息延遲 我: …… ---------------------------------------------- 我: 小張，今晚7點老地方，搓夠48圈不見不散！ 小張: No ……                            （兩小時后……） 小張: No problem！                     // 宕機節(jié)點恢復 我: …… ----------------------------------------------- 我: 老李頭，今晚7點老地方，搓夠48圈不見不散！ 老李: 必須的，大保健走起！               // 拜占庭將軍
（這是要打麻將呢？還是要大保健？還是一邊打麻將一邊大保健……）

還能不能一起愉快地玩耍...

我們把以上所列的問題稱為系統(tǒng)模型(system model)，討論分布式系統(tǒng)理論和工程實踐的時候，必先劃定模型。例如有以下兩種模型：

異步環(huán)境(asynchronous)下，節(jié)點宕機(fail-stop)
異步環(huán)境(asynchronous)下，節(jié)點宕機恢復(fail-recover)、網絡分化(network partition)

2比1多了節(jié)點恢復、網絡分化的考量，因而對這兩種模型的理論研究和工程解決方案必定是不同的，在還沒有明晰所要解決的問題前談解決方案都是一本正經地耍流氓。

一致性還具備兩個屬性，一個是強一致(safety)，它要求所有節(jié)點狀態(tài)一致、共進退；一個是可用(liveness)，它要求分布式系統(tǒng)24*7無間斷對外服務。FLP定理(FLP impossibility)^[3][4]已經證明在一個收窄的模型中(異步環(huán)境并只存在節(jié)點宕機)，不能同時滿足 safety 和 liveness。

FLP定理是分布式系統(tǒng)理論中的基礎理論，正如物理學中的能量守恒定律徹底否定了永動機的存在，F(xiàn)LP定理否定了同時滿足safety 和 liveness 的一致性協(xié)議的存在。

《怦然心動 (Flipped)》，2010

工程實踐上根據(jù)具體的業(yè)務場景，或保證強一致(safety)，或在節(jié)點宕機、網絡分化的時候保證可用(liveness)。2PC、3PC是相對簡單的解決一致性問題的協(xié)議，下面我們就來了解2PC和3PC。

2PC

2PC(tow phase commit)兩階段提交^[5]顧名思義它分成兩個階段，先由一方進行提議(propose)并收集其他節(jié)點的反饋(vote)，再根據(jù)反饋決定提交(commit)或中止(abort)事務。我們將提議的節(jié)點稱為協(xié)調者(coordinator)，其他參與決議節(jié)點稱為參與者(participants, 或cohorts)：

2PC, phase one

在階段1中，coordinator發(fā)起一個提議，分別問詢各participant是否接受。

2PC, phase two

在階段2中，coordinator根據(jù)participant的反饋，提交或中止事務，如果participant全部同意則提交，只要有一個participant不同意就中止。

在異步環(huán)境(asynchronous)并且沒有節(jié)點宕機(fail-stop)的模型下，2PC可以滿足全認同、值合法、可結束，是解決一致性問題的一種協(xié)議。但如果再加上節(jié)點宕機(fail-recover)的考慮，2PC是否還能解決一致性問題呢？

coordinator如果在發(fā)起提議后宕機，那么participant將進入阻塞(block)狀態(tài)、一直等待coordinator回應以完成該次決議。這時需要另一角色把系統(tǒng)從不可結束的狀態(tài)中帶出來，我們把新增的這一角色叫協(xié)調者備份(coordinator watchdog)。coordinator宕機一定時間后，watchdog接替原coordinator工作，通過問詢(query) 各participant的狀態(tài)，決定階段2是提交還是中止。這也要求 coordinator/participant 記錄(logging)歷史狀態(tài)，以備coordinator宕機后watchdog對participant查詢、coordinator宕機恢復后重新找回狀態(tài)。

從coordinator接收到一次事務請求、發(fā)起提議到事務完成，經過2PC協(xié)議后增加了2次RTT(propose+commit)，帶來的時延(latency)增加相對較少。

3PC

3PC(three phase commit)即三階段提交^[6][7]，既然2PC可以在異步網絡+節(jié)點宕機恢復的模型下實現(xiàn)一致性，那還需要3PC做什么，3PC是什么鬼？

在2PC中一個participant的狀態(tài)只有它自己和coordinator知曉，假如coordinator提議后自身宕機，在watchdog啟用前一個participant又宕機，其他participant就會進入既不能回滾、又不能強制commit的阻塞狀態(tài)，直到participant宕機恢復。這引出兩個疑問：

能不能去掉阻塞，使系統(tǒng)可以在commit/abort前回滾(rollback)到決議發(fā)起前的初始狀態(tài)
當次決議中，participant間能不能相互知道對方的狀態(tài)，又或者participant間根本不依賴對方的狀態(tài)

相比2PC，3PC增加了一個準備提交(prepare to commit)階段來解決以上問題：

圖片截取自wikipedia

coordinator接收完participant的反饋(vote)之后，進入階段2，給各個participant發(fā)送準備提交(prepare to commit)指令。participant接到準備提交指令后可以鎖資源，但要求相關操作必須可回滾。coordinator接收完確認(ACK)后進入階段3、進行commit/abort，3PC的階段3與2PC的階段2無異。協(xié)調者備份(coordinator watchdog)、狀態(tài)記錄(logging)同樣應用在3PC。

participant如果在不同階段宕機，我們來看看3PC如何應對：

階段1: coordinator或watchdog未收到宕機participant的vote，直接中止事務；宕機的participant恢復后，讀取logging發(fā)現(xiàn)未發(fā)出贊成vote，自行中止該次事務
階段2: coordinator未收到宕機participant的precommit ACK，但因為之前已經收到了宕機participant的贊成反饋(不然也不會進入到階段2)，coordinator進行commit；watchdog可以通過問詢其他participant獲得這些信息，過程同理；宕機的participant恢復后發(fā)現(xiàn)收到precommit或已經發(fā)出贊成vote，則自行commit該次事務
階段3: 即便coordinator或watchdog未收到宕機participant的commit ACK，也結束該次事務；宕機的participant恢復后發(fā)現(xiàn)收到commit或者precommit，也將自行commit該次事務

因為有了準備提交(prepare to commit)階段，3PC的事務處理延時也增加了1個RTT，變?yōu)?個RTT(propose+precommit+commit)，但是它防止participant宕機后整個系統(tǒng)進入阻塞態(tài)，增強了系統(tǒng)的可用性，對一些現(xiàn)實業(yè)務場景是非常值得的。

小結

以上介紹了分布式系統(tǒng)理論中的部分基礎知識，闡述了一致性(consensus)的定義和實現(xiàn)一致性所要面臨的問題，最后討論在異步網絡(asynchronous)、節(jié)點宕機恢復(fail-recover)模型下2PC、3PC怎么解決一致性問題。

閱讀前人對分布式系統(tǒng)的各項理論研究，其中有嚴謹?shù)赝评怼⒆C明，有一種數(shù)學的美；觀現(xiàn)實中的分布式系統(tǒng)實現(xiàn)，是綜合各種因素下妥協(xié)的結果。

[1] Solved Problems, Unsolved Problems and Problems in Concurrency, Leslie Lamport, 1983

[2] The Byzantine Generals Problem, Leslie Lamport,Robert Shostak and Marshall Pease, 1982

[3] Impossibility of Distributed Consensus with One Faulty Process, Fischer, Lynch and Patterson, 1985

[4] FLP Impossibility的證明, Daniel Wu, 2015

[5] Consensus Protocols: Two-Phase Commit, Henry Robinson, 2008

[6] Consensus Protocols: Three-phase Commit, Henry Robinson, 2008

[7] Three-phase commit protocol, Wikipedia

jinfeng_wang 2017-02-03 15:02 發(fā)表評論

CoreOS 實戰(zhàn)：剖析 etcd

jinfeng_wang — Fri, 03 Feb 2017 06:12:00 GMT

摘要: http://www.infoq.com/cn/articles/coreos-analyse-etcd/【編者按】CoreOS是一個基于Docker的輕量級容器化Linux發(fā)行版，專為大型數(shù)據(jù)中心而設計，旨在通過輕量的系統(tǒng)架構和靈活的應用程序部署能力簡化數(shù)據(jù)中心的維護成本和復雜度。CoreOS作為Docker生態(tài)圈中的重要一員，日益得到各大云服務商的重視，目前已經完成了A輪融資，發(fā)展風頭正勁。I... 閱讀全文

jinfeng_wang 2017-02-03 14:12 發(fā)表評論

水平分庫分表的關鍵步驟以及可能遇到的問題

jinfeng_wang — Tue, 17 Jan 2017 06:29:00 GMT

http://www.infoq.com/cn/articles/key-steps-and-likely-problems-of-split-table

http://www.infoq.com/cn/articles/key-steps-and-likely-problems-of-horizontal-split-table

在談論數(shù)據(jù)庫架構和數(shù)據(jù)庫優(yōu)化的時候，我們經常會聽到“分庫分表”、“分片”、“Sharding”…這樣的關鍵詞。讓人感到高興的是，這些朋友所服務的公司業(yè)務量正在（或者即將面臨）高速增長，技術方面也面臨著一些挑戰(zhàn)。讓人感到擔憂的是，他們系統(tǒng)真的就需要“分庫分表”了嗎？“分庫分表”有那么容易實踐嗎？為此，筆者整理了分庫分表中可能遇到的一些問題，并結合以往經驗介紹了對應的解決思路和建議。

垂直分表

垂直分表在日常開發(fā)和設計中比較常見，通俗的說法叫做“大表拆小表”，拆分是基于關系型數(shù)據(jù)庫中的“列”（字段）進行的。通常情況，某個表中的字段比較多，可以新建立一張“擴展表”，將不經常使用或者長度較大的字段拆分出去放到“擴展表”中，如下圖所示：

小結

在字段很多的情況下，拆分開確實更便于開發(fā)和維護（筆者曾見過某個遺留系統(tǒng)中，一個大表中包含100多列的）。某種意義上也能避免“跨頁”的問題（MySQL、MSSQL底層都是通過“數(shù)據(jù)頁”來存儲的，“跨頁”問題可能會造成額外的性能開銷，這里不展開，感興趣的朋友可以自行查閱相關資料進行研究）。

拆分字段的操作建議在數(shù)據(jù)庫設計階段就做好。如果是在發(fā)展過程中拆分，則需要改寫以前的查詢語句，會額外帶來一定的成本和風險，建議謹慎。

垂直分庫

垂直分庫在“微服務”盛行的今天已經非常普及了。基本的思路就是按照業(yè)務模塊來劃分出不同的數(shù)據(jù)庫，而不是像早期一樣將所有的數(shù)據(jù)表都放到同一個數(shù)據(jù)庫中。如下圖：

小結

系統(tǒng)層面的“服務化”拆分操作，能夠解決業(yè)務系統(tǒng)層面的耦合和性能瓶頸，有利于系統(tǒng)的擴展維護。而數(shù)據(jù)庫層面的拆分，道理也是相通的。與服務的“治理”和“降級”機制類似，我們也能對不同業(yè)務類型的數(shù)據(jù)進行“分級”管理、維護、監(jiān)控、擴展等。

眾所周知，數(shù)據(jù)庫往往最容易成為應用系統(tǒng)的瓶頸，而數(shù)據(jù)庫本身屬于“有狀態(tài)”的，相對于Web和應用服務器來講，是比較難實現(xiàn)“橫向擴展”的。數(shù)據(jù)庫的連接資源比較寶貴且單機處理能力也有限，在高并發(fā)場景下，垂直分庫一定程度上能夠突破IO、連接數(shù)及單機硬件資源的瓶頸，是大型分布式系統(tǒng)中優(yōu)化數(shù)據(jù)庫架構的重要手段。

然后，很多人并沒有從根本上搞清楚為什么要拆分，也沒有掌握拆分的原則和技巧，只是一味的模仿大廠的做法。導致拆分后遇到很多問題（例如：跨庫join，分布式事務等）。

水平分表

水平分表也稱為橫向分表，比較容易理解，就是將表中不同的數(shù)據(jù)行按照一定規(guī)律分布到不同的數(shù)據(jù)庫表中（這些表保存在同一個數(shù)據(jù)庫中），這樣來降低單表數(shù)據(jù)量，優(yōu)化查詢性能。最常見的方式就是通過主鍵或者時間等字段進行Hash和取模后拆分。如下圖所示：

小結

水平分表，能夠降低單表的數(shù)據(jù)量，一定程度上可以緩解查詢性能瓶頸。但本質上這些表還保存在同一個庫中，所以庫級別還是會有IO瓶頸。所以，一般不建議采用這種做法。

水平分庫分表

水平分庫分表與上面講到的水平分表的思想相同，唯一不同的就是將這些拆分出來的表保存在不同的數(shù)據(jù)中。這也是很多大型互聯(lián)網公司所選擇的做法。如下圖：

某種意義上來講，有些系統(tǒng)中使用的“冷熱數(shù)據(jù)分離”（將一些使用較少的歷史數(shù)據(jù)遷移到其他的數(shù)據(jù)庫中。而在業(yè)務功能上，通常默認只提供熱點數(shù)據(jù)的查詢），也是類似的實踐。在高并發(fā)和海量數(shù)據(jù)的場景下，分庫分表能夠有效緩解單機和單庫的性能瓶頸和壓力，突破IO、連接數(shù)、硬件資源的瓶頸。當然，投入的硬件成本也會更高。同時，這也會帶來一些復雜的技術問題和挑戰(zhàn)（例如：跨分片的復雜查詢，跨分片事務等）

分庫分表的難點

垂直分庫帶來的問題和解決思路：

跨庫join的問題

在拆分之前，系統(tǒng)中很多列表和詳情頁所需的數(shù)據(jù)是可以通過sql join來完成的。而拆分后，數(shù)據(jù)庫可能是分布式在不同實例和不同的主機上，join將變得非常麻煩。而且基于架構規(guī)范，性能，安全性等方面考慮，一般是禁止跨庫join的。那該怎么辦呢？首先要考慮下垂直分庫的設計問題，如果可以調整，那就優(yōu)先調整。如果無法調整的情況，下面筆者將結合以往的實際經驗，總結幾種常見的解決思路，并分析其適用場景。

跨庫Join的幾種解決思路

全局表

所謂全局表，就是有可能系統(tǒng)中所有模塊都可能會依賴到的一些表。比較類似我們理解的“數(shù)據(jù)字典”。為了避免跨庫join查詢，我們可以將這類表在其他每個數(shù)據(jù)庫中均保存一份。同時，這類數(shù)據(jù)通常也很少發(fā)生修改（甚至幾乎不會），所以也不用太擔心“一致性”問題。

字段冗余

這是一種典型的反范式設計，在互聯(lián)網行業(yè)中比較常見，通常是為了性能來避免join查詢。

舉個電商業(yè)務中很簡單的場景：

“訂單表”中保存“賣家Id”的同時，將賣家的“Name”字段也冗余，這樣查詢訂單詳情的時候就不需要再去查詢“賣家用戶表”。

字段冗余能帶來便利，是一種“空間換時間”的體現(xiàn)。但其適用場景也比較有限，比較適合依賴字段較少的情況。最復雜的還是數(shù)據(jù)一致性問題，這點很難保證，可以借助數(shù)據(jù)庫中的觸發(fā)器或者在業(yè)務代碼層面去保證。當然，也需要結合實際業(yè)務場景來看一致性的要求。就像上面例子，如果賣家修改了Name之后，是否需要在訂單信息中同步更新呢？

數(shù)據(jù)同步

定時A庫中的tab_a表和B庫中tbl_b有關聯(lián)，可以定時將指定的表做同步。當然，同步本來會對數(shù)據(jù)庫帶來一定的影響，需要性能影響和數(shù)據(jù)時效性中取得一個平衡。這樣來避免復雜的跨庫查詢。筆者曾經在項目中是通過ETL工具來實施的。

系統(tǒng)層組裝

在系統(tǒng)層面，通過調用不同模塊的組件或者服務，獲取到數(shù)據(jù)并進行字段拼裝。說起來很容易，但實踐起來可真沒有這么簡單，尤其是數(shù)據(jù)庫設計上存在問題但又無法輕易調整的時候。

具體情況通常會比較復雜。下面筆者結合以往實際經驗，并通過偽代碼方式來描述。

簡單的列表查詢的情況

偽代碼很容易理解，先獲取“我的提問列表”數(shù)據(jù)，然后再根據(jù)列表中的UserId去循環(huán)調用依賴的用戶服務獲取到用戶的RealName，拼裝結果并返回。

有經驗的讀者一眼就能看出上訴偽代碼存在效率問題。循環(huán)調用服務，可能會有循環(huán)RPC，循環(huán)查詢數(shù)據(jù)庫…不推薦使用。再看看改進后的：

這種實現(xiàn)方式，看起來要優(yōu)雅一點，其實就是把循環(huán)調用改成一次調用。當然，用戶服務的數(shù)據(jù)庫查詢中很可能是In查詢，效率方面比上一種方式更高。（坊間流傳In查詢會全表掃描，存在性能問題，傳聞不可全信。其實查詢優(yōu)化器都是基本成本估算的，經過測試，在In語句中條件字段有索引的時候，條件較少的情況是會走索引的。這里不細展開說明，感興趣的朋友請自行測試）。

小結

簡單字段組裝的情況下，我們只需要先獲取“主表”數(shù)據(jù)，然后再根據(jù)關聯(lián)關系，調用其他模塊的組件或服務來獲取依賴的其他字段（如例中依賴的用戶信息），最后將數(shù)據(jù)進行組裝。

通常，我們都會通過緩存來避免頻繁RPC通信和數(shù)據(jù)庫查詢的開銷。

列表查詢帶條件過濾的情況

在上述例子中，都是簡單的字段組裝，而不存在條件過濾。看拆分前的SQL：

這種連接查詢并且還帶條件過濾的情況，想在代碼層面組裝數(shù)據(jù)其實是非常復雜的（尤其是左表和右表都帶條件過濾的情況會更復雜），不能像之前例子中那樣簡單的進行組裝了。試想一下，如果像上面那樣簡單的進行組裝，造成的結果就是返回的數(shù)據(jù)不完整，不準確。

有如下幾種解決思路：

查出所有的問答數(shù)據(jù)，然后調用用戶服務進行拼裝數(shù)據(jù)，再根據(jù)過濾字段state字段進行過濾，最后進行排序和分頁并返回。
這種方式能夠保證數(shù)據(jù)的準確性和完整性，但是性能影響非常大，不建議使用。
查詢出state字段符合/不符合的UserId，在查詢問答數(shù)據(jù)的時候使用in/not in進行過濾，排序，分頁等。過濾出有效的問答數(shù)據(jù)后，再調用用戶服務獲取數(shù)據(jù)進行組裝。
這種方式明顯更優(yōu)雅點。筆者之前在某個項目的特殊場景中就是采用過這種方式實現(xiàn)。

跨庫事務（分布式事務）的問題

按業(yè)務拆分數(shù)據(jù)庫之后，不可避免的就是“分布式事務”的問題。以往在代碼中通過spring注解簡單配置就能實現(xiàn)事務的，現(xiàn)在則需要花很大的成本去保證一致性。這里不展開介紹，
感興趣的讀者可以自行參考《分布式事務一致性解決方案》，鏈接地址：
http://www.infoq.com/cn/articles/solution-of-distributed-system-transaction-consistency

垂直分庫總結和實踐建議

本篇中主要描述了幾種常見的拆分方式，并著重介紹了垂直分庫帶來的一些問題和解決思路。讀者朋友可能還有些問題和疑惑。

1. 我們目前的數(shù)據(jù)庫是否需要進行垂直分庫？

根據(jù)系統(tǒng)架構和公司實際情況來，如果你們的系統(tǒng)還是個簡單的單體應用，并且沒有什么訪問量和數(shù)據(jù)量，那就別著急折騰“垂直分庫”了，否則沒有任何收益，也很難有好結果。
切記，“過度設計”和“過早優(yōu)化”是很多架構師和技術人員常犯的毛病。

2. 垂直拆分有沒有原則或者技巧？

沒有什么黃金法則和標準答案。一般是參考系統(tǒng)的業(yè)務模塊拆分來進行數(shù)據(jù)庫的拆分。比如“用戶服務”，對應的可能就是“用戶數(shù)據(jù)庫”。但是也不一定嚴格一一對應。有些情況下，數(shù)據(jù)庫拆分的粒度可能會比系統(tǒng)拆分的粒度更粗。筆者也確實見過有些系統(tǒng)中的某些表原本應該放A庫中的，卻放在了B庫中。有些庫和表原本是可以合并的，卻單獨保存著。還有些表，看起來放在A庫中也OK，放在B庫中也合理。
如何設計和權衡，這個就看實際情況和架構師/開發(fā)人員的水平了。

3. 上面舉例的都太簡單了，我們的后臺報表系統(tǒng)中join的表都有n個了，
分庫后該怎么查？

有很多朋友跟我提過類似的問題。其實互聯(lián)網的業(yè)務系統(tǒng)中，本來就應該盡量避免join的，如果有多個join的，要么是設計不合理，要么是技術選型有誤。請自行科普下OLAP和OLTP，報表類的系統(tǒng)在傳統(tǒng)BI時代都是通過OLAP數(shù)據(jù)倉庫去實現(xiàn)的（現(xiàn)在則更多是借助離線分析、流式計算等手段實現(xiàn)），而不該向上面描述的那樣直接在業(yè)務庫中執(zhí)行大量join和統(tǒng)計。

由于篇幅關系，下篇中我們再繼續(xù)細聊“水平分庫分表”相關的話題。

分享到：微博微信 Facebook Twitter 有道云筆記郵件分享
稍后閱讀
我的閱讀清單

在之前的文章中，我介紹了分庫分表的幾種表現(xiàn)形式和玩法，也重點介紹了垂直分庫所帶來的問題和解決方法。本篇中，我們將繼續(xù)聊聊水平分庫分表的一些技巧。

分片技術的由來

關系型數(shù)據(jù)庫本身比較容易成為系統(tǒng)性能瓶頸，單機存儲容量、連接數(shù)、處理能力等都很有限，數(shù)據(jù)庫本身的“有狀態(tài)性”導致了它并不像Web和應用服務器那么容易擴展。在互聯(lián)網行業(yè)海量數(shù)據(jù)和高并發(fā)訪問的考驗下，聰明的技術人員提出了分庫分表技術（有些地方也稱為Sharding、分片）。同時，流行的分布式系統(tǒng)中間件（例如MongoDB、ElasticSearch等）均自身友好支持Sharding，其原理和思想都是大同小異的。

分布式全局唯一ID

在很多中小項目中，我們往往直接使用數(shù)據(jù)庫自增特性來生成主鍵ID，這樣確實比較簡單。而在分庫分表的環(huán)境中，數(shù)據(jù)分布在不同的分片上，不能再借助數(shù)據(jù)庫自增長特性直接生成，否則會造成不同分片上的數(shù)據(jù)表主鍵會重復。簡單介紹下使用和了解過的幾種ID生成算法。

Twitter的Snowflake（又名“雪花算法”）
UUID/GUID（一般應用程序和數(shù)據(jù)庫均支持）
MongoDB ObjectID（類似UUID的方式）
Ticket Server（數(shù)據(jù)庫生存方式，F(xiàn)lickr采用的就是這種方式）

其中，Twitter 的Snowflake算法是筆者近幾年在分布式系統(tǒng)項目中使用最多的，未發(fā)現(xiàn)重復或并發(fā)的問題。該算法生成的是64位唯一Id（由41位的timestamp+ 10位自定義的機器碼+ 13位累加計數(shù)器組成）。這里不做過多介紹，感興趣的讀者可自行查閱相關資料。

常見分片規(guī)則和策略

分片字段該如何選擇

在開始分片之前，我們首先要確定分片字段（也可稱為“片鍵”）。很多常見的例子和場景中是采用ID或者時間字段進行拆分。這也并不絕對的，我的建議是結合實際業(yè)務，通過對系統(tǒng)中執(zhí)行的sql語句進行統(tǒng)計分析，選擇出需要分片的那個表中最頻繁被使用，或者最重要的字段來作為分片字段。

常見分片規(guī)則

常見的分片策略有隨機分片和連續(xù)分片這兩種，如下圖所示：

當需要使用分片字段進行范圍查找時，連續(xù)分片可以快速定位分片進行高效查詢，大多數(shù)情況下可以有效避免跨分片查詢的問題。后期如果想對整個分片集群擴容時，只需要添加節(jié)點即可，無需對其他分片的數(shù)據(jù)進行遷移。但是，連續(xù)分片也有可能存在數(shù)據(jù)熱點的問題，就像圖中按時間字段分片的例子，有些節(jié)點可能會被頻繁查詢壓力較大，熱數(shù)據(jù)節(jié)點就成為了整個集群的瓶頸。而有些節(jié)點可能存的是歷史數(shù)據(jù)，很少需要被查詢到。

隨機分片其實并不是隨機的，也遵循一定規(guī)則。通常，我們會采用Hash取模的方式進行分片拆分，所以有些時候也被稱為離散分片。隨機分片的數(shù)據(jù)相對比較均勻，不容易出現(xiàn)熱點和并發(fā)訪問的瓶頸。但是，后期分片集群擴容起來需要遷移舊的數(shù)據(jù)。使用一致性Hash算法能夠很大程度的避免這個問題，所以很多中間件的分片集群都會采用一致性Hash算法。離散分片也很容易面臨跨分片查詢的復雜問題。

數(shù)據(jù)遷移，容量規(guī)劃，擴容等問題

很少有項目會在初期就開始考慮分片設計的，一般都是在業(yè)務高速發(fā)展面臨性能和存儲的瓶頸時才會提前準備。因此，不可避免的就需要考慮歷史數(shù)據(jù)遷移的問題。一般做法就是通過程序先讀出歷史數(shù)據(jù)，然后按照指定的分片規(guī)則再將數(shù)據(jù)寫入到各個分片節(jié)點中。

此外，我們需要根據(jù)當前的數(shù)據(jù)量和QPS等進行容量規(guī)劃，綜合成本因素，推算出大概需要多少分片（一般建議單個分片上的單表數(shù)據(jù)量不要超過1000W）。

如果是采用隨機分片，則需要考慮后期的擴容問題，相對會比較麻煩。如果是采用的范圍分片，只需要添加節(jié)點就可以自動擴容。

跨分片技術問題

跨分片的排序分頁

一般來講，分頁時需要按照指定字段進行排序。當排序字段就是分片字段的時候，我們通過分片規(guī)則可以比較容易定位到指定的分片，而當排序字段非分片字段的時候，情況就會變得比較復雜了。為了最終結果的準確性，我們需要在不同的分片節(jié)點中將數(shù)據(jù)進行排序并返回，并將不同分片返回的結果集進行匯總和再次排序，最后再返回給用戶。如下圖所示：

上面圖中所描述的只是最簡單的一種情況（取第一頁數(shù)據(jù)），看起來對性能的影響并不大。但是，如果想取出第10頁數(shù)據(jù)，情況又將變得復雜很多，如下圖所示：

有些讀者可能并不太理解，為什么不能像獲取第一頁數(shù)據(jù)那樣簡單處理（排序取出前10條再合并、排序）。其實并不難理解，因為各分片節(jié)點中的數(shù)據(jù)可能是隨機的，為了排序的準確性，必須把所有分片節(jié)點的前N頁數(shù)據(jù)都排序好后做合并，最后再進行整體的排序。很顯然，這樣的操作是比較消耗資源的，用戶越往后翻頁，系統(tǒng)性能將會越差。

跨分片的函數(shù)處理

在使用Max、Min、Sum、Count之類的函數(shù)進行統(tǒng)計和計算的時候，需要先在每個分片數(shù)據(jù)源上執(zhí)行相應的函數(shù)處理，然后再將各個結果集進行二次處理，最終再將處理結果返回。如下圖所示：

跨分片join

Join是關系型數(shù)據(jù)庫中最常用的特性，但是在分片集群中，join也變得非常復雜。應該盡量避免跨分片的join查詢（這種場景，比上面的跨分片分頁更加復雜，而且對性能的影響很大）。通常有以下幾種方式來避免：

全局表

全局表的概念之前在“垂直分庫”時提過。基本思想一致，就是把一些類似數(shù)據(jù)字典又可能會產生join查詢的表信息放到各分片中，從而避免跨分片的join。

ER分片

在關系型數(shù)據(jù)庫中，表之間往往存在一些關聯(lián)的關系。如果我們可以先確定好關聯(lián)關系，并將那些存在關聯(lián)關系的表記錄存放在同一個分片上，那么就能很好的避免跨分片join問題。在一對多關系的情況下，我們通常會選擇按照數(shù)據(jù)較多的那一方進行拆分。如下圖所示：

這樣一來，Data Node1上面的訂單表與訂單詳細表就可以直接關聯(lián)，進行局部的join查詢了，Data Node2上也一樣。基于ER分片的這種方式，能夠有效避免大多數(shù)業(yè)務場景中的跨分片join問題。

內存計算

隨著spark內存計算的興起，理論上來講，很多跨數(shù)據(jù)源的操作問題看起來似乎都能夠得到解決。可以將數(shù)據(jù)丟給spark集群進行內存計算，最后將計算結果返回。

跨分片事務問題

跨分片事務也分布式事務，想要了解分布式事務，就需要了解“XA接口”和“兩階段提交”。值得提到的是，MySQL5.5x和5.6x中的xa支持是存在問題的，會導致主從數(shù)據(jù)不一致。直到5.7x版本中才得到修復。Java應用程序可以采用Atomikos框架來實現(xiàn)XA事務（J2EE中JTA）。感興趣的讀者可以自行參考《分布式事務一致性解決方案》，鏈接地址：

http://www.infoq.com/cn/articles/solution-of-distributed-system-transaction-consistency

我們的系統(tǒng)真的需要分庫分表嗎

讀完上面內容，不禁引起有些讀者的思考，我們的系統(tǒng)是否需要分庫分表嗎？

其實這點沒有明確的判斷標準，比較依賴實際業(yè)務情況和經驗判斷。依照筆者個人的經驗，一般MySQL單表1000W左右的數(shù)據(jù)是沒有問題的（前提是應用系統(tǒng)和數(shù)據(jù)庫等層面設計和優(yōu)化的比較好）。當然，除了考慮當前的數(shù)據(jù)量和性能情況時，作為架構師，我們需要提前考慮系統(tǒng)半年到一年左右的業(yè)務增長情況，對數(shù)據(jù)庫服務器的QPS、連接數(shù)、容量等做合理評估和規(guī)劃，并提前做好相應的準備工作。如果單機無法滿足，且很難再從其他方面優(yōu)化，那么說明是需要考慮分片的。這種情況可以先去掉數(shù)據(jù)庫中自增ID，為分片和后面的數(shù)據(jù)遷移工作提前做準備。

很多人覺得“分庫分表”是宜早不宜遲，應該盡早進行，因為擔心越往后公司業(yè)務發(fā)展越快、系統(tǒng)越來越復雜、系統(tǒng)重構和擴展越困難…這種話聽起來是有那么一點道理，但我的觀點恰好相反，對于關系型數(shù)據(jù)庫來講，我認為“能不分片就別分片”，除非是系統(tǒng)真正需要，因為數(shù)據(jù)庫分片并非低成本或者免費的。

這里筆者推薦一個比較靠譜的過渡技術–“表分區(qū)”。主流的關系型數(shù)據(jù)庫中基本都支持。不同的分區(qū)在邏輯上仍是一張表，但是物理上卻是分開的，能在一定程度上提高查詢性能，而且對應用程序透明，無需修改任何代碼。筆者曾經負責優(yōu)化過一個系統(tǒng)，主業(yè)務表有大約8000W左右的數(shù)據(jù)，考慮到成本問題，當時就是采用“表分區(qū)”來做的，效果比較明顯，且系統(tǒng)運行的很穩(wěn)定。

小結

最后，有很多讀者都想了解當前社區(qū)中有沒有開源免費的分庫分表解決方案，畢竟站在巨人的肩膀上能省力很多。當前主要有兩類解決方案：

基于應用程序層面的DDAL（分布式數(shù)據(jù)庫訪問層）
比較典型的就是淘寶半開源的TDDL，當當網開源的Sharding-JDBC等。分布式數(shù)據(jù)訪問層無需硬件投入，技術能力較強的大公司通常會選擇自研或參照開源框架進行二次開發(fā)和定制。對應用程序的侵入性一般較大，會增加技術成本和復雜度。通常僅支持特定編程語言平臺（Java平臺的居多），或者僅支持特定的數(shù)據(jù)庫和特定數(shù)據(jù)訪問框架技術（一般支持MySQL數(shù)據(jù)庫，JDBC、MyBatis、Hibernate等框架技術）。
數(shù)據(jù)庫中間件，比較典型的像mycat（在阿里開源的cobar基礎上做了很多優(yōu)化和改進，屬于后起之秀，也支持很多新特性），基于Go語言實現(xiàn)kingSharding，比較老牌的Atlas（由360開源）等。這些中間件在互聯(lián)網企業(yè)中大量被使用。另外，MySQL 5.x企業(yè)版中官方提供的Fabric組件也號稱支持分片技術，不過國內使用的企業(yè)較少。
中間件也可以稱為“透明網關”，大名鼎鼎的mysql_proxy大概是該領域的鼻祖（由MySQL官方提供，僅限于實現(xiàn)“讀寫分離”）。中間件一般實現(xiàn)了特定數(shù)據(jù)庫的網絡通信協(xié)議，模擬一個真實的數(shù)據(jù)庫服務，屏蔽了后端真實的Server，應用程序通常直接連接中間件即可。而在執(zhí)行SQL操作時，中間件會按照預先定義分片規(guī)則，對SQL語句進行解析、路由，并對結果集做二次計算再最終返回。引入數(shù)據(jù)庫中間件的技術成本更低，對應用程序來講侵入性幾乎沒有，可以滿足大部分的業(yè)務。增加了額外的硬件投入和運維成本，同時，中間件自身也存在性能瓶頸和單點故障問題，需要能夠保證中間件自身的高可用、可擴展。

總之，不管是使用分布式數(shù)據(jù)訪問層還是數(shù)據(jù)庫中間件，都會帶來一定的成本和復雜度，也會有一定的性能影響。所以，還需讀者根據(jù)實際情況和業(yè)務發(fā)展需要慎重考慮和選擇。

jinfeng_wang 2017-01-17 14:29 發(fā)表評論

微信開源：生產級paxos類庫PhxPaxos實現(xiàn)原理介紹

jinfeng_wang — Tue, 17 Jan 2017 03:35:00 GMT

摘要: http://www.infoq.com/cn/articles/weinxin-open-source-paxos-phxpaxos微信重磅開源生產級Paxos類庫PhxPaxos！本文將用科普的口吻向大家介紹PhxPaxos背后的實現(xiàn)原理以及一些有趣的細節(jié)。本文由微信后臺團隊授權轉載，ID：gh_93b1115dc96f開源地址：https://github.com/tencent-wecha... 閱讀全文

jinfeng_wang 2017-01-17 11:35 發(fā)表評論

蘑菇街每秒訂單數(shù)25倍提升歷程

jinfeng_wang — Tue, 17 Jan 2017 03:34:00 GMT

http://www.infoq.com/cn/articles/mogujie-orders-per-second-25-times-enhance

作者

七公

發(fā)布于 2016年12月27日 | 欲知區(qū)塊鏈、VR、TensorFlow等潮流技術和框架，請鎖定QCon北京站！1 討論

分享到：微博微信 Facebook Twitter 有道云筆記郵件分享
稍后閱讀
我的閱讀清單

本文根據(jù)白輝在2016ArchSummit全球架構師（深圳）峰會上的演講整理而成。ArchSummit北京站即將在12月2日開幕，更多專題講師信息請到北京站官網查詢。

非常榮幸在這里跟大家一起來探討“海量服務架構探索”相關專題的內容。

我叫白輝，花名是七公。2014年之前主要在阿里B2B負責資金中心、評價、任務中心等系統(tǒng)。2015年加入蘑菇街，隨著蘑菇街的飛速成長，經歷了網站技術架構的大

變革。今天分享的內容來自于去年我們做的事情，題目用了一個關鍵詞是“籬笆”，籬笆的英文是Barrier，是指2015年蘑菇街面臨的問題和艱巨的困難。我們越過了這些籬笆，取得了很好的成果。

引言

今天分享的內容主要分為五部分。第一部分，概述電商系統(tǒng)發(fā)展中期面臨的一般性問題。第二部分，如何解決面臨的問題，主要的策略是做拆分、做服務化。第三、四部分，服務化之后業(yè)務的大增長、網站流量飛速的增加、“雙11”大促等的挑戰(zhàn)很大，我們做了服務的專項系統(tǒng)優(yōu)化以及穩(wěn)定性治理。第五部分，進行了總結和展望。

電商系統(tǒng)發(fā)展中期面臨的一般性問題

我們先看第一部分的內容。

我總結了一下，一般電商系統(tǒng)發(fā)展到中期都會面臨三個方面的問題（如圖）。第一方面是業(yè)務問題。比如，一開始做業(yè)務的時候可能很隨意，一是并不考慮業(yè)務模型、系統(tǒng)架構，二是業(yè)務之間的耦合比較嚴重，比如交易和資金業(yè)務，有可能資金和外部第三方支付公司的交互狀態(tài)耦合在交易系統(tǒng)里，這些非常不利于業(yè)務發(fā)展。第二方面是系統(tǒng)問題。2014年我們面臨單體應用，400人開發(fā)一個大應用，擴展性很差，業(yè)務比較難做。第三方面是支撐問題，比如關于環(huán)境、開發(fā)框架和質量工具等。這些是電商系統(tǒng)發(fā)展到中期都會面臨的問題，中期的概念是用戶過了千萬，PV過了1億。

我們來看一下蘑菇街2015年初面臨的問題。蘑菇街2015年用戶過億，PV過10億，業(yè)務在超高速發(fā)展，每年保持3倍以上的增長。電商促銷、交易、支付等業(yè)務形態(tài)都在快速膨脹，我們需要快速支持業(yè)務發(fā)展，而不是成為業(yè)務的瓶頸。那么就是要去做系統(tǒng)的拆分和服務化。

系統(tǒng)拆分與服務化過程

第二部分的內容，是關于蘑菇街系統(tǒng)拆分與服務化的歷程。

按照如下幾條思路（見圖），我們進行系統(tǒng)拆分以及服務化。最開始，大家在同一個應用里開發(fā)一些業(yè)務功能，都是選擇速度最快的方式，所有的DB和業(yè)務代碼都是在一起的。首先我們將DB做垂直拆分。第二步是做業(yè)務系統(tǒng)垂直拆分，包括交易、資金等。第三步是在系統(tǒng)拆完了之后要考慮提供什么樣的API來滿足業(yè)務的需求？這里我們要做數(shù)據(jù)建模+業(yè)務建模，數(shù)據(jù)建模方面包括數(shù)據(jù)表的設計和擴展支持，數(shù)據(jù)模型應該非常穩(wěn)定；業(yè)務建模方面，使用標準和靈活的API，而且盡量不用修改代碼或者改少量代碼就能支持業(yè)務需求。第四步是需要將業(yè)務邏輯下沉到服務，Web層專注于展示邏輯和編排，不要涉及過多業(yè)務的事情。然后用SOA中間件建設服務化系統(tǒng)。最后會做一些服務的治理。

來看一個API服務化的例子，在做服務化之前和做服務化之后，交易創(chuàng)建下單業(yè)務有什么不一樣。服務化之前我們面臨的問題有：入口分散，如果要在底層做任何一個微小的改動，十幾個入口需要幾十個人配合修改，這是非常不合理的一種方式；多端維護多套接口，成本非常高；還有穩(wěn)定性的問題，依賴非常復雜，維護很難。我剛到蘑菇街的時候，一次大促活動就導致數(shù)據(jù)庫崩潰，暴露了系統(tǒng)架構很大的問題和總量上的瓶頸。按照上面提到幾條思路去做服務化，看看有了哪些改善？首先是API統(tǒng)一，多個端、多個業(yè)務都用統(tǒng)一的API提供；其次是依賴有效管理起來，大事務拆分成多個本地小事務；最后降低了鏈路風險，邏輯更加清晰，穩(wěn)定性更好。

2015年3月我來到蘑菇街之后，先制訂了服務化的規(guī)范，探討了到底什么是標準的服務化。在做服務化的過程中，發(fā)現(xiàn)大家代碼風格完全不一樣，所以制定編碼規(guī)范非常重要。2015年8月，我們完成了各個模塊的改造，包括用戶、商品、交易、訂單、促銷、退款等，然后有了服務化架構1.0的體系。在此基礎之上，我們進一步做了提升流量和穩(wěn)定性等更深度的建設。2015年9月，我們實施了分庫分表和鏈路性能提升優(yōu)化，2015年10月做了服務治理和服務保障。

接下來，以服務架構和服務體系建設為主線，講一下去年整個網站架構升級的過程。

在服務化1.0體系完成之后，我們得到了一個簡單的體系，包含下單服務、營銷服務、店鋪服務、商品服務和用戶服務，還有簡單的RPC框架Tesla。當時，我們并沒有做很多性能優(yōu)化的事情，但是通過業(yè)務流程化簡和邏輯優(yōu)化，每秒最大訂單數(shù)從400提升到1K，基礎服務也都搭建了起來。

有了1.0初步的服務化體系之后，更進一步，我們一是要繼續(xù)深入網站如資金等的服務化，二是要做服務內部的建設，比如容量、性能，這也是接下來要講的內容。

購買鏈路的性能提升

這個鏈路（見圖）是比較典型的電商鏈路，有商品頁、下單、支付、營銷和庫存等內容。一開始每個點都有瓶頸，每個瓶頸都是一個籬笆，我們要正視它，然后翻越它。

我們先來看第一個籬笆墻：下單的瓶頸。

2015年“3.21”大促的時候，DB崩潰了，這個瓶頸很難突破。下一個訂單要插入很多條數(shù)據(jù)記錄到單DB的DB表。我們已經用了最好的硬件，但是瓶頸依然存在，最主要的問題就是DB單點，需要去掉單點，做成可水平擴展的。流量上來了，到DB的行寫入數(shù)是2萬/秒，對DB的壓力很大。寫應該控制在一個合理的量，DB負載維持在較低水平，主從延時也才會在可控范圍內。所以DB單點的問題非常凸顯，這座大山必須邁過去，我們做了一個分庫分表組件TSharding來實施分庫分表。

將我們寫的分庫分表工具與業(yè)界方案對比，業(yè)界有淘寶TDDL Smart Client的方式，還有Google的Vitess等的Proxy方式，這兩種成熟方案研發(fā)和運維的成本都太高，短期內我們接受不了，所以借鑒了Mybatis Plugin的方式，但Mybatis Plugin不支持數(shù)據(jù)源管理，也不支持事務。我大概花了一周時間寫了一個組件——自研分庫分表組件TSharding（https://github.com/baihui212/tsharding），然后快速做出方案，把這個組件應用到交易的數(shù)據(jù)庫，在服務層和DAO層，訂單容量擴展到千億量級，并且可以繼續(xù)水平擴展。TSharding上線一年之后，我們將其開放出來。

第二個籬笆墻就是營銷服務RT的問題。促銷方式非常多，包括各種紅包、滿減、打折、優(yōu)惠券等。實際上促銷的接口邏輯非常復雜，在“雙11”備戰(zhàn)的時候，面對這個復雜的接口，每輪鏈路壓測促銷服務都會發(fā)現(xiàn)問題，之后優(yōu)化再壓測，又發(fā)現(xiàn)新的問題。我們來一起看看遇到的各種問題以及是如何解決的。首先是壓測出現(xiàn)接口嚴重不可用，這里可以看到DB查詢頻次高，響應很慢，流量一上來，這個接口就崩潰了。那怎么去排查原因和解決呢？

首先是SQL優(yōu)化，用工具識別慢SQL，即全鏈路跟蹤系統(tǒng)Lurker。

這張圖我簡單介紹一下。遇到SQL執(zhí)行效率問題的時候，就看是不是執(zhí)行到最高效的索引，掃表行數(shù)是不是很大，是不是有filesort。有ORDER BY的時候，如果要排序的數(shù)據(jù)量不大或者已經有索引可以走到，在數(shù)據(jù)庫的內存排序緩存區(qū)一次就可以排序完。如果一次不能排序完，那就先拿到1000個做排序，然后輸出到文件，然后再對下1000個做排序，最后再歸并起來，這就是filesort的大致過程，效率比較低。所以盡量要走上索引，一般類的查詢降低到2毫秒左右可以返回。

其次是要讀取很多優(yōu)惠規(guī)則和很多優(yōu)惠券，數(shù)據(jù)量大的時候DB是很難扛的，這時候我們要做緩存和一些預處理。特別是查詢DB的效率不是很高的時候，盡量緩存可以緩存的數(shù)據(jù)、盡量緩存多一些數(shù)據(jù)。但如果做緩存，DB和緩存數(shù)據(jù)的一致性是一個問題。在做數(shù)據(jù)查詢時，首先要看本地緩存有沒有開啟，如果本地緩存沒有打開，就去查分布式緩存，如果分布式緩存中沒有就去查DB，然后從DB獲取數(shù)據(jù)過來。需要盡量保持DB、緩存數(shù)據(jù)的一致性，如果DB有變化，可以異步地做緩存數(shù)據(jù)失效處理，數(shù)據(jù)百毫秒內就失效掉，減少不一致的問題。

另外，如果讀到本地緩存，這個內存訪問比走網絡請求性能直接提升了一個量級，但是帶來的弊端也很大，因為本地緩存沒有辦法及時更新，平時也不能打開，因為會帶來不一致問題。但大促高峰期間我們會關閉關鍵業(yè)務數(shù)據(jù)變更入口，開啟本地緩存，把本地緩存設置成一分鐘失效，一分鐘之內是可以緩存的，也能容忍短暫的數(shù)據(jù)不一致，所以這也是一個很好的做法。同樣的思路，我們也會把可能會用到的數(shù)據(jù)提前放到緩存里面，做預處理。在客戶端進行數(shù)據(jù)預處理，要么直接取本地數(shù)據(jù)，或者在本地直接做計算，這樣更高效，避免了遠程的RPC。大促期間我們就把活動價格信息預先放到商品表中，這樣部分場景可以做本地計價，有效解決了計價接口性能的問題。

再就是讀容量問題，雖然緩存可以緩解壓力，但是DB還是會有幾十K的讀壓力，單點去扛也是不現(xiàn)實的，所以要把讀寫分離，如果從庫過多也有延時的風險，我們會把數(shù)據(jù)庫的并行復制打開。

我們來看一下數(shù)據(jù)。這是去年“雙11”的情況（如圖）。促銷服務的RT得到了有效控制，所以去年“雙11”平穩(wěn)度過。

接下來講一個更基礎、更全局的優(yōu)化，就是異步化。比如說下單的流程，有很多業(yè)務是非實時性要求的，比如下單送優(yōu)惠券，如果在下單的時候同步做，時間非常長，風險也更大，其實業(yè)務上是非實時性或者準實時性的要求，可以做異步化處理，這樣可以減少下單對機器數(shù)量的要求。另外是流量高峰期的一些熱點數(shù)據(jù)。大家可以想象一下，下單的時候，一萬個人競爭同一條庫存數(shù)據(jù)，一萬個節(jié)點鎖在這個請求上，這是多么恐怖的事情。所以我們會有異步隊列去削峰，先直接修改緩存中的庫存數(shù)目，改完之后能讀到最新的結果，但是不會直接競爭DB，這是異步隊列削峰很重要的作用。還有，數(shù)據(jù)庫的競爭非常厲害，我們需要把大事務做拆分，盡量讓本地事務足夠小，同時也要讓多個本地事務之間達到一致。

異步是最終達到一致的關鍵，異步的處理是非常復雜的。可以看一下這個場景（見圖），這是一個1-6步的處理過程，如果拆分成步驟1、2、3、4、end，然后到5，可以異步地做；6也一樣，并且5和6可以并行執(zhí)行。同時，這個步驟走下來鏈路更短，保障也更容易；步驟5和6也可以單獨保障。所以異步化在蘑菇街被廣泛使用。

異步化之后面臨的困難也是很大的，會有分布式和一致性的問題。交易創(chuàng)建過程中，訂單、券和庫存要把狀態(tài)做到絕對一致。但下單的時候如果先鎖券，鎖券成功了再去減庫存，如果減庫存失敗了就是很麻煩的事情，因為優(yōu)化券服務在另外一個系統(tǒng)里，如果要同步調用做券的回滾，有可能這個回滾也會失敗，這個時候處理就會非常復雜。我們的做法是，調用服務超時或者失敗的時候，我們就認為失敗了，就會異步發(fā)消息通知回滾。優(yōu)惠券服務和庫存服務被通知要做回滾時，會根據(jù)自身的狀態(tài)來判斷是否要回滾，如果鎖券成功了券就回滾，減庫存也成功了庫存做回滾；如果庫存沒有減就不用回滾。所以我們是通過異步發(fā)消息的方式保持多個系統(tǒng)之間的一致性；如果不做異步就非常復雜，有的場景是前面所有的服務都調用成功，第N個服務調用失敗。另外的一致性保障策略包括Corgi MQ生產端發(fā)送失敗會自動重試保證發(fā)成功，消費端接收ACK機制保證最終的一致。另外，與分布式事務框架比起來，異步化方案消除了二階段提交等分布式事務框架的侵入性影響，降低了開發(fā)的成本和門檻。

另一個場景是，服務調用上會有一些異步的處理。以購物車業(yè)務為例，購物車列表要調用10個Web服務，每一個服務返回的時間都不一樣，比如第1個服務20毫秒返回，第10個服務40毫秒返回，串行執(zhí)行的效率很低。而電商類的大多數(shù)業(yè)務都是IO密集型的，而且數(shù)據(jù)量大時還要分批查詢。所以我們要做服務的異步調用。比如下圖中這個場景，步驟3處理完了之后callback馬上會處理，步驟4處理完了callback也會馬上處理，步驟3和4并不相互依賴，且處理可以同時進行了，提高了業(yè)務邏輯執(zhí)行的并行度。目前我們是通過JDK7的Future和Callback實現(xiàn)的，在逐步往JDK8的Completable Future遷移。這是異步化在網站整體的應用場景，異步化已經深入到我們網站的各個環(huán)節(jié)。

剛才我們講了鏈路容量的提升、促銷RT的優(yōu)化，又做了異步化的一些處理。那么優(yōu)化之后怎么驗證來優(yōu)化的效果呢？到底有沒有達到預期？我們有幾個壓測手段，如線下單機壓測識別應用單機性能瓶頸，單鏈路壓測驗證集群水位及各層核?系統(tǒng)容量配比，還有全鏈路壓測等。

這是去年“雙11”之前做的壓測（見圖），達到了5K容量的要求。今年對每個點進一步深入優(yōu)化，2016年最大訂單提升到了10K，比之前提升了25倍。實際上這些優(yōu)化可以不斷深入，不僅可以不斷提高單機的性能和單機的QPS，還可以通過對服務整體上的優(yōu)化達到性能的極致，并且可以引入一些廉價的機器（如云主機）來支撐更大的量。

我們?yōu)槭裁匆鲞@些優(yōu)化？業(yè)務的發(fā)展會對業(yè)務系統(tǒng)、服務框架提出很多很高的要求。因此，我們對Tesla做了這些改善（見圖），服務的配置推送要更快、更可靠地到達客戶端，所以有了新的配置中心Metabase，也有了Lurker全鏈路監(jiān)控，服務和服務框架的不斷發(fā)展推動了網站其他基礎中間件產品的誕生和發(fā)展。2015年的下半年我們進行了一系列中間件的自研和全站落地。

我們得到了服務架構1.5的體系（見圖），首先是用戶服務在最底層，用戶服務1200K的QPS，庫存250K，商品服務400K，營銷200K，等等。

接下來我們看一下這一階段，Tesla開始做服務管控，真正成為了一個服務框架。我們最開始做發(fā)布的時候，客戶端、服務端由于做的只是初級的RPC調用，如果服務端有變更，客戶端可能是幾秒甚至數(shù)十秒才能拉到新配置，導致經常有客戶投訴。有了對服務變更推送更高的要求后，我們就有了Matabase配置中心，服務端如果有發(fā)布或者某一刻崩潰了，客戶端馬上可以感知到，這樣就完成了整個服務框架連接優(yōu)化的改進，真正變成服務管控、服務治理框架的開端。

購買鏈路的穩(wěn)定性提升

有了上面講到的服務化改進和性能提升之后，是不是大促的時候看一看監(jiān)控就行了？其實不是。大流量來的時候，萬一導致整個網站崩潰了，一分鐘、兩分鐘的損失是非常大的，所以還要保證服務是穩(wěn)的和高可用的。只有系統(tǒng)和服務是穩(wěn)定的，才能更好地完成業(yè)務指標和整體的經營目標。

下面會講一下服務SLA保證的內容。

首先SLA體現(xiàn)在對容量、性能、程度的約束，包括程度是多少的比例。那么要保證這個SLA約束和目標達成，首先要把關鍵指標監(jiān)控起來；第二是依賴治理、邏輯優(yōu)化；第三是負載均衡、服務分組和限流；第四是降級預案、容災、壓測、在線演練等。這是我們服務的關鍵指標的監(jiān)控圖（見上圖）。支付回調服務要滿足8K QPS，99%的RT在30ms內，但是圖中監(jiān)控說明SLA未達到，RT程度指標方面要優(yōu)化。

服務的SLA保證上，服務端超時和限流非常重要。如果沒有超時，很容易引起雪崩。我們來講一個案例，有次商品服務響應變慢，就導致上層的其他服務都慢，而且商品服務積壓了很多請求在線程池中，很多請求響應過慢導致客戶端等待超時，客戶端早就放棄調用結果結束掉了，但是在商品服務線程池線程做處理時拿到這個請求還會處理，客戶都跑了，再去處理，客戶也拿不到這個結果，最后還會造成上層服務請求的堵塞，堵塞原因緩解時產生洪流。

限流是服務穩(wěn)定的最后一道保障。一個是HTTP服務的限流，一個是RPC服務的限流。我們服務的處理線程是Tesla框架分配的，所以服務限流可以做到非常精確，可以控制在服務級別和服務方法級別，也可以針對來源做限流。

我們做了這樣一系列改造之后，服務框架變成了有完善的監(jiān)控、有負載均衡、有服務分組和限流等完整管控能力的服務治理框架。服務分組之后，如果通用的服務崩潰了，購買鏈路的服務可以不受影響，這就做到了隔離。這樣的一整套服務體系（如圖）就構成了我們的服務架構2.0，最終網站的可用性做到了99.979%，這是今年6月份的統(tǒng)計數(shù)據(jù)。我們還會逐步把服務的穩(wěn)定性和服務質量做到更好。

總結及下一步展望

最后總結一下，服務框架的體系完善是一個漫長的發(fā)展過程，不需要一開始就很強、什么都有的服務框架，最早可能就是一個RPC框架。服務治理慢慢隨著業(yè)務量增長也會發(fā)展起來，服務治理是服務框架的重要組成部分。另外，Tesla是為蘑菇街業(yè)務體系量身打造的服務框架。可以說服務框架是互聯(lián)網網站架構的核心和持續(xù)發(fā)展的動力。選擇開源還是自建，要看團隊能力、看時機。我們要深度定制服務框架，所以選擇了自研，以后可能會開源出來。

服務框架是隨著業(yè)務發(fā)展不斷演變的，我們有1.0、1.5和2.0架構的迭代。要前瞻性地謀劃和實施，要考慮未來三年、五年的容量。有一些系統(tǒng)瓶頸可能是要提前解決的，每一個場景不一樣，根據(jù)特定的場景選擇最合適的方案。容量和性能關鍵字是一切可擴展、Cache、IO、異步化。目前我們正在做的是服務治理和SLA保障系統(tǒng)化，未來會做同城異地的雙活。

謝謝大家！

感謝陳興璐對本文的審校。

jinfeng_wang 2017-01-17 11:34 發(fā)表評論

commons.pool2 對象池的使用

jinfeng_wang — Tue, 20 Dec 2016 07:36:00 GMT

摘要: https://my.oschina.net/xinxingegeya/blog/391560commons.pool2 對象池的使用 org.apache.commons 閱讀全文

jinfeng_wang 2016-12-20 15:36 發(fā)表評論

服務注冊發(fā)現(xiàn)與調度

jinfeng_wang — Thu, 15 Dec 2016 07:46:00 GMT

http://www.tuicool.com/articles/VfQbauB

遠程服務依賴

依賴分為兩種，本地的lib依賴，遠程的服務依賴。

本地的依賴其實是很復雜的問題。從操作系統(tǒng)的apt-get，到各種語言的pip, npm。包管理是無窮無盡的問題。但是所有的本地依賴已經被docker終結了。無論是依賴了什么，全部給你打包起來，從操作系統(tǒng)開始。除了你依賴的cpu指令集沒法給你打包成鏡像了，其他都給打包了。

docker之后，依賴問題就只剩遠程服務依賴的問題。這個問題就是服務注冊發(fā)現(xiàn)與調度需要解決的問題。從軟件工程的角度來說，所有的解耦問題都可以通過抽取lib的方式解決。lib也可以實現(xiàn)獨立的發(fā)布周期，良好定義的IDL接口。所以如果非必要，請不要把lib依賴升級成網絡服務依賴的角度。除非是從非功能性需求的角度，比如獨立的擴縮容，支持scale out這些。很多時候微服務是因為基于lib的工具鏈支持不全，使得大家義無反顧地走上了拆分網絡服務的不歸路。

名字服務

服務名又稱之為Service Qualifier，是一個人類可理解的英文標識。所謂的服務注冊和發(fā)現(xiàn)就是在一個Service Qualifier下注冊一堆Endpoint。一個Endpoint就是一個ip+端口的網絡服務。就是一個非常類似DNS的名字服務，其實DNS本身就可以做服務的注冊和發(fā)現(xiàn)，用SRV類型記錄。

名字服務的存在意義是簡化服務的使用方，也就是主調方。過去在使用方的代碼里需要填入一堆ip加端口的配置，現(xiàn)在有了名字服務就可以只填一個服務名，實際在運行時用服務名找到那一堆endpoint。

從名字服務的角度來講并不比DNS要強多少。可能也就是通過“服務發(fā)現(xiàn)的lib”幫你把ip和端口都獲得了。而DNS默認lib（也就是libc的getHostByName）只支持host獲取，并不能獲得port。當然既然你都外掛了一個服務發(fā)現(xiàn)的lib了，和libc做對比也就優(yōu)勢公平了。

lib提供的接口類似

$endpoints = listServiceEnpoints('redis'); echo($endpoints[0]['ip]);

甚至可以直接提供拼接url的接口

$url = getServiceUrl('order', '/newOrder'); # http://xxx:yyy/newOrder

比DNS更快的廣播速度

傳統(tǒng)DNS的服務發(fā)現(xiàn)機制是緩存加上TTL過期時間，新的endpoint要傳播到使用方需要各級緩存的刷新。而且即便endpoint沒有更新，因為TTL到期了也要去上游刷新。為了減少網絡間定時刷新endpoint的流量，一般TTL都設得比較長。

而另外一個極端是gossip協(xié)議。所有人連接到所有人。一個服務的endpoint注冊了，可以通過gossip協(xié)議很快廣播到全部的節(jié)點上去。但是gossip的缺點是不基于訂閱的。無論我是不是使用這個服務，我都會被動地被gossip這個服務的endpoint。這樣就造成了無謂的網絡間帶寬的開銷。

比較理想的更新方式是基于訂閱的。如果業(yè)務對某個服務進行了發(fā)現(xiàn)，那么緩存服務器就保持一個訂閱關系獲得最新的endpoint。這樣可以比定時刷新更及時，也消耗更小。這個方面要黑一下etcd 2.0，它的基于http連接的watch方案要求每個watch獨占一個tcp連接，嚴重限制了watch的數(shù)量。而etcd 3.0基于gRPC的實現(xiàn)就修復了這個問題。而consul的msgpack rpc從一開始就是復用tcp連接的。

圖中的observer是類似的zookeeper的observer角色，是為了幫權威服務器分擔watch壓力的存在。也就是說服務發(fā)現(xiàn)的核心其實是一個基于訂閱的層級消息網絡。服務注冊和發(fā)現(xiàn)并不承諾任何的一致性，它只是盡力地進行分發(fā)，并不保證所有的節(jié)點對一個服務的endpoint是哪些有一致的view，因為這并沒有價值。因為一個qualifier下的多個endpoint by design 就是等價的，只要有足夠的endpint能夠承擔負載，對于abc三個endpoint具體是讓ab可見，還是bc可見，并無任何影響。

服務發(fā)現(xiàn)agent的高可用

DNS的方案是在每臺機器上裝一個dnsmasq做為緩存服務器。服務發(fā)現(xiàn)也是類似的，在每臺機器上有一個agent進程。如果dnsmasq掛了，dns域名就會解析失敗，這樣的可用性是不夠的。服務發(fā)現(xiàn)的agent會把服務的配置和endpoint dump一份成本機的文件，服務發(fā)現(xiàn)的lib在無法訪問agent的時候會降級去讀取本機的文件，從而保證足夠的可用性。當然你要愿意搞什么共享內存，也沒人阻攔。

無法實現(xiàn)對dns服務器的降級。因為哪怕是降級到 /etc/hosts 的實現(xiàn)，其一個巨大的缺陷是 /etc/hosts 對于一個域名只能填一個ip，無法滿足擴展性。而如果這一個ip填的是代理服務器的話，則失去了做服務發(fā)現(xiàn)的意義，都有代理了那就讓代理去發(fā)現(xiàn)服務好了。

更進一步，很多基于zk的方案是把服務發(fā)現(xiàn)的agent和業(yè)務進程做到一個進程里去了。所以就不需要擔心外掛的進程是否還存活的問題了。

軟負載均衡

這點上和DNS是類似的。理論來說ttl設置為0的DNS服務器也可以起到負載均衡的作用。通過把權重分發(fā)到服務發(fā)現(xiàn)的agent上，可以讓業(yè)務“每次發(fā)現(xiàn)”的endpoint都不一樣，從而達到均衡負載的作用。權重的實現(xiàn)通過簡單的隨機算法就可以實現(xiàn)。

通過軟負載均衡理論上可以實現(xiàn)小流量，灰度地讓一個新的endpoint加入集群。也可以實現(xiàn)某一些endpoint承擔更大的調用量，以達到在線壓測的目的。

不要小瞧了這么一點調權的功能。能夠中央調度，智能調度流量，是非常有用的。

故障檢測（減endpoint）

故障檢測其實是好做的。無非就是一個qualifier下掛了很多個endpoint，根據(jù)某種探活機制摘掉其中已經無法提供正常服務的endpoint。摘除最好是軟摘除，這樣不會出現(xiàn)一個閃失把所有endpoint全摘掉的問題。比如zookeeper的臨時節(jié)點就是硬摘除，不可取。

本地探活

在業(yè)務拿到endpoint之后，做完了rpc可以知道這個endpoint是否可用。這個時候對endpoint的健康狀態(tài)本地做一個投票累積。如果endpoint連續(xù)不可用則標記為故障，被臨時摘除。過一段時間之后再重新放出小黑屋，進行探活。這個過程和nginx對upstream的被動探活是非常類似的。

被動探活的好處是非常敏感而且真實可信（不可用就是我不能調你，就是不可用），本地投票完了立即就可以判定故障。缺陷是每個主調方都需要獨立去進行重復的判定。對于故障的endpoint，為了探活其是否存活需要以latency做為代價。

被動探活不會和具體的rpc機制綁定。無論是http還是thrift，無論是redis還是mysql，只要是網絡調用都可以通過rpc后投票的方式實現(xiàn)被動探活。

主動探活

主動探活比較難做，而且效果也未必好：

所有的主動探活的問題都在于需要指定如何去探測。不是tcp連接得上就算是能提供服務的。
主動探活受到網絡路由的影響，a可以訪問b，并不帶表c也可以訪問b
主動探測帶來額外的網絡開銷，探測不能過于頻繁
主動探測的發(fā)起者過少則容易對發(fā)起者產生很大的探活壓力，需要很高的性能

本地主動探活

consul 的本機主動探活是一個很有意思的組合。避免了主動探活的一些缺點，可以是被動探活的一些補充。

心跳探活

無論是zookeeper那樣一來tcp連接的心跳（tcp連接的保持其實也是定時ttl發(fā)ip包保持的）。還是etcd，consul支持的基于ttl的心跳。都是類似的。

gossip探活

改進版本的心跳。減少整體的網絡間通信量。

服務注冊（加endpoint）

服務endpoint注冊比endpoint摘除要難得多。

無狀態(tài)服務注冊

無狀態(tài)服務的注冊沒有任何約束。不管是中央管理服務注冊表，用web界面注冊。還是和部署系統(tǒng)聯(lián)動，在進程啟動時自動注冊都可以做。

有狀態(tài)服務的注冊

有狀態(tài)服務，比如redis的某個分片的master。其有兩個約束：

一致性：同一個分片不能有兩個master
可用性：分片不能沒有master，當master掛了，要自發(fā)選舉出新的master

除非是在數(shù)據(jù)層協(xié)議上做ack（paxos，raft）或者協(xié)議本身支持沖突解決（crdt），否則基于服務注冊來實現(xiàn)的分布式要么犧牲一致性，要么犧牲可用性。

有狀態(tài)服務的注冊需求，和普通的注冊發(fā)現(xiàn)需求是本質不同的。有狀態(tài)服務需要的是一個一致性決策機制，在consistency和availability之間取平衡。這個機制可以是外掛一個zookeeper，也可以是集群的數(shù)據(jù)節(jié)點自身做一個gossip的投票機制。

而普通的注冊和發(fā)現(xiàn)就是要給廣播渠道，提供visibility。盡可能地讓endpoint曝光到其使用方那。不同的問題需要的解決方案是不同的。對于有狀態(tài)服務的注冊表需要非常可靠的故障檢測機制，不能隨意摘除master。而用于廣播的服務注冊表則很隨意，故障檢測機制也可以做到盡可能錯殺三千不放過一個。廣播的機制需要解決的問題是大集群，怎么讓服務可見。而數(shù)據(jù)節(jié)點的選主要解決的是相對小的集群，怎么保持一致地情況下盡量可用。拿zookeeper的臨時節(jié)點這樣的機制放在大集群背景下，去做無狀態(tài)節(jié)點探活就是技術用錯了地方。

比如kafka，其有狀態(tài)服務部分的注冊和發(fā)現(xiàn)是用zookeeper實現(xiàn)的。而無狀態(tài)服務的注冊與發(fā)現(xiàn)是用data node自身提供集群的metadata來實現(xiàn)的。也就是消費者和生產者是不需要從zookeeper里去集群分片信息的（也就是服務注冊表），而是從data node拿。這個時候data node其是充當了一個服務發(fā)現(xiàn)的agent的作用。如果不用data node干這個活，我們把data node的內容放到DNS里去，其實也是可以work的。只是這些存儲的給業(yè)務使用的客戶端lib已經把這些邏輯寫好了，沒有人會去修改這個默認行為了。

但是廣播用途的服務注冊和發(fā)現(xiàn)，比如DNS不是只提供visibility而不能保證任何consistency嗎？那我讀到分片信息是舊的，把slave當master用了怎么辦呢？所有做得好的存儲分片選主方案，在data node上自己是知道自己的角色的。如果你使用錯了，像redis cluster會回一個move指令，相當于http 302讓你去別的地方做這個操作。kafka也是類似的。

接入方式

libc只支持getHostByName，任何更高級的服務發(fā)現(xiàn)都需要挖空心思想怎么簡化接入。反正操作系統(tǒng)和語言自身的工具鏈上是沒有標準的支持的。每個公司都有一套自己的玩法。行業(yè)嚴重缺乏標準。

無論哪種方式都是要修改業(yè)務代碼的。即便是用proxy方式接入，業(yè)務代碼里也得寫死固定的proxy ip才行。從可讀性的角度來說，固定proxy ip的可讀性是最差的，而用服務名或者域名是可讀性最好的。

給每種語言寫lib

最笨拙的方法，也是最保險的。業(yè)務代碼直接寫服務名，獲得endpoint。

探活也就是硬改各種rpc的lib，在調用后面加上投票的代碼。

復用libc的getHostByName

因為所有的語言基本上都支持DNS域名解析。利用這一層的接口，用鉤子換掉lib的實際實現(xiàn)。業(yè)務代碼里寫域名，端口固定。

socket的鉤子要難做得多，而且僅僅tcp4層探活也是不夠的（http 500了往往也要認為對方是掛了的）。

實際上考慮golang這種沒有l(wèi)ibc的，java這種自己緩存域名結果的，鉤子的方案其實沒有想得那么美好。

本地 proxy

proxy其實是一種簡化服務發(fā)現(xiàn)接入方式的手段。業(yè)務可以不用知道服務名，而是使用固定的ip和端口訪問。由proxy去做服務發(fā)現(xiàn)，把請求轉給對方。

http的proxy也很成熟，在proxy里對rpc結果進行跳票也有現(xiàn)成的工具（比如nginx）。很多公司都是這種本地proxy的架構，比如airbnb，yelp，eleme，uber。當用lib方式接業(yè)務接不動的時候，大家都會往這條路上轉的。

遠程 proxy

遠程proxy的缺陷是固定ip導致了路由是固定的。這條路由上的所有路由器和交換機都是故障點。無法做到多條網絡路由冗余容錯。而且需要用lvs做虛ip，也引入了運維成本。

而且遠程proxy無法支持分區(qū)部署多套環(huán)境。除非引入bgp anycast這樣妖孽的實現(xiàn)。讓同一個ip在不同的idc里路由到不同的服務器。

分區(qū)部署

國內大部分的網游都是分區(qū)分服的。這種架構就是一種簡化的存儲層數(shù)據(jù)分片。存儲層的數(shù)據(jù)分片一般都做得非常完善，可以做到key級別的搬遷（當你訪問key的時候告訴你我可以響應，還是告訴你搬遷到哪里去了），可以做到訪問錯了shard告訴你正確的shard在哪里。而分區(qū)部署往往是沒有這么完善的。

所以為了支持分區(qū)部署。往往是給不同分區(qū)的服務區(qū)不同的服務名。比如模塊叫 chat，那么給hb_set（華北大區(qū)）的chat模塊就命名為hb_set.chat，給hn_set（華南大區(qū)）的chat模塊就命名為hn_set.chat。當時如果我們是gamesvr模塊，需要訪問chat模塊，代碼都是同一份，我怎么知道應該訪問hn_set.chat還是hb_set.chat呢？這個就需要讓gamesvr先知道自己所在的set，然后去訪問同set下的其他模塊。

again，這種分法也就是因為分區(qū)部署做為一個大的組合系統(tǒng)沒法像一個孤立地存儲做得那么好。像kafka的broker，哪怕你訪問的不是它的本地分片，它可以幫你去做proxy連接到正確的分片上。而我們沒法要求一個組合出來的業(yè)務系統(tǒng)也做到這么完備地程度。所以湊合著用吧。

但是這種分法也有問題。有一些模塊如果不是分區(qū)的，是全局的怎么辦？這個時候服務發(fā)現(xiàn)就得起一個路由表的作用，把不同分區(qū)的服務通過路由串起來。

jinfeng_wang 2016-12-15 15:46 發(fā)表評論

分布式系統(tǒng)互斥性與冪等性問題的分析與解決

jinfeng_wang — Wed, 14 Dec 2016 12:57:00 GMT

http://www.open-open.com/lib/view/open1475219934034.html 前言隨著互聯(lián)網信息技術的飛速發(fā)展，數(shù)據(jù)量不斷增大，業(yè)務邏輯也日趨復雜，對系統(tǒng)的高并發(fā)訪問、海量數(shù)據(jù)處理的場景也越來越多。如何用較低成本實現(xiàn)系統(tǒng)的高可用、易伸縮、可擴展等目標就顯得越發(fā)重要。為了解決這一系列問題，系統(tǒng)架構也在不斷演進。傳統(tǒng)的集中式系統(tǒng)已經逐漸無法滿足要求，分布式系統(tǒng)被使用在更多的場景中。分布式系統(tǒng)由獨立的服務器通過網絡松散耦合組成。在這個系統(tǒng)中每個服務器都是一臺獨立的主機，服務器之間通過內部網絡連接。分布式系統(tǒng)有以下幾個特點：可擴展性：可通過橫向水平擴展提高系統(tǒng)的性能和吞吐量。高可靠性：高容錯，即使系統(tǒng)中一臺或幾臺故障，系統(tǒng)仍可提供服務。高并發(fā)性：各機器并行獨立處理和計算。廉價高效：多臺小型機而非單臺高性能機。然而，在分布式系統(tǒng)中，其環(huán)境的復雜度、網絡的不確定性會造成諸如時鐘不一致、“拜占庭將軍問題”（Byzantine failure）等。存在于集中式系統(tǒng)中的機器宕機、消息丟失等問題也會在分布式環(huán)境中變得更加復雜。基于分布式系統(tǒng)的這些特征，有兩種問題逐漸成為了分布式環(huán)境中需要重點關注和解決的典型問題：互斥性問題。冪等性問題。今天我們就針對這兩個問題來進行分析。互斥性問題先看兩個常見的例子：例1：某服務記錄關鍵數(shù)據(jù)X，當前值為100。A請求需要將X增加200；同時，B請求需要將X減100。在理想的情況下，A先讀取到X=100，然后X增加200，最后寫入X=300。B請求接著從讀取X=300，減少100，最后寫入X=200。然而在真實情況下，如果不做任何處理，則可能會出現(xiàn)：A和B同時讀取到X=100；A寫入之前B讀取到X；B比A先寫入等等情況。例2：某服務提供一組任務，A請求隨機從任務組中獲取一個任務；B請求隨機從任務組中獲取一個任務。在理想的情況下，A從任務組中挑選一個任務，任務組刪除該任務，B從剩下的的任務中再挑一個，任務組刪除該任務。同樣的，在真實情況下，如果不做任何處理，可能會出現(xiàn)A和B挑中了同一個任務的情況。以上的兩個例子，都是常見的操作互斥性問題。互斥性問題用通俗的話來講，就是對共享資源的搶占問題。如果不同的請求對同一個或者同一組資源讀取并修改時，無法保證按序執(zhí)行，無法保證一個操作的原子性，那么就很有可能會出現(xiàn)預期外的情況。因此操作的互斥性問題，也可以理解為一個需要保證時序性、原子性的問題。在傳統(tǒng)的基于數(shù)據(jù)庫的架構中，對于數(shù)據(jù)的搶占問題往往是通過數(shù)據(jù)庫事務（ACID）來保證的。在分布式環(huán)境中，出于對性能以及一致性敏感度的要求，使得分布式鎖成為了一種比較常見而高效的解決方案。事實上，操作互斥性問題也并非分布式環(huán)境所獨有，在傳統(tǒng)的多線程、多進程情況下已經有了很好的解決方案。因此在研究分布式鎖之前，我們先來分析下這兩種情況的解決方案，以期能夠對分布式鎖的解決方案提供一些實現(xiàn)思路。多線程環(huán)境解決方案及原理解決方案《Thinking in Java》書中寫到：基本上所有的并發(fā)模式在解決線程沖突問題的時候，都是采用序列化訪問共享資源的方案。在多線程環(huán)境中，線程之間因為公用一些存儲空間，沖突問題時有發(fā)生。解決沖突問題最普遍的方式就是用互斥鎖把該資源或對該資源的操作保護起來。 Java JDK中提供了兩種互斥鎖Lock和synchronized。不同的線程之間對同一資源進行搶占，該資源通常表現(xiàn)為某個類的普通成員變量。因此，利用ReentrantLock或者synchronized將共享的變量及其操作鎖住，即可基本解決資源搶占的問題。下面來簡單聊一聊兩者的實現(xiàn)原理。原理 ReentrantLock ReentrantLock主要利用CAS+CLH隊列來實現(xiàn)。它支持公平鎖和非公平鎖，兩者的實現(xiàn)類似。 CAS：Compare and Swap，比較并交換。CAS有3個操作數(shù)：內存值V、預期值A、要修改的新值B。當且僅當預期值A和內存值V相同時，將內存值V修改為B，否則什么都不做。該操作是一個原子操作，被廣泛的應用在Java的底層實現(xiàn)中。在Java中，CAS主要是由sun.misc.Unsafe這個類通過JNI調用CPU底層指令實現(xiàn)。CLH隊列：帶頭結點的雙向非循環(huán)鏈表(如下圖所示)： ReentrantLock的基本實現(xiàn)可以概括為：先通過CAS嘗試獲取鎖。如果此時已經有線程占據(jù)了鎖，那就加入CLH隊列并且被掛起。當鎖被釋放之后，排在CLH隊列隊首的線程會被喚醒，然后CAS再次嘗試獲取鎖。在這個時候，如果：非公平鎖：如果同時還有另一個線程進來嘗試獲取，那么有可能會讓這個線程搶先獲取；公平鎖：如果同時還有另一個線程進來嘗試獲取，當它發(fā)現(xiàn)自己不是在隊首的話，就會排到隊尾，由隊首的線程獲取到鎖。下面分析下兩個片段： finalbooleannonfairTryAcquire(int acquires){ final Thread current = Thread.currentThread(); int c = getState(); if (c == 0) { if (compareAndSetState(0, acquires)) { setExclusiveOwnerThread(current); returntrue; } } elseif (current == getExclusiveOwnerThread()) { int nextc = c + acquires; if (nextc < 0) // overflowthrownew Error("Maximum lock count exceeded"); setState(nextc); returntrue; } returnfalse; } 在嘗試獲取鎖的時候，會先調用上面的方法。如果狀態(tài)為0，則表明此時無人占有鎖。此時嘗試進行set，一旦成功，則成功占有鎖。如果狀態(tài)不為0，再判斷是否是當前線程獲取到鎖。如果是的話，將狀態(tài)+1，因為此時就是當前線程，所以不用CAS。這也就是可重入鎖的實現(xiàn)原理。 finalbooleanacquireQueued(final Node node, int arg){ boolean failed = true; try { boolean interrupted = false; for (;;) { final Node p = node.predecessor(); if (p == head && tryAcquire(arg)) { setHead(node); p.next = null; // help GC failed = false; return interrupted; } if (shouldParkAfterFailedAcquire(p, node) && parkAndCheckInterrupt()) interrupted = true; } } finally { if (failed) cancelAcquire(node); } } privatefinalbooleanparkAndCheckInterrupt(){ LockSupport.park(this); return Thread.interrupted(); } 該方法是在嘗試獲取鎖失敗加入CHL隊尾之后，如果發(fā)現(xiàn)前序節(jié)點是head，則CAS再嘗試獲取一次。否則，則會根據(jù)前序節(jié)點的狀態(tài)判斷是否需要阻塞。如果需要阻塞，則調用LockSupport的park方法阻塞該線程。 synchronized 在Java語言中存在兩種內建的synchronized語法：synchronized語句、synchronized方法。 synchronized語句：當源代碼被編譯成字節(jié)碼的時候，會在同步塊的入口位置和退出位置分別插入monitorenter和monitorexit字節(jié)碼指令;synchronized方法：在Class文件的方法表中將該方法的access_flags字段中的synchronized標志位置1。這個在specification中沒有明確說明。在Java虛擬機的specification中，有關于monitorenter和monitorexit字節(jié)碼指令的詳細描述：http://docs.oracle.com/Javase/specs/jvms/se7/html/jvms-6.html#jvms-6.5.monitorenter。 monitorenter The objectref must be of type reference. Each object is associated with a monitor. A monitor is locked if and only if it has an owner. The thread that executes monitorenter attempts to gain ownership of the monitor associated with objectref, as follows: If the entry count of the monitor associated with objectref is zero, the thread enters the monitor and sets its entry count to one. The thread is then the owner of the monitor.If the thread already owns the monitor associated with objectref, it reenters the monitor, incrementing its entry count.If another thread already owns the monitor associated with objectref, the thread blocks until the monitor's entry count is zero, then tries again to gain ownership. 每個對象都有一個鎖，也就是監(jiān)視器（monitor）。當monitor被占有時就表示它被鎖定。線程執(zhí)行monitorenter指令時嘗試獲取對象所對應的monitor的所有權，過程如下：如果monitor的進入數(shù)為0，則該線程進入monitor，然后將進入數(shù)設置為1，該線程即為monitor的所有者;如果線程已經擁有了該monitor，只是重新進入，則進入monitor的進入數(shù)加1;如果其他線程已經占用了monitor，則該線程進入阻塞狀態(tài)，直到monitor的進入數(shù)為0，再重新嘗試獲取monitor的所有權。 monitorexit The objectref must be of type reference. The thread that executes monitorexit must be the owner of the monitor associated with the instance referenced by objectref. The thread decrements the entry count of the monitor associated with objectref. If as a result the value of the entry count is zero, the thread exits the monitor and is no longer its owner. Other threads that are blocking to enter the monitor are allowed to attempt to do so. 執(zhí)行monitorexit的線程必須是相應的monitor的所有者。指令執(zhí)行時，monitor的進入數(shù)減1，如果減1后進入數(shù)為0，那線程退出monitor，不再是這個monitor的所有者。其他被這個monitor阻塞的線程可以嘗試去獲取這個monitor的所有權。在JVM中monitorenter和monitorexit字節(jié)碼依賴于底層的操作系統(tǒng)的Mutex Lock來實現(xiàn)的，但是由于使用Mutex Lock需要將當前線程掛起并從用戶態(tài)切換到內核態(tài)來執(zhí)行，這種切換的代價是非常昂貴的。然而在現(xiàn)實中的大部分情況下，同步方法是運行在單線程環(huán)境（無鎖競爭環(huán)境）。如果每次都調用Mutex Lock將嚴重的影響程序的性能。因此在JDK 1.6之后的版本中對鎖的實現(xiàn)做了大量的優(yōu)化，這些優(yōu)化在很大程度上減少或避免了Mutex Lock的使用。多進程的解決方案在多道程序系統(tǒng)中存在許多進程，它們共享各種資源，然而有很多資源一次只能供一個進程使用，這便是臨界資源。多進程中的臨界資源大致上可以分為兩類，一類是物理上的真實資源，如打印機；一類是硬盤或內存中的共享數(shù)據(jù)，如共享內存等。而進程內互斥訪問臨界資源的代碼被稱為臨界區(qū)。針對臨界資源的互斥訪問，JVM層面的鎖就已經失去效力了。在多進程的情況下，主要還是利用操作系統(tǒng)層面的進程間通信原理來解決臨界資源的搶占問題。比較常見的一種方法便是使用信號量（Semaphores）。信號量在POSIX標準下有兩種，分別為有名信號量和無名信號量。無名信號量通常保存在共享內存中，而有名信號量是與一個特定的文件名稱相關聯(lián)。信號量是一個整數(shù)變量，有計數(shù)信號量和二值信號量兩種。對信號量的操作，主要是P操作（wait）和V操作（signal）。 P操作：先檢查信號量的大小，若值大于零，則將信號量減1，同時進程獲得共享資源的訪問權限，繼續(xù)執(zhí)行；若小于或者等于零，則該進程被阻塞后，進入等待隊列。V操作：該操作將信號量的值加1，如果有進程阻塞著等待該信號量，那么其中一個進程將被喚醒。舉個例子，設信號量為1，當一個進程A在進入臨界區(qū)之前，先進行P操作。發(fā)現(xiàn)值大于零，那么就將信號量減為0，進入臨界區(qū)執(zhí)行。此時，若另一個進程B也要進去臨界區(qū)，進行P操作，發(fā)現(xiàn)信號量等于0，則會被阻塞。當進程A退出臨界區(qū)時，會進行V操作，將信號量的值加1，并喚醒阻塞的進程B。此時B就可以進入臨界區(qū)了。這種方式，其實和多線程環(huán)境下的加解鎖非常類似。因此用信號量處理臨界資源搶占，也可以簡單地理解為對臨界區(qū)進行加鎖。通過上面的一些了解，我們可以概括出解決互斥性問題，即資源搶占的基本方式為：對共享資源的操作前后（進入退出臨界區(qū)）加解鎖，保證不同線程或進程可以互斥有序的操作資源。加解鎖方式，有顯式的加解鎖，如ReentrantLock或信號量；也有隱式的加解鎖，如synchronized。那么在分布式環(huán)境中，為了保證不同JVM不同主機間不會出現(xiàn)資源搶占，那么同樣只要對臨界區(qū)加解鎖就可以了。然而在多線程和多進程中，鎖已經有比較完善的實現(xiàn)，直接使用即可。但是在分布式環(huán)境下，就需要我們自己來實現(xiàn)分布式鎖。分布式環(huán)境下的解決方案——分布式鎖首先，我們來看看分布式鎖的基本條件。分布式鎖條件基本條件再回顧下多線程和多進程環(huán)境下的鎖，可以發(fā)現(xiàn)鎖的實現(xiàn)有很多共通之處，它們都需要滿足一些最基本的條件：需要有存儲鎖的空間，并且鎖的空間是可以訪問到的。鎖需要被唯一標識。鎖要有至少兩種狀態(tài)。仔細分析這三個條件：存儲空間鎖是一個抽象的概念，鎖的實現(xiàn)，需要依存于一個可以存儲鎖的空間。在多線程中是內存，在多進程中是內存或者磁盤。更重要的是，這個空間是可以被訪問到的。多線程中，不同的線程都可以訪問到堆中的成員變量；在多進程中，不同的進程可以訪問到共享內存中的數(shù)據(jù)或者存儲在磁盤中的文件。但是在分布式環(huán)境中，不同的主機很難訪問對方的內存或磁盤。這就需要一個都能訪問到的外部空間來作為存儲空間。最普遍的外部存儲空間就是數(shù)據(jù)庫了，事實上也確實有基于數(shù)據(jù)庫做分布式鎖（行鎖、version樂觀鎖），如quartz集群架構中就有所使用。除此以外，還有各式緩存如Redis、Tair、Memcached、Mongodb，當然還有專門的分布式協(xié)調服務Zookeeper，甚至是另一臺主機。只要可以存儲數(shù)據(jù)、鎖在其中可以被多主機訪問到，那就可以作為分布式鎖的存儲空間。唯一標識不同的共享資源，必然需要用不同的鎖進行保護，因此相應的鎖必須有唯一的標識。在多線程環(huán)境中，鎖可以是一個對象，那么對這個對象的引用便是這個唯一標識。多進程環(huán)境中，信號量在共享內存中也是由引用來作為唯一的標識。但是如果不在內存中，失去了對鎖的引用，如何唯一標識它呢？上文提到的有名信號量，便是用硬盤中的文件名作為唯一標識。因此，在分布式環(huán)境中，只要給這個鎖設定一個名稱，并且保證這個名稱是全局唯一的，那么就可以作為唯一標識。至少兩種狀態(tài) 為了給臨界區(qū)加鎖和解鎖，需要存儲兩種不同的狀態(tài)。如ReentrantLock中的status，0表示沒有線程競爭，大于0表示有線程競爭；信號量大于0表示可以進入臨界區(qū)，小于等于0則表示需要被阻塞。因此只要在分布式環(huán)境中，鎖的狀態(tài)有兩種或以上：如有鎖、沒鎖；存在、不存在等等，均可以實現(xiàn)。有了這三個條件，基本就可以實現(xiàn)一個簡單的分布式鎖了。下面以數(shù)據(jù)庫為例，實現(xiàn)一個簡單的分布式鎖：數(shù)據(jù)庫表，字段為鎖的ID（唯一標識），鎖的狀態(tài)（0表示沒有被鎖，1表示被鎖）。偽代碼為： lock = mysql.get(id); while(lock.status == 1) { sleep(100); } mysql.update(lock.status = 1); doSomething(); mysql.update(lock.status = 0); 問題以上的方式即可以實現(xiàn)一個粗糙的分布式鎖，但是這樣的實現(xiàn)，有沒有什么問題呢？問題1：鎖狀態(tài)判斷原子性無法保證從讀取鎖的狀態(tài)，到判斷該狀態(tài)是否為被鎖，需要經歷兩步操作。如果不能保證這兩步的原子性，就可能導致不止一個請求獲取到了鎖，這顯然是不行的。因此，我們需要保證鎖狀態(tài)判斷的原子性。問題2：網絡斷開或主機宕機，鎖狀態(tài)無法清除假設在主機已經獲取到鎖的情況下，突然出現(xiàn)了網絡斷開或者主機宕機，如果不做任何處理該鎖將仍然處于被鎖定的狀態(tài)。那么之后所有的請求都無法再成功搶占到這個鎖。因此，我們需要在持有鎖的主機宕機或者網絡斷開的時候，及時的釋放掉這把鎖。問題3：無法保證釋放的是自己上鎖的那把鎖在解決了問題2的情況下再設想一下，假設持有鎖的主機A在臨界區(qū)遇到網絡抖動導致網絡斷開，分布式鎖及時的釋放掉了這把鎖。之后，另一個主機B占有了這把鎖，但是此時主機A網絡恢復，退出臨界區(qū)時解鎖。由于都是同一把鎖，所以A就會將B的鎖解開。此時如果有第三個主機嘗試搶占這把鎖，也將會成功獲得。因此，我們需要在解鎖時，確定自己解的這個鎖正是自己鎖上的。進階條件如果分布式鎖的實現(xiàn)，還能再解決上面的三個問題，那么就可以算是一個相對完整的分布式鎖了。然而，在實際的系統(tǒng)環(huán)境中，還會對分布式鎖有更高級的要求。可重入：線程中的可重入，指的是外層函數(shù)獲得鎖之后，內層也可以獲得鎖，ReentrantLock和synchronized都是可重入鎖；衍生到分布式環(huán)境中，一般仍然指的是線程的可重入，在絕大多數(shù)分布式環(huán)境中，都要求分布式鎖是可重入的。羊群效應（Herd Effect）：在分布式鎖中，羊群效應指的是，在有多個請求等待獲取鎖的時候，一旦占有鎖的線程釋放之后，如果所有等待的方都同時被喚醒，嘗試搶占鎖。但是這樣的情況會造成比較大的開銷，那么在實現(xiàn)分布式鎖的時候，應該盡量避免羊群效應的產生。公平鎖和非公平鎖：不同的需求，可能需要不同的分布式鎖。非公平鎖普遍比公平鎖開銷小。但是業(yè)務需求如果必須要鎖的競爭者按順序獲得鎖，那么就需要實現(xiàn)公平鎖。阻塞鎖和自旋鎖：針對不同的使用場景，阻塞鎖和自旋鎖的效率也會有所不同。阻塞鎖會有上下文切換，如果并發(fā)量比較高且臨界區(qū)的操作耗時比較短，那么造成的性能開銷就比較大了。但是如果臨界區(qū)操作耗時比較長，一直保持自旋，也會對CPU造成更大的負荷。保留以上所有問題和條件，我們接下來看一些比較典型的實現(xiàn)方案。典型實現(xiàn) ZooKeeper的實現(xiàn) ZooKeeper（以下簡稱“ZK”）中有一種節(jié)點叫做順序節(jié)點，假如我們在/lock/目錄下創(chuàng)建3個節(jié)點，ZK集群會按照發(fā)起創(chuàng)建的順序來創(chuàng)建節(jié)點，節(jié)點分別為/lock/0000000001、/lock/0000000002、/lock/0000000003。 ZK中還有一種名為臨時節(jié)點的節(jié)點，臨時節(jié)點由某個客戶端創(chuàng)建，當客戶端與ZK集群斷開連接，則該節(jié)點自動被刪除。EPHEMERAL_SEQUENTIAL為臨時順序節(jié)點。根據(jù)ZK中節(jié)點是否存在，可以作為分布式鎖的鎖狀態(tài)，以此來實現(xiàn)一個分布式鎖，下面是分布式鎖的基本邏輯：客戶端調用create()方法創(chuàng)建名為“dlm-locks/lockname/lock-”的臨時順序節(jié)點。客戶端調用getChildren(“lockname”)方法來獲取所有已經創(chuàng)建的子節(jié)點。客戶端獲取到所有子節(jié)點path之后，如果發(fā)現(xiàn)自己在步驟1中創(chuàng)建的節(jié)點是所有節(jié)點中序號最小的，那么就認為這個客戶端獲得了鎖。如果創(chuàng)建的節(jié)點不是所有節(jié)點中需要最小的，那么則監(jiān)視比自己創(chuàng)建節(jié)點的序列號小的最大的節(jié)點，進入等待。直到下次監(jiān)視的子節(jié)點變更的時候，再進行子節(jié)點的獲取，判斷是否獲取鎖。釋放鎖的過程相對比較簡單，就是刪除自己創(chuàng)建的那個子節(jié)點即可。 Menagerie中的lock首先實現(xiàn)了可重入鎖，利用ThreadLocal存儲進入的次數(shù)，每次加鎖次數(shù)加1，每次解鎖次數(shù)減1。如果判斷出是當前線程持有鎖，就不用走獲取鎖的流程。通過tryAcquireDistributed方法嘗試獲取鎖，循環(huán)判斷前序節(jié)點是否存在，如果存在則監(jiān)視該節(jié)點并且返回獲取失敗。如果前序節(jié)點不存在，則再判斷更前一個節(jié)點。如果判斷出自己是第一個節(jié)點，則返回獲取成功。為了在別的線程占有鎖的時候阻塞，代碼中使用JUC的condition來完成。如果獲取嘗試鎖失敗，則進入等待且放棄localLock，等待前序節(jié)點喚醒。而localLock是一個本地的公平鎖，使得condition可以公平的進行喚醒，配合循環(huán)判斷前序節(jié)點，實現(xiàn)了一個公平鎖。這種實現(xiàn)方式非常類似于ReentrantLock的CHL隊列，而且zk的臨時節(jié)點可以直接避免網絡斷開或主機宕機，鎖狀態(tài)無法清除的問題，順序節(jié)點可以避免羊群效應。這些特性都使得ZK成為了最普遍的分布式鎖實現(xiàn)之一。 Redis的實現(xiàn) Redis的分布式緩存特性使其成為了分布式鎖的一種基礎實現(xiàn)。通過Redis中是否存在某個鎖ID，則可以判斷是否上鎖。為了保證判斷鎖是否存在的原子性，保證只有一個線程獲取同一把鎖，Redis有SETNX（即SET if Not eXists）和GETSET（先寫新值，返回舊值，原子性操作，可以用于分辨是不是首次操作）操作。為了防止主機宕機或網絡斷開之后的死鎖，Redis沒有ZK那種天然的實現(xiàn)方式，只能依賴設置超時時間來規(guī)避。以下是一種比較普遍但不太完善的Redis分布式鎖的實現(xiàn)步驟：線程A發(fā)送SETNX lock.orderid 嘗試獲得鎖，如果鎖不存在，則set并獲得鎖。如果鎖存在，則再判斷鎖的值（時間戳）是否大于當前時間，如果沒有超時，則等待一下再重試。如果已經超時了，在用GETSET lock.{orderid} 來嘗試獲取鎖，如果這時候拿到的時間戳仍舊超時，則說明已經獲得鎖了。如果在此之前，另一個線程B快一步執(zhí)行了上面的操作，那么A拿到的時間戳是個未超時的值，這時A沒有如期獲得鎖，需要再次等待或重試。但是盡管A沒拿到鎖，但它改寫了B設置的鎖的超時值。但因為解鎖并不是依據(jù)超時值，所以影響不大。該實現(xiàn)還有一個需要考慮的問題是全局時鐘問題，由于生產環(huán)境主機時鐘不能保證完全同步，對時間戳的判斷也可能會產生誤差。以上是Redis的一種常見的實現(xiàn)方式，除此以外還可以用SETNX+EXPIRE來實現(xiàn)。Redisson是一個官方推薦的Redis客戶端并且實現(xiàn)了很多分布式的功能。它的分布式鎖就提供了一種更完善的解決方案，源碼：https://github.com/mrniko/redisson。 Tair的實現(xiàn) Tair和Redis的實現(xiàn)類似，Tair客戶端封裝了一個expireLock的方法：通過鎖狀態(tài)和過期時間戳來共同判斷鎖是否存在，只有鎖已經存在且沒有過期的狀態(tài)才判定為有鎖狀態(tài)。在有鎖狀態(tài)下，不能加鎖，能通過大于或等于過期時間的時間戳進行解鎖。采用這樣的方式，可以不用在Value中存儲時間戳，并且保證了判斷是否有鎖的原子性。更值得注意的是，由于超時時間是由Tair判斷，所以避免了不同主機時鐘不一致的情況。以上的幾種分布式鎖實現(xiàn)方式，都是比較常見且有些已經在生產環(huán)境中應用。隨著應用環(huán)境越來越復雜，這些實現(xiàn)可能仍然會遇到一些挑戰(zhàn)。強依賴于外部組件：分布式鎖的實現(xiàn)都需要依賴于外部數(shù)據(jù)存儲如ZK、Redis等等，因此一旦這些外部組件出現(xiàn)故障，那么分布式鎖就不可用了。無法完全滿足需求：不同分布式鎖的實現(xiàn)，都有相應的特點，對于一些需求并不能很好的滿足，如實現(xiàn)公平鎖、給等待鎖加超時時間等等。基于以上問題，結合多種實現(xiàn)方式，我們開發(fā)了Cerberus（得名自希臘神話里守衛(wèi)地獄的猛犬），致力于提供靈活可靠的分布式鎖。 Cerberus分布式鎖 Cerberus有以下幾個特點。特點一：一套接口多種引擎 Cerberus分布式鎖使用了多種引擎實現(xiàn)方式（Tair、ZK、未來支持Redis），支持使用方自主選擇所需的一種或多種引擎。這樣可以結合引擎特點，選擇符合實際業(yè)務需求和系統(tǒng)架構的方式。 Cerberus分布式鎖將不同引擎的接口抽象為一套，屏蔽了不同引擎的實現(xiàn)細節(jié)。使得使用方可以專注于業(yè)務邏輯，也可以任意選擇并切換引擎而不必更改任何的業(yè)務代碼。如果使用方選擇了一種以上的引擎，那么以配置順序來區(qū)分主副引擎。以下是使用主引擎的推薦：功能需求TairZK并發(fā)量高?響應時間敏感?臨界區(qū)執(zhí)行時間長?公平鎖?非公平鎖?讀寫鎖? 特點二：使用靈活、學習成本低下面是Cerberus的lock方法，這些方法和JUC的ReentrantLock的方式保持一致，使用非常靈活且不需要額外的學習時間。 void lock(); 獲取鎖，如果鎖被占用，將禁用當前線程，并且在獲得鎖之前，該線程將一直處于阻塞狀態(tài)。boolean tryLock(); 僅在調用時鎖為空閑狀態(tài)才獲取該鎖。如果鎖可用，則獲取鎖，并立即返回值 true。如果鎖不可用，則此方法將立即返回值 false。boolean tryLock(long time, TimeUnit unit) throws InterruptedException; 如果鎖在給定的等待時間內空閑，并且當前線程未被中斷，則獲取鎖。如果在給定時間內鎖可用，則獲取鎖，并立即返回值 true。如果在給定時間內鎖一直不可用，則此方法將立即返回值false。void lockInterruptibly() throws InterruptedException; 獲取鎖，如果鎖被占用，則一直等待直到線程被中斷或者獲取到鎖。void unlock(); 釋放當前持有的鎖。特點三：支持一鍵降級 Cerberus提供了實時切換引擎的接口: String switchEngine() 轉換分布式鎖引擎，按配置的引擎的順序循環(huán)轉換。返回值：返回當前的engine名字，如："zk"。String switchEngine(String engineName) 轉換分布式鎖引擎，切換為指定的引擎。參數(shù)：engineName - 引擎的名字，同配置bean的名字，"zk"/"tair"。返回值：返回當前的engine名字，如："zk"。當使用方選擇了兩種引擎，平時分布式鎖會工作在主引擎上。一旦所依賴的主引擎出現(xiàn)故障，那么使用方可以通過自動或者手動方式調用該切換引擎接口，平滑的將分布式鎖切換到另一個引擎上以將風險降到最低。自動切換方式可以利用Hystrix實現(xiàn)。手動切換推薦的一個方案則是使用美團點評基于Zookeeper的基礎組件MCC，通過監(jiān)聽MCC配置項更改，來達到手動將分布式系統(tǒng)所有主機同步切換引擎的目的。除此以外，Cerberus還提供了內置公用集群，免去搭建和配置集群的煩惱。Cerberus也有一套完善的應用授權機制，以此防止業(yè)務方未經評估使用，對集群造成影響。目前，Cerberus分布式鎖已經持續(xù)迭代了8個版本，先后在美團點評多個項目中穩(wěn)定運行。冪等性問題所謂冪等，簡單地說，就是對接口的多次調用所產生的結果和調用一次是一致的。擴展一下，這里的接口，可以理解為對外發(fā)布的HTTP接口或者Thrift接口，也可以是接收消息的內部接口，甚至是一個內部方法或操作。那么我們?yōu)槭裁葱枰涌诰哂袃绲刃阅兀吭O想一下以下情形：在App中下訂單的時候，點擊確認之后，沒反應，就又點擊了幾次。在這種情況下，如果無法保證該接口的冪等性，那么將會出現(xiàn)重復下單問題。在接收消息的時候，消息推送重復。如果處理消息的接口無法保證冪等，那么重復消費消息產生的影響可能會非常大。在分布式環(huán)境中，網絡環(huán)境更加復雜，因前端操作抖動、網絡故障、消息重復、響應速度慢等原因，對接口的重復調用概率會比集中式環(huán)境下更大，尤其是重復消息在分布式環(huán)境中很難避免。Tyler Treat也在《You Cannot Have Exactly-Once Delivery》一文中提到： Within the context of a distributed system, you cannot have exactly-once message delivery. 分布式環(huán)境中，有些接口是天然保證冪等性的，如查詢操作。有些對數(shù)據(jù)的修改是一個常量，并且無其他記錄和操作，那也可以說是具有冪等性的。其他情況下，所有涉及對數(shù)據(jù)的修改、狀態(tài)的變更就都有必要防止重復性操作的發(fā)生。通過間接的實現(xiàn)接口的冪等性來防止重復操作所帶來的影響，成為了一種有效的解決方案。 GTIS GTIS就是這樣的一個解決方案。它是一個輕量的重復操作關卡系統(tǒng)，它能夠確保在分布式環(huán)境中操作的唯一性。我們可以用它來間接保證每個操作的冪等性。它具有如下特點：高效：低延時，單個方法平均響應時間在2ms內，幾乎不會對業(yè)務造成影響；可靠：提供降級策略，以應對外部存儲引擎故障所造成的影響；提供應用鑒權，提供集群配置自定義，降低不同業(yè)務之間的干擾；簡單：接入簡捷方便，學習成本低。只需簡單的配置，在代碼中進行兩個方法的調用即可完成所有的接入工作；靈活：提供多種接口參數(shù)、使用策略，以滿足不同的業(yè)務需求。實現(xiàn)原理基本原理 GTIS的實現(xiàn)思路是將每一個不同的業(yè)務操作賦予其唯一性。這個唯一性是通過對不同操作所對應的唯一的內容特性生成一個唯一的全局ID來實現(xiàn)的。基本原則為：相同的操作生成相同的全局ID；不同的操作生成不同的全局ID。生成的全局ID需要存儲在外部存儲引擎中，數(shù)據(jù)庫、Redis亦或是Tair等等均可實現(xiàn)。考慮到Tair天生分布式和持久化的優(yōu)勢，目前的GTIS存儲在Tair中。其相應的key和value如下： key：將對于不同的業(yè)務，采用APP_KEY+業(yè)務操作內容特性生成一個唯一標識trans_contents。然后對唯一標識進行加密生成全局ID作為Key。value：current_timestamp + trans_contents，current_timestamp用于標識當前的操作線程。判斷是否重復，主要利用Tair的SETNX方法，如果原來沒有值則set且返回成功，如果已經有值則返回失敗。內部流程 GTIS的內部實現(xiàn)流程為：業(yè)務方在業(yè)務操作之前，生成一個能夠唯一標識該操作的transContents，傳入GTIS；GTIS根據(jù)傳入的transContents，用MD5生成全局ID；GTIS將全局ID作為key，current_timestamp+transContents作為value放入Tair進行setNx，將結果返回給業(yè)務方；業(yè)務方根據(jù)返回結果確定能否開始進行業(yè)務操作；若能，開始進行操作；若不能，則結束當前操作；業(yè)務方將操作結果和請求結果傳入GTIS，系統(tǒng)進行一次請求結果的檢驗；若該次操作成功，GTIS根據(jù)key取出value值，跟傳入的返回結果進行比對，如果兩者相等，則將該全局ID的過期時間改為較長時間；GTIS返回最終結果。實現(xiàn)難點 GTIS的實現(xiàn)難點在于如何保證其判斷重復的可靠性。由于分布式環(huán)境的復雜度和業(yè)務操作的不確定性，在上一章節(jié)分布式鎖的實現(xiàn)中考慮的網絡斷開或主機宕機等等問題，同樣需要在GTIS中設法解決。這里列出幾個典型的場景：如果操作執(zhí)行失敗，理想的情況應該是另一個相同的操作可以立即進行。因此，需要對業(yè)務方的操作結果進行判斷，如果操作失敗，那么就需要立即刪除該全局ID；如果操作超時或主機宕機，當前的操作無法告知GTIS操作是否成功。那么我們必須引入超時機制，一旦長時間獲取不到業(yè)務方的操作反饋，那么也需要該全局ID失效；結合上兩個場景，既然全局ID會失效并且可能會被刪除，那就需要保證刪除的不是另一個相同操作的全局ID。這就需要將特殊的標識記錄下來，并由此來判斷。這里所用的標識為當前時間戳。可以看到，解決這些問題的思路，也和上一章節(jié)中的實現(xiàn)有很多類似的地方。除此以外，還有更多的場景需要考慮和解決，所有分支流程如下: 使用說明使用時，業(yè)務方只需要在操作的前后調用GTIS的前置方法和后置方法，如下圖所示。如果前置方法返回可進行操作，則說明此時無重復操作，可以進行。否則則直接結束操作。使用方需要考慮的主要是下面兩個參數(shù)：空間全局性：業(yè)務方輸入的能夠標志操作唯一性的內容特性，可以是唯一性的String類型的ID，也可以是map、POJO等形式。如訂單ID等時間全局性：確定在多長時間內不允許重復，1小時內還是一個月內亦或是永久。此外，GTIS還提供了不同的故障處理策略和重試機制，以此來降低外部存儲引擎異常對系統(tǒng)造成的影響。目前，GTIS已經持續(xù)迭代了7個版本，距離第一個版本有近1年之久，先后在美團點評多個項目中穩(wěn)定運行。結語在分布式環(huán)境中，操作互斥性問題和冪等性問題非常普遍。經過分析，我們找出了解決這兩個問題的基本思路和實現(xiàn)原理，給出了具體的解決方案。針對操作互斥性問題，常見的做法便是通過分布式鎖來處理對共享資源的搶占。分布式鎖的實現(xiàn)，很大程度借鑒了多線程和多進程環(huán)境中的互斥鎖的實現(xiàn)原理。只要滿足一些存儲方面的基本條件，并且能夠解決如網絡斷開等異常情況，那么就可以實現(xiàn)一個分布式鎖。目前已經有基于Zookeeper和Redis等存儲引擎的比較典型的分布式鎖實現(xiàn)。但是由于單存儲引擎的局限，我們開發(fā)了基于ZooKeeper和Tair的多引擎分布式鎖Cerberus，它具有使用靈活方便等諸多優(yōu)點，還提供了完善的一鍵降級方案。針對操作冪等性問題，我們可以通過防止重復操作來間接的實現(xiàn)接口的冪等性。GTIS提供了一套可靠的解決方法：依賴于存儲引擎，通過對不同操作所對應的唯一的內容特性生成一個唯一的全局ID來防止操作重復。目前Cerberus分布式鎖、GTIS都已應用在生產環(huán)境并平穩(wěn)運行。兩者提供的解決方案已經能夠解決大多數(shù)分布式環(huán)境中的操作互斥性和冪等性的問題。值得一提的是，分布式鎖和GTIS都不是萬能的，它們對外部存儲系統(tǒng)的強依賴使得在環(huán)境不那么穩(wěn)定的情況下，對可靠性會造成一定的影響。在并發(fā)量過高的情況下，如果不能很好的控制鎖的粒度，那么使用分布式鎖也是不太合適的。總的來說，分布式環(huán)境下的業(yè)務場景紛繁復雜，要解決互斥性和冪等性問題還需要結合當前系統(tǒng)架構、業(yè)務需求和未來演進綜合考慮。Cerberus分布式鎖和GTIS也會持續(xù)不斷地迭代更新，提供更多的引擎選擇、更高效可靠的實現(xiàn)方式、更簡捷的接入流程，以期滿足更復雜的使用場景和業(yè)務需求。

jinfeng_wang 2016-12-14 20:57 發(fā)表評論

聊一聊分布式鎖的設計（redis 分布式鎖）

jinfeng_wang — Wed, 14 Dec 2016 10:31:00 GMT

http://weizijun.cn/2016/03/17/%E8%81%8A%E4%B8%80%E8%81%8A%E5%88%86%E5%B8%83%E5%BC%8F%E9%94%81%E7%9A%84%E8%AE%BE%E8%AE%A1/

起因

前段時間，看到redis作者發(fā)布的一篇文章《Is Redlock safe?》，Redlock是redis作者基于redis設計的分布式鎖的算法。文章起因是有一位分布式的專家寫了一篇文章《How to do distributed locking》，質疑Redlock的正確性。redis作者則在《Is Redlock safe?》文章中給予回應，一來一回甚是精彩。文本就為讀者一一解析兩位專家的爭論。

在了解兩位專家的爭論前，讓我先從我了解的分布式鎖一一道來。文章中提到的分布式鎖均為排他鎖。

數(shù)據(jù)庫鎖表

我第一次接觸分布式鎖用的是mysql的鎖表。當時我并沒有分布式鎖的概念。只知道當時有兩臺交易中心服務器處理相同的業(yè)務，每個交易中心處理訂單的時候需要保證另一個無法處理。于是用mysql的一張表來控制共享資源。表結構如下：

CREATE TABLE `lockedOrder` (   `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '主碼',   `type` tinyint(8) unsigned NOT NULL DEFAULT '0' COMMENT '操作類別',   `order_id` varchar(64) NOT NULL DEFAULT '' COMMENT '鎖定的order_id',   `memo` varchar(1024) NOT NULL DEFAULT '',   `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '保存數(shù)據(jù)時間，自動生成',   PRIMARY KEY (`id`),   UNIQUE KEY `uidx_order_id` (`order_id`) USING BTREE ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='鎖定中的訂單';

order_id記錄了訂單號，type和memo用來記錄下是那種類型的操作鎖定的訂單，memo用來記錄一下操作內容。這張表能完成分布式鎖的主要原因正是由于把order_id設置為了UNIQUE KEY，所以同一個訂單號只能插入一次。于是對鎖的競爭就交給了數(shù)據(jù)庫，處理同一個訂單號的交易中心把訂單號插入表中，數(shù)據(jù)庫保證了只有一個交易中心能插入成功，其他交易中心都會插入失敗。lock和unlock的偽代碼也非常簡單：

def lock ：     exec sql: insert into lockedOrder(type,order_id,memo) values (type,order_id,memo)     if result == true :         return true     else :         return false  def unlock ：     exec sql: delete from lockedOrder where order_id='order_id'

讀者可以發(fā)現(xiàn)，這個鎖從功能上有幾個問題：

數(shù)據(jù)庫鎖實現(xiàn)只能是非阻塞鎖，即應該為tryLock，是嘗試獲得鎖，如果無法獲得則會返回失敗。要改成阻塞鎖，需要反復執(zhí)行insert語句直到插入成功。由于交易中心的使用場景，只要一個交易中心處理訂單就行了，所以這里不需要使用阻塞鎖。
這把鎖沒有過期時間，如果交易中心鎖定了訂單，但異常宕機后，這個訂單就無法鎖定了。這里為了讓鎖能夠失效，需要在應用層加上定時任務，去刪除過期還未解鎖的訂單。clear_timeout_lock的偽代碼很簡單，只要執(zhí)行一條sql即可。
```
def clear_timeout_lock :     exec sql : delete from lockedOrder where update_time <  ADDTIME(NOW(),'-00:02:00') 
```
這里設置過期時間為2分鐘，也是從業(yè)務場景考慮的，如果訂單處理時間可能超過2分鐘的話，這個時候還需要加大。
這把鎖是不能重入的，意思就是即使一個交易中心獲得了鎖，在它為解鎖前，之后的流程如果有再去獲取鎖的話還會失敗，這樣就可能出現(xiàn)死鎖。這個問題我們當時沒有處理，如果要處理這個問題的話，需要增加字段，在insert的時候，把該交易中心的標識加進來，這樣再獲取鎖的時候，通過select，看下鎖定的人是不是自己。lock的偽代碼版本如下：
```
def lock ：     exec sql: insert into lockedOrder(type,order_id,memo) values (type,order_id,memo)     if result == true :         return true     else :         exec sql : select id from lockedOrder where order_id='order_id' and memo = 'TradeCenterId'         if count > 0 :             return true         else              return false 
```
在鎖定失敗后，看下鎖是不是自己，如果是自己，那依然鎖定成功。不過這個方法解鎖又遇到了困難，第一次unlock就把鎖給釋放了，后面的流程都是在沒鎖的情況下完成，就可能出現(xiàn)其他交易中心也獲取到這個訂單鎖，產生沖突。解決這個辦法的方法就是給鎖加計數(shù)器，記錄下lock多少次。unlock的時候，只有在lock次數(shù)為0后才能刪除數(shù)據(jù)庫的記錄。

可以看出，數(shù)據(jù)庫鎖能實現(xiàn)一個簡單的避免共享資源被多個系統(tǒng)操作的情況。我以前在盛大的時候，發(fā)現(xiàn)盛大特別喜歡用數(shù)據(jù)庫鎖。盛大的前輩們會說，盛大基本上實現(xiàn)分布式鎖用的都是數(shù)據(jù)庫鎖。在并發(fā)量不是那么恐怖的情況下，數(shù)據(jù)庫鎖的性能也不容易出問題，而且由于數(shù)據(jù)庫的數(shù)據(jù)具有持久化的特性，一般的應用也足夠應付。但是除了上面說的數(shù)據(jù)庫鎖的幾個功能問題外，數(shù)據(jù)庫鎖并沒有很好的應付數(shù)據(jù)庫宕機的場景，如果數(shù)據(jù)庫宕機，會帶來的整個交易中心無法工作。當時我也沒想過這個問題，我們整個交易系統(tǒng)，數(shù)據(jù)庫是個單點，不過數(shù)據(jù)庫實在是太穩(wěn)定了，兩年也沒出過任何問題。隨著工作經驗的積累，構建高可用系統(tǒng)的概念越來越強，系統(tǒng)中是不允許出現(xiàn)單點的。現(xiàn)在想想，通過數(shù)據(jù)庫的同步復制，以及使用vip切換Master就能解決這個問題。

緩存鎖

后來我開始接觸緩存服務，知道很多應用都把緩存作為分布式鎖，比如redis。使用緩存作為分布式鎖，性能非常強勁，在一些不錯的硬件上，redis可以每秒執(zhí)行10w次，內網延遲不超過1ms，足夠滿足絕大部分應用的鎖定需求。

redis鎖定的原理是利用setnx命令，即只有在某個key不存在情況才能set成功該key，這樣就達到了多個進程并發(fā)去set同一個key，只有一個進程能set成功。

僅有一個setnx命令，redis遇到的問題跟數(shù)據(jù)庫鎖一樣，但是過期時間這一項，redis自帶的expire功能可以不需要應用主動去刪除鎖。而且從 Redis 2.6.12 版本開始，redis的set命令直接直接設置NX和EX屬性，NX即附帶了setnx數(shù)據(jù)，key存在就無法插入，EX是過期屬性，可以設置過期時間。這樣一個命令就能原子的完成加鎖和設置過期時間。

緩存鎖優(yōu)勢是性能出色，劣勢就是由于數(shù)據(jù)在內存中，一旦緩存服務宕機，鎖數(shù)據(jù)就丟失了。像redis自帶復制功能，可以對數(shù)據(jù)可靠性有一定的保證，但是由于復制也是異步完成的，因此依然可能出現(xiàn)master節(jié)點寫入鎖數(shù)據(jù)而未同步到slave節(jié)點的時候宕機，鎖數(shù)據(jù)丟失問題。

分布式緩存鎖—Redlock

redis作者鑒于單點redis作為分布式鎖的可能出現(xiàn)的鎖數(shù)據(jù)丟失問題，提出了Redlock算法，該算法實現(xiàn)了比單一節(jié)點更安全、可靠的分布式鎖管理（DLM）。下面我就介紹下Redlock的實現(xiàn)。

Redlock算法假設有N個redis節(jié)點，這些節(jié)點互相獨立，一般設置為N=5，這N個節(jié)點運行在不同的機器上以保持物理層面的獨立。

算法的步驟如下：

1、客戶端獲取當前時間，以毫秒為單位。
2、客戶端嘗試獲取N個節(jié)點的鎖，（每個節(jié)點獲取鎖的方式和前面說的緩存鎖一樣），N個節(jié)點以相同的key和value獲取鎖。客戶端需要設置接口訪問超時，接口超時時間需要遠遠小于鎖超時時間，比如鎖自動釋放的時間是10s，那么接口超時大概設置5-50ms。這樣可以在有redis節(jié)點宕機后，訪問該節(jié)點時能盡快超時，而減小鎖的正常使用。
3、客戶端計算在獲得鎖的時候花費了多少時間，方法是用當前時間減去在步驟一獲取的時間，只有客戶端獲得了超過3個節(jié)點的鎖，而且獲取鎖的時間小于鎖的超時時間，客戶端才獲得了分布式鎖。
4、客戶端獲取的鎖的時間為設置的鎖超時時間減去步驟三計算出的獲取鎖花費時間。
5、如果客戶端獲取鎖失敗了，客戶端會依次刪除所有的鎖。

使用Redlock算法，可以保證在掛掉最多2個節(jié)點的時候，分布式鎖服務仍然能工作，這相比之前的數(shù)據(jù)庫鎖和緩存鎖大大提高了可用性，由于redis的高效性能，分布式緩存鎖性能并不比數(shù)據(jù)庫鎖差。

分布式專家質疑Redlock

介紹了Redlock，就可以說起文章開頭提到了分布式專家和redis作者的爭論了。

該專家提到，考慮分布式鎖的時候需要考慮兩個方面：性能和正確性。

如果使用高性能的分布式鎖，對正確性要求不高的場景下，那么使用緩存鎖就足夠了。

如果使用可靠性高的分布式鎖，那么就需要考慮嚴格的可靠性問題。而Redlock則不符合正確性。為什么不符合呢？專家列舉了幾個方面。

現(xiàn)在很多編程語言使用的虛擬機都有GC功能，在Full GC的時候，程序會停下來處理GC，有些時候Full GC耗時很長，甚至程序有幾分鐘的卡頓，文章列舉了HBase的例子，HBase有時候GC幾分鐘，會導致租約超時。而且Full GC什么時候到來，程序無法掌控，程序的任何時候都可能停下來處理GC，比如下圖，客戶端1獲得了鎖，正準備處理共享資源的時候，發(fā)生了Full GC直到鎖過期。這樣，客戶端2又獲得了鎖，開始處理共享資源。在客戶端2處理的時候，客戶端1 Full GC完成，也開始處理共享資源，這樣就出現(xiàn)了2個客戶端都在處理共享資源的情況。

專家給出了解決辦法，如下圖，看起來就是MVCC，給鎖帶上token，token就是version的概念，每次操作鎖完成，token都會加1，在處理共享資源的時候帶上token，只有指定版本的token能夠處理共享資源。

然后專家還說到了算法依賴本地時間，而且redis在處理key過期的時候，依賴gettimeofday方法獲得時間，而不是monotonic clock，這也會帶來時間的不準確。比如一下場景，兩個客戶端client 1和client 2，5個redis節(jié)點nodes (A, B, C, D and E)。

1、client 1從A、B、C成功獲取鎖，從D、E獲取鎖網絡超時。
2、節(jié)點C的時鐘不準確，導致鎖超時。
3、client 2從C、D、E成功獲取鎖，從A、B獲取鎖網絡超時。
4、這樣client 1和client 2都獲得了鎖。

總結專家關于Redlock不可用的兩點：

1、GC等場景可能隨時發(fā)生，并導致在客戶端獲取了鎖，在處理中超時，導致另外的客戶端獲取了鎖。專家還給出了使用自增token的解決方法。
2、算法依賴本地時間，會出現(xiàn)時鐘不準，導致2個客戶端同時獲得鎖的情況。

所以專家給出的結論是，只有在有界的網絡延遲、有界的程序中斷、有界的時鐘錯誤范圍，Redlock才能正常工作，但是這三種場景的邊界又是無法確認的，所以專家不建議使用Redlock。對于正確性要求高的場景，專家推薦了Zookeeper，關于使用Zookeeper作為分布式鎖后面再討論。

redis作者解疑Redlock

redis作者看到這個專家的文章后，寫了一篇博客予以回應。作者很客氣的感謝了專家，然后表達出了對專家觀點的不認同。

I asked for an analysis in the original Redlock specification here: http://redis.io/topics/distlock. So thank you Martin. However I don’t agree with the analysis.

redis作者關于使用token解決鎖超時問題可以概括成下面五點：

觀點1，使用分布式鎖一般是在，你沒有其他方式去控制共享資源了，專家使用token來保證對共享資源的處理，那么就不需要分布式鎖了。
觀點2，對于token的生成，為保證不同客戶端獲得的token的可靠性，生成token的服務還是需要分布式鎖保證服務的可靠性。
觀點3，對于專家說的自增的token的方式，redis作者認為完全沒必要，每個客戶端可以生成唯一的uuid作為token，給共享資源設置為只有該uuid的客戶端才能處理的狀態(tài)，這樣其他客戶端就無法處理該共享資源，直到獲得鎖的客戶端釋放鎖。
觀點4、redis作者認為，對于token是有序的，并不能解決專家提出的GC問題，如上圖所示，如果token 34的客戶端寫入過程中發(fā)送GC導致鎖超時，另外的客戶端可能獲得token 35的鎖，并再次開始寫入，導致鎖沖突。所以token的有序并不能跟共享資源結合起來。
觀點5、redis作者認為，大部分場景下，分布式鎖用來處理非事務場景下的更新問題。作者意思應該是有些場景很難結合token處理共享資源，所以得依賴鎖去鎖定資源并進行處理。

專家說到的另一個時鐘問題，redis作者也給出了解釋。客戶端實際獲得的鎖的時間是默認的超時時間，減去獲取鎖所花費的時間，如果獲取鎖花費時間過長導致超過了鎖的默認超時間，那么此時客戶端并不能獲取到鎖，不會存在專家提出的例子。

再次分析Redlock

看了兩位專家你來我回的爭辯，相信讀者會對Redlock有了更多的認識。這里我也想就分布式專家提到的兩個問題結合redis作者的觀點，說說我的想法。

第一個問題我概括為，在一個客戶端獲取了分布式鎖后，在客戶端的處理過程中，可能出現(xiàn)鎖超時釋放的情況，這里說的處理中除了GC等非抗力外，程序流程未處理完也是可能發(fā)生的。之前在說到數(shù)據(jù)庫鎖設置的超時時間2分鐘，如果出現(xiàn)某個任務占用某個訂單鎖超過2分鐘，那么另一個交易中心就可以獲得這把訂單鎖，從而兩個交易中心同時處理同一個訂單。正常情況，任務當然秒級處理完成，可是有時候，加入某個rpc請求設置的超時時間過長，一個任務中有多個這樣的超時請求，那么，很可能就出現(xiàn)超過自動解鎖時間了。當初我們的交易模塊是用C++寫的，不存在GC，如果用java寫，中間還可能出現(xiàn)Full GC，那么鎖超時解鎖后，自己客戶端無法感知，是件非常嚴重的事情。我覺得這不是鎖本身的問題，上面說到的任何一個分布式鎖，只要自帶了超時釋放的特性，都會出現(xiàn)這樣的問題。如果使用鎖的超時功能，那么客戶端一定得設置獲取鎖超時后，采取相應的處理，而不是繼續(xù)處理共享資源。Redlock的算法，在客戶端獲取鎖后，會返回客戶端能占用的鎖時間，客戶端必須處理該時間，讓任務在超過該時間后停止下來。

第二個問題，自然就是分布式專家沒有理解Redlock。Redlock有個關鍵的特性是，獲取鎖的時間是鎖默認超時的總時間減去獲取鎖所花費的時間，這樣客戶端處理的時間就是一個相對時間，就跟本地時間無關了。

由此看來，Redlock的正確性是能得到很好的保證的。仔細分析Redlock，相比于一個節(jié)點的redis，Redlock提供的最主要的特性是可靠性更高，這在有些場景下是很重要的特性。但是我覺得Redlock為了實現(xiàn)可靠性，卻花費了過大的代價。

首先必須部署5個節(jié)點才能讓Redlock的可靠性更強。
然后需要請求5個節(jié)點才能獲取到鎖，通過Future的方式，先并發(fā)向5個節(jié)點請求，再一起獲得響應結果，能縮短響應時間，不過還是比單節(jié)點redis鎖要耗費更多時間。
然后由于必須獲取到5個節(jié)點中的3個以上，所以可能出現(xiàn)獲取鎖沖突，即大家都獲得了1-2把鎖，結果誰也不能獲取到鎖，這個問題，redis作者借鑒了raft算法的精髓，通過沖突后在隨機時間開始，可以大大降低沖突時間，但是這問題并不能很好的避免，特別是在第一次獲取鎖的時候，所以獲取鎖的時間成本增加了。
如果5個節(jié)點有2個宕機，此時鎖的可用性會極大降低，首先必須等待這兩個宕機節(jié)點的結果超時才能返回，另外只有3個節(jié)點，客戶端必須獲取到這全部3個節(jié)點的鎖才能擁有鎖，難度也加大了。
如果出現(xiàn)網絡分區(qū)，那么可能出現(xiàn)客戶端永遠也無法獲取鎖的情況。

分析了這么多原因，我覺得Redlock的問題，最關鍵的一點在于Redlock需要客戶端去保證寫入的一致性，后端5個節(jié)點完全獨立，所有的客戶端都得操作這5個節(jié)點。如果5個節(jié)點有一個leader，客戶端只要從leader獲取鎖，其他節(jié)點能同步leader的數(shù)據(jù)，這樣，分區(qū)、超時、沖突等問題都不會存在。所以為了保證分布式鎖的正確性，我覺得使用強一致性的分布式協(xié)調服務能更好的解決問題。

更好的分布式鎖—zookeeper

提到分布式協(xié)調服務，自然就想到了zookeeper。zookeeper實現(xiàn)了類似paxos協(xié)議，是一個擁有多個節(jié)點分布式協(xié)調服務。對zookeeper寫入請求會轉發(fā)到leader，leader寫入完成，并同步到其他節(jié)點，直到所有節(jié)點都寫入完成，才返回客戶端寫入成功。

zookeeper還有幾個特質，讓它非常適合作為分布式鎖服務。

zookeeper支持watcher機制，這樣實現(xiàn)阻塞鎖，可以watch鎖數(shù)據(jù)，等到數(shù)據(jù)被刪除，zookeeper會通知客戶端去重新競爭鎖。
zookeeper的數(shù)據(jù)可以支持臨時節(jié)點的概念，即客戶端寫入的數(shù)據(jù)是臨時數(shù)據(jù)，在客戶端宕機后，臨時數(shù)據(jù)會被刪除，這樣就實現(xiàn)了鎖的異常釋放。使用這樣的方式，就不需要給鎖增加超時自動釋放的特性了。

zookeeper實現(xiàn)鎖的方式是客戶端一起競爭寫某條數(shù)據(jù)，比如/path/lock，只有第一個客戶端能寫入成功，其他的客戶端都會寫入失敗。寫入成功的客戶端就獲得了鎖，寫入失敗的客戶端，注冊watch事件，等待鎖的釋放，從而繼續(xù)競爭該鎖。

如果要實現(xiàn)tryLock，那么競爭失敗就直接返回false即可。

zookeeper實現(xiàn)的分布式鎖簡單、明了，分布式鎖的關鍵技術都由zookeeper負責實現(xiàn)了。可以看下《從Paxos到Zookeeper:分布式一致性原理與實踐》書里貼出來的分布式鎖實現(xiàn)步驟

需要使用zookeeper的分布式鎖功能，可以使用curator-recipes庫。Curator是Netflix開源的一套ZooKeeper客戶端框架，curator-recipes庫里面集成了很多zookeeper的應用場景，分布式鎖的功能在org.apache.curator.framework.recipes.locks包里面，《跟著實例學習ZooKeeper的用法：分布式鎖》文章里面詳細的介紹了curator-recipes分布式鎖的使用，想要使用分布式鎖功能的朋友們不妨一試。

總結

文章寫到這里，基本把我關于分布式鎖的了解介紹了一遍。可以實現(xiàn)分布式鎖功能的，包括數(shù)據(jù)庫、緩存、分布式協(xié)調服務等等。根據(jù)業(yè)務的場景、現(xiàn)狀以及已經依賴的服務，應用可以使用不同分布式鎖實現(xiàn)。文章介紹了redis作者和分布式專家關于Redlock，雖然最終覺得Redlock并不像分布式專家說的那樣缺乏正確性，不過我個人覺得，如果需要最可靠的分布式鎖，還是使用zookeeper會更可靠些。curator-recipes庫封裝的分布式鎖，java應用也可以直接使用。而且如果開始依賴zookeeper，那么zookeeper不僅僅提供了分布式鎖功能，選主、服務注冊與發(fā)現(xiàn)、保存元數(shù)據(jù)信息等功能都能依賴zookeeper，這讓zookeeper不會那么閑置。

參考資料：

[1]《Distributed locks with Redis》
[2]《Is Redlock safe?》
[3]《How to do distributed locking》
[4]《跟著實例學習ZooKeeper的用法：分布式鎖》
[5]《從Paxos到Zookeeper:分布式一致性原理與實踐》

jinfeng_wang 2016-12-14 18:31 發(fā)表評論

mutex 和 spinlock 對比

jinfeng_wang — Wed, 14 Dec 2016 05:52:00 GMT

http://blog.csdn.net/dong976209075/article/details/8004325

理論上：

mutex和spinlock都是用于多進程/線程間訪問公共資源時保持同步用的，只是在lock失敗的時候處理方式有所不同。首先，當一個thread 給一個mutex上鎖失敗的時候，thread會進入sleep狀態(tài)，從而讓其他的thread運行，其中就包裹已經給mutex上鎖成功的那個thread，被占用的lock一旦釋放，就會去wake up 那個sleep的thread。其次，當一個thread給一個spinlock上鎖失敗的時候，thread會在spinlock上不停的輪訊，直到成功，所以他不會進入sleep狀態(tài)（當然，時間片用完了，內核會自動進行調度）。

存在的問題：

無論是mutex還是spinlock，如果一個thread去給一個已經被其他thread占用的鎖上鎖，那么從此刻起到其他thread對此鎖解鎖的時間長短將會導致mutex和spinlock出現(xiàn)下面的問題。

mutex的問題是，它一旦上鎖失敗就會進入sleep，讓其他thread運行，這就需要內核將thread切換到sleep狀態(tài)，如果mutex又在很短的時間內被釋放掉了，那么又需要將此thread再次喚醒，這需要消耗許多CPU指令和時間，這種消耗還不如讓thread去輪訊。也就是說，其他thread解鎖時間很短的話會導致CPU的資源浪費。

spinlock的問題是，和上面正好相反，如果其他thread解鎖的時間很長的話，這種spinlock進行輪訊的方式將會浪費很多CPU資源。

解決方法：

對于single-core/single-CPU，spinlock將一直浪費CPU資源，如果采用mutex，反而可以立刻讓其他的thread運行，可能去釋放mutex lock。對于multi-core/mutil-CPU，會存在很多短時間被占用的lock，如果總是去讓thread sleep，緊接著去wake up，這樣會浪費很多CPU資源，從而降低了系統(tǒng)性能，所以應該盡量使用spinlock。

現(xiàn)實情況：

由于程序員不太可能確定每個運行程序的系統(tǒng)CPU和core的個數(shù)，所以也不可能去確定使用那一種lock。因此現(xiàn)在的操作系統(tǒng)通常不太區(qū)分mutex和spinlock了。實際上，大多數(shù)現(xiàn)代操作系統(tǒng)已經使用了混合mutex（hybrid mutex）和混合spinlock（hybrid spinlock）。說白了就是將兩者的特點相結合。

hydrid mutex：在一個multi-core系統(tǒng)上，hybrid mutex首先像一個spinlock一樣，當thread加鎖失敗的時候不會立即被設置成sleep，但是，當過了一定的時間（或則其他的策略）還沒有獲得lock，就會被設置成sleep，之后再被wake up。而在一個single-core系統(tǒng)上，hybrid mutex就不會表現(xiàn)出spinlock的特性，而是如果加鎖失敗就直接被設置成sleep。

hybrid spinlock：和hybrid mutex相似，只不過，thread加鎖失敗后在spinlock一段很短的時間后，會被stop而不是被設置成sleep，stop是正常的進程調度，應該會比先讓thread sleep然后再wake up的開銷小一些。

總結：

寫程序的時候，如果對mutex和spinlock有任何疑惑，請選擇使用mutex。

原文參考：http://stackoverflow.com/questions/5869825/when-should-one-use-a-spinlock-instead-of-mutex

jinfeng_wang 2016-12-14 13:52 發(fā)表評論