最近在研究關(guān)于系統(tǒng)的基于日志的故障恢復(fù),無意間在網(wǎng)上發(fā)現(xiàn)一篇論文中對(duì)于系統(tǒng)日志模型的精彩論述,翻譯過來并附上我的思路:
『
一個(gè)系統(tǒng)是一個(gè)具有明顯的邊界的實(shí)體,它根據(jù)一定的輸入,自身運(yùn)行邏輯及系統(tǒng)的內(nèi)部時(shí)鐘變化來產(chǎn)生相應(yīng)的輸出。
所謂“明顯的邊界”是指系統(tǒng)所產(chǎn)生的輸出是明確而無二義性的。我們稱這個(gè)邊界為系統(tǒng)的設(shè)計(jì)規(guī)范(specification)。一個(gè)系統(tǒng)通過與其所處環(huán)境進(jìn)行交互,從而獲取輸入并產(chǎn)生輸出。一個(gè)系統(tǒng)可以被拆解為不同的子系統(tǒng)。這些子系統(tǒng)通常被稱為系統(tǒng)模塊(system components),每個(gè)模塊又獨(dú)立地成為一個(gè)系統(tǒng),作為一個(gè)系統(tǒng),這個(gè)模塊又會(huì)和它的相關(guān)環(huán)境進(jìn)行交互(比如,一個(gè)更大的系統(tǒng)中的其他的模塊組件)來獲取輸入并產(chǎn)生輸出,這些模塊還可以繼續(xù)被分解為更小的子系統(tǒng)。
一個(gè)系統(tǒng)可以被建模為一個(gè)狀態(tài)機(jī)(state machine),其中的狀態(tài)包含了系統(tǒng)所持有并處理的數(shù)據(jù)。這些狀態(tài)的遷移被分為兩大類:由系統(tǒng)內(nèi)部邏輯所觸發(fā)且對(duì)外部環(huán)境透明的遷移和直接與外部環(huán)境相接觸的遷移。前者的例子如內(nèi)存數(shù)據(jù)和寄存器數(shù)據(jù)的轉(zhuǎn)換,內(nèi)存中數(shù)據(jù)結(jié)構(gòu)的重組。第二種遷移的例子包含了各種各樣的系統(tǒng)和環(huán)境之間的交互,一般來說,如果這個(gè)過程能被建模成系統(tǒng)的I/O操作,則應(yīng)屬于這一類別。因此,一個(gè)消息內(nèi)容的形成是一個(gè)或多個(gè)第一類別狀態(tài)遷移的結(jié)果,但將消息輸出到系統(tǒng)的環(huán)境則是屬于第二類遷移。
第二類別的狀態(tài)遷移可以捕獲交互事件(interaction events),或者簡(jiǎn)單的事件(events)。這些事件可以由系統(tǒng)外部的觀察者(observer)來獲取。顯然,這里的事件是消息、信號(hào)、數(shù)據(jù)及其內(nèi)容以及一切系統(tǒng)和其環(huán)境交互(如機(jī)器人運(yùn)動(dòng)手腳,報(bào)警器報(bào)警,打印機(jī)打印等等)的發(fā)送和接受的模型。此外事件還可以用來描述系統(tǒng)缺乏交互的時(shí)間,比如一個(gè)計(jì)時(shí)器在日志中輸出系統(tǒng)的空閑時(shí)間等。
當(dāng)一個(gè)大的系統(tǒng)被拆分成多個(gè)模塊時(shí),每個(gè)模塊都被賦予了整個(gè)系統(tǒng)所處理數(shù)據(jù)的一部分,正因?yàn)槟K和模塊間的接口銜接和數(shù)據(jù)感知,一些原來屬于第一類別的狀態(tài)轉(zhuǎn)換,因?yàn)橄到y(tǒng)的拆分在更低的層次上變成了第二類別,成為系統(tǒng)和環(huán)境之間的交互。
對(duì)于一個(gè)特定的系統(tǒng),他對(duì)于輸入的形式和獲取時(shí)間是不可預(yù)知的,但是這個(gè)系統(tǒng)卻應(yīng)該能夠做到根據(jù)一個(gè)特定的輸入以及系統(tǒng)當(dāng)前的特定狀態(tài)獲取一個(gè)特定的輸出。因此系統(tǒng)的執(zhí)行可以被建模為狀態(tài)轉(zhuǎn)換序列,每個(gè)狀態(tài)的輸入是一個(gè)不確定性事件。為了記錄日志并做到故障恢復(fù),我們還應(yīng)做到能夠在環(huán)境中捕獲這個(gè)不確定性事件輸入。
此外,在系統(tǒng)與系統(tǒng)間進(jìn)行交互式,事件的傳遞時(shí)間也應(yīng)該是不確定性的。
』
怎樣用日志來預(yù)防系統(tǒng)崩潰,在崩潰后如何還原系統(tǒng),我想關(guān)鍵問題就是怎么做好內(nèi)存的快照,這樣,在斷電重啟后可以通過日志來還原內(nèi)存的信息這樣第一步就是確認(rèn)內(nèi)存中的數(shù)據(jù)結(jié)構(gòu),哪些是必不可少的。確定系統(tǒng)恢復(fù)的粒度,按照子系統(tǒng)的分割和事件的記錄來進(jìn)行replay,根據(jù)子系統(tǒng)的劃分,可以找出每個(gè)子系統(tǒng)中第二類別的事件進(jìn)行記錄。
以向數(shù)據(jù)庫系統(tǒng)提交作業(yè)為例,實(shí)際上在整個(gè)作業(yè)提交的過程中,每個(gè)層次都要做到可以在失敗的情況下重現(xiàn),這個(gè)功能在完善的數(shù)據(jù)庫系統(tǒng)和集群批處理系統(tǒng)中當(dāng)然已經(jīng)很完善。但如果是針對(duì)web系統(tǒng)的作業(yè)提交,則需要針對(duì)Web的作業(yè)持久方案,做一個(gè)日志恢復(fù)處理。需要特別指出的是,對(duì)于數(shù)據(jù)的查詢是不需要做備份的。
在具體實(shí)現(xiàn)上,我想應(yīng)該包括:日志記錄,故障檢測(cè),日志持久三個(gè)部分。一份日志就是一個(gè)對(duì)于系統(tǒng)檢查點(diǎn)(checkpoint)的連續(xù)記錄。日志記錄者負(fù)責(zé)記錄日志到日志持久者,故障檢測(cè)器隨時(shí)監(jiān)控系統(tǒng),發(fā)現(xiàn)故障后,從日志持久者中讀取日志,進(jìn)行replay.
@2008 楊一. 版權(quán)所有. 保留所有權(quán)利