數(shù)據(jù)倉庫架構(gòu)模型介紹
?
??? 對于經(jīng)典的數(shù)據(jù)倉庫模型,經(jīng)過調(diào)查整理,大概歸納成六類:
?
1.獨(dú)立的數(shù)據(jù)集市架構(gòu)(Independent data mart architecture)
??? 獨(dú)立的數(shù)據(jù)集市架構(gòu)有時也稱為獨(dú)立的數(shù)據(jù)倉庫架構(gòu),應(yīng)該是出現(xiàn)最早的架構(gòu)方式,也是很常見的方式。特別是對于中小企業(yè)、中小開發(fā)公司,出于成本和見效快的考慮都會采用這種架構(gòu)方式。大家對這種架構(gòu)方式一定也很熟。
??? 這種架構(gòu)方式的缺點(diǎn)也很明顯,不是企業(yè)內(nèi)一致的數(shù)據(jù),產(chǎn)生信息孤島。當(dāng)然如果企業(yè)就是很小,就一個系統(tǒng),不用整合,一個數(shù)據(jù)集市足以的情況下采用這種方式也沒什么。先期小投資,讓企業(yè)看看效果,以后發(fā)展大了再考慮重新建立數(shù)據(jù)倉庫。
?
2.聯(lián)邦式數(shù)據(jù)倉庫架構(gòu)(Federated data warehouse architecture)
??? 它的出現(xiàn)是由于,企業(yè)發(fā)展的初期建立了幾個獨(dú)立的數(shù)據(jù)集市架構(gòu),后來發(fā)現(xiàn)這樣不行,數(shù)據(jù)沒整合,要解決信息孤島得想辦法。推倒重建當(dāng)然好,不過投入太大,以前的數(shù)據(jù)集市還想用,怎么辦。于是,想出另一種辦法,在各個獨(dú)立的數(shù)據(jù)集市間建立一些對照表,在不推倒它們的基礎(chǔ)上能進(jìn)行一下數(shù)據(jù)交換。后來,慢慢發(fā)現(xiàn),早想好整合策略,直接這樣建數(shù)據(jù)倉庫也可以,于是,地域聯(lián)邦、功能聯(lián)邦的概念也就都提出來了。
??? 聯(lián)邦架構(gòu)的缺點(diǎn)也很明顯,除非建立之初就采用類似總線架構(gòu)的方法實現(xiàn)數(shù)據(jù)一致,否則很容易出現(xiàn)數(shù)據(jù)不一致,導(dǎo)致整合的不徹底。如果之初就考慮好的話,和總線架構(gòu)的差別就不大了。當(dāng)然,對于臨時解決企業(yè)原有獨(dú)立數(shù)據(jù)集市的數(shù)據(jù)交換問題,聯(lián)邦架構(gòu)還是有一定作用的。
?
3.集中式架構(gòu)(Centralized architecture)
??? 集中式架構(gòu)方式的出現(xiàn),標(biāo)識著數(shù)據(jù)倉庫架構(gòu)已經(jīng)進(jìn)入比較成熟的時期。他的架構(gòu)方式是建立物理的EDW,即中心數(shù)據(jù)倉庫,數(shù)據(jù)都集中的EDW中,應(yīng)用和分析程序都在EDW中進(jìn)行訪問,數(shù)據(jù)是全企業(yè)內(nèi)一致的。隨著ROLAP的發(fā)展,在這種集中式架構(gòu)中建立ROLAP開始比較流行,常見的 MicroStrategy公司的解決方案就是在EDW中建立ROLAP。ROLAP單獨(dú)建表保存元數(shù)據(jù),只保存維度模型的關(guān)系,不保存維度模型的數(shù)據(jù),由MicroStrategy的應(yīng)用去解析,加上應(yīng)用服務(wù)器作為緩存,速度還可以。
??? 這種方式也有一些缺點(diǎn),如擴(kuò)展能力差,對EDW所在的RDBMS要求太高,隨著數(shù)據(jù)量和分析的逐步增長,就不得不再把數(shù)據(jù)進(jìn)行分離。如果在EDW的基礎(chǔ)上進(jìn)行數(shù)據(jù)分離,為不同的應(yīng)用單獨(dú)建立數(shù)據(jù)集市或者挖掘倉庫,集中式結(jié)構(gòu)也就演變成Hub and Spoke架構(gòu)方式。
?
4.集線器和車輪輻條架構(gòu)(Hub and spoke architecture或Corporate information factoryarchitecture)
?
??? 集線器和車輪輻條架構(gòu)聽起來比較別扭,叫起來也不響亮。而企業(yè)信息工廠應(yīng)該是這種架構(gòu)方式的最出色的代表。從名稱我們也能大概猜個差不多,中心數(shù)據(jù)倉庫 EDW從各個源系統(tǒng)收集數(shù)據(jù),將數(shù)據(jù)提供給各個數(shù)據(jù)集市和挖掘倉庫,功能和集線器很相似,所以稱為Hub。如果大家把圖畫出來,可能會更形象一些,EDW 和各個源數(shù)據(jù)庫及數(shù)據(jù)集市、挖掘倉庫之間都連一條線,看起來就向一個車輪,這些連線就像車輪輻條,所以稱為Spoke。而這種采用中心數(shù)據(jù)倉庫EDW集成數(shù)據(jù),再分散到各個數(shù)據(jù)集市使用數(shù)據(jù)的方式就形象的稱為Hub and spoke architecture。
??? 這種架構(gòu)方式當(dāng)然也有缺點(diǎn),雖然是在集成的中心數(shù)據(jù)倉庫EDW上建立數(shù)據(jù)集市,但是這些數(shù)據(jù)集市之間還是不能進(jìn)行數(shù)據(jù)交換的,大家建立的方法和ETL程序都會不同,各個數(shù)據(jù)集市之間的數(shù)據(jù)不見得的是一致的。而且這種架構(gòu)方式開始變得復(fù)雜。
?
5.總線架構(gòu)(Bus architecture)
??? 總線架構(gòu)和Hub and spoke architecture 的最大區(qū)別,應(yīng)該是維度建模的原子層和一致性維度的建立。正因為預(yù)先建立的總線架構(gòu)和一致性維度,所以這種架構(gòu)可以保證在逐步建立數(shù)據(jù)集市的過程中還能保證企業(yè)數(shù)據(jù)的一致性。總線架構(gòu)是數(shù)據(jù)倉庫架構(gòu)方式從復(fù)雜走向簡單的一步,將維度建模的數(shù)據(jù)倉庫原子層和數(shù)據(jù)集市合而為一,一層就把數(shù)據(jù)倉庫建立好的,還能支持各種數(shù)據(jù)集市分析應(yīng)用。
??? 當(dāng)然總線架構(gòu)也有缺點(diǎn),中心數(shù)據(jù)倉庫以維度模型保存,對于特殊的非維度型分析應(yīng)用會有局限性,支持的不好。
?
6.復(fù)合式架構(gòu)(Composite architecture)
??? 這種架構(gòu)方式是綜合考慮Huband spoke architecture和Bus architecture兩種架構(gòu)方式,或者說綜合兩種方式得出的一種架構(gòu)方式,CDW架構(gòu)應(yīng)該就是這種架構(gòu)方式的代表。
??? 復(fù)合式架構(gòu)的缺點(diǎn)也是很明顯,架構(gòu)過于復(fù)雜,(比CIF還要復(fù)雜),企業(yè)內(nèi)數(shù)據(jù)量大的話,每一次搬動都會非常麻煩。
?
???