Hadoop是數(shù)據(jù)倉庫的終結(jié)者嗎?
2014年01月13日 | 作者:鄒錚編譯 | 來源:網(wǎng)界網(wǎng)
http://news.cnw.com.cn/news-international/htm2014/20140113_289451.shtml
【CNW.com.cn獨(dú)家譯稿】在過去三年,Hadoop生態(tài)系統(tǒng)已經(jīng)大范圍擴(kuò)展,很多主要IT供應(yīng)商都推出了Hadoop連接器,以增強(qiáng)Hadoop的頂層架構(gòu)或是供應(yīng)商自己使用的Hadoop發(fā)行版。鑒于Hadoop的部署率呈指數(shù)級的增長,以及其生態(tài)系統(tǒng)不斷地深入而廣泛地發(fā)展,我們很想知道Hadoop的崛起是否會導(dǎo)致傳統(tǒng)數(shù)據(jù)倉庫解決方案的終結(jié)呢。
我們也可以將這個問題放到一個更大的環(huán)境中去討論:在何種程度上,大數(shù)據(jù)會改變傳統(tǒng)數(shù)據(jù)分析的環(huán)境?
數(shù)據(jù)倉庫是技術(shù)和軟件套件,它能夠從操作系統(tǒng)收集數(shù)據(jù),并將這些數(shù)據(jù)整合,并統(tǒng)一到中央數(shù)據(jù)庫中,然后對數(shù)據(jù)儀表盤上指標(biāo)進(jìn)行分析、可視化和追蹤關(guān)鍵性能處理。
數(shù)據(jù)倉庫和Hadoop之間的主要區(qū)別是:數(shù)據(jù)倉庫通常部署在單個關(guān)系數(shù)據(jù)庫中,而這個數(shù)據(jù)庫則起到中央存儲的作用。相比之下,Hadoop及其Hadoop文件系統(tǒng)是跨多個機(jī)器,并用來處理海量數(shù)據(jù)的,而這是任何單臺機(jī)器都達(dá)不到的能力。
此外,Hadoop生態(tài)系統(tǒng)包括構(gòu)建在Hadoop核心之上的數(shù)據(jù)倉庫層/服務(wù),而Hadoop上層服務(wù)包括SQL(Presto)、SQL-Like(Hive)和NoSQL(Hbase)類型的數(shù)據(jù)存儲。相比之下,在過去的十年中,大型數(shù)據(jù)倉庫轉(zhuǎn)移到使用自定義多處理器設(shè)備來擴(kuò)展數(shù)據(jù)量,像Netezza(被IBM收購)和Teradata所提供的數(shù)據(jù)倉庫。然而,這些設(shè)備都非常昂貴,大多數(shù)中小企業(yè)都負(fù)擔(dān)不起。
在這種背景下,我們很自然地要問:Hadoop是否是數(shù)據(jù)倉庫的終結(jié)者?
為了回答這個問題,我們需要將數(shù)據(jù)倉庫技術(shù)與數(shù)據(jù)倉庫部署分開來看。Hadoop(和NoSQL數(shù)據(jù)庫的出現(xiàn))將預(yù)示著數(shù)據(jù)倉庫設(shè)備和傳統(tǒng)數(shù)據(jù)倉庫單一數(shù)據(jù)庫部署的消亡。
而在這方面就有過實(shí)例。Hadoop供應(yīng)商Cloudera將其平臺作為“企業(yè)數(shù)據(jù)樞紐”,這在本質(zhì)上將傳統(tǒng)數(shù)據(jù)管理解決方案的納入了需求。ReadWrite.com在最近發(fā)表的一篇題為“為什么專有大數(shù)據(jù)技術(shù)沒有希望與Hadoop競爭”的文章中也發(fā)表了類似的看法。同樣地,最近一篇華爾街日報(bào)文章描述了Hadoop如何挑戰(zhàn)甲骨文和Teradata。
Hadoop或NoSQL生態(tài)系統(tǒng)仍將繼續(xù)發(fā)展。很多大數(shù)據(jù)環(huán)境開始選擇NoSQL、SQL甚至是NewSQL數(shù)據(jù)倉庫的混合方法。此外,MapReduce并行處理引擎也有變化和改進(jìn),例如Apache的Spark項(xiàng)目。雖然這個故事還遠(yuǎn)遠(yuǎn)沒有結(jié)束,但可以說,傳統(tǒng)的單一服務(wù)器關(guān)系型數(shù)據(jù)庫或數(shù)據(jù)庫設(shè)備并不是大數(shù)據(jù)或數(shù)據(jù)倉儲的未來。
另一方面,數(shù)據(jù)倉庫技術(shù)(包括提取—轉(zhuǎn)換—和—加載、三維建模和商業(yè)智能)將會應(yīng)用到新的Hadoop/NoSQL環(huán)境。此外,這些技術(shù)也將變身來支持更多的混合環(huán)境。主要原則是因?yàn)椴⒉皇撬袛?shù)據(jù)都是平等的,所以IT經(jīng)理們應(yīng)該選擇數(shù)據(jù)存儲和訪問機(jī)制來適應(yīng)數(shù)據(jù)的使用?;旌檄h(huán)境將包括關(guān)鍵價值存儲、關(guān)系型數(shù)據(jù)庫、圖形存儲、文檔存儲、柱狀存儲、XML數(shù)據(jù)庫、元數(shù)據(jù)目錄等等。
正如你所看到的,這并不是一個簡單的問題,也不可能簡單地得出一個答案。然而,一般情況下,雖然大數(shù)據(jù)在未來五年內(nèi)將會改變數(shù)據(jù)倉庫的部署,但它不會導(dǎo)致數(shù)據(jù)倉庫的概念和做法過時。
對于向數(shù)據(jù)倉庫投入巨資的聯(lián)邦政府這意味著什么呢?
首先,當(dāng)現(xiàn)有數(shù)據(jù)倉庫的容量不夠時,數(shù)據(jù)倉庫將被轉(zhuǎn)移到基于Hadoop、多機(jī)器或云托管的解決方案。其次,企業(yè)并不會選擇“放之四海而皆準(zhǔn)”的做法,而會將目光轉(zhuǎn)向適合其企業(yè)內(nèi)部數(shù)據(jù)容量的混合存儲方法。(鄒錚編譯)