前段時間聽了一家公司介紹分布式存儲產品,號稱性能超過傳統的磁盤陣列+小型機,但價格卻比這種組合低,而且具有維護簡單、數據安全等優點,其核心就是把一些PC服務器通過網絡連接起來,把數據分散存儲在這些服務器上,查找的時候把任務分配到這些服務器上,讓它們分別完成各自的小任務,最后再匯合出結果,核心就是:每個節點都是一個數據存儲單元和運算單元的結合,這些節點性能要求不高,可以是各種各樣的配置,只要在上面運行集群要求的軟件即可,一臺掛了不要緊,換上去一臺就能自動恢復,增加一臺就能提高性能,減少一臺也不會有很大影響,只是性能稍微下降,每份數據都有多個備份,能夠平衡分布在各服務器上。這種架構的缺點是,只要用上了這套東西,所有的軟件就必須從這家公司購買,因為整個集群的控制和訪問接口都是他們提供的。
該公司也坦言這其實就是google的服務器應用技術,實際上就是google提出來的云計算。
今天看了一些文章介紹,發現上面介紹的東西實際上已經通過Apache的一個項目Hadoop實現,不知道那家公司是不是就是簡單包裝了一下這個項目。
Hadoop包含兩個主要的模塊,分別是HDFS分布式文件系統和MapReduce集群計算機制。剛剛發布了1.0.0版本。
主頁:
http://hadoop.apache.org/blogjava有位高手已經翻譯了HDFS的架構說明:
http://m.tkk7.com/killme2008/archive/2008/06/05/206043.html,但對應的是上一個版本0.20的,里面說到了很多沒有實現的東西,不知道是否已經在1.0版本實現,目前官方網站上該文章的版本還是0.20的。
這里有三篇文章介紹Hadoop在單機環境、多機環境下的安裝和配置,還有應用程序的開發:
http://www.ibm.com/developerworks/cn/linux/l-hadoop-1/index.html看起來還是挺有意思的,以前就曾經有過想法,把單位淘汰下來的那一大堆臺式電腦組成一個存儲或者計算的小集群,也許能夠代替一兩臺PC服務器,現在看來可以試試,以后的趨勢就是云計算了,先自己搞點小云看看效果如何。