不經意,實驗室的Hadoop集群也運行了一年多了,數據量和log都在日增。最近準備開始新的項目,于是簡單地給集群加幾塊硬盤,來做些地學數據挖掘的工作。Hadoop擴容是非常簡單的事情。具體步驟如下:
1.增加我們的硬件,在終端用如下命令查看,系統device的情況。
能夠查看到各個硬盤(光驅、NFS等)的詳細情況。具體的參數意義請參考http://linux.about.com/od/commands/l/blcmdl8_fdisk.htm
2.由于是新增加的設備,需要將其格式化成為我們所需要的文件系統類型(ext3,ext4等),我們通常使用mkfs命令來實現,具體參數意義還請參考
http://linux.about.com/od/commands/l/blcmdl8_mkfs.htm格式化成為ext3文件系統,命令如下:
# mkfs -t ext3 -c /dev/devicesnames
3.這一步主要是將格式化之后的mount到HDFS的數據目錄下。首先,使用vi或者emcas查看我們的Hadoop集群的${hadoop-home}/conf/hdfs-site.xml文件,其中的dfs.data.dir屬性所設定的目錄。如果該屬性用final標簽固定的,那么新增一個目錄,不會被作業配置覆蓋(除非namenode-format?)。因而,我們只將剛剛的設備掛靠到現有的目錄下。我們的部分目錄如下:
/dm1/hdfs/Data,/dm2/hdfs/Data
使用如下命令分別將設備mount到各個目錄下
mount /dev/device1 /dm1/hdfs/Data
...
4. 修改/etc/fstab文件,在文件后面加上如下一行,使得系統啟動的時候自動掛載新設備。
/dev/device1 /dm1/hdfs/Data ext3 defaults 1 2
5. 在${hadoop-home}/bin/hadoop 使用dfs -report命令可以馬上看到新增的DFS容量。
作者:mixer_a 發表于2012-4-11 21:27:00
原文鏈接