轉載請注明:
Hadoop 實踐入門
1 實驗環境搭建
1.1 準備工作
ubuntu/redhat
JDK/openjdk
Hadoop
Eclipse
vmvare/virtureBox
1.1.1 ubuntu 安裝
下載最新版本ubuntu 11.10。
安裝注意事項:
1、關閉防火墻:shell命令 sudo ufw disable。不關閉有可能造成master slave 通信失敗。出現連接超時,重連錯誤。可以通過指定iptables 實現端口過濾。
2、安裝ssh(用于master和slave遠程登錄):sudo apt-get install ssh
1.1.2 安裝jdk
1)解壓sun jdk壓縮包到指定的文件夾。
sudo vi /etc/profile 或者 etc nano /etc/profile
export JAVA_HOME=/usr/java/jdk1.6.0_22
export JRE_HOME=/usr/java/jdk1.6.0_22/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
2)可以使用openjdk sudo apt-get insall open-jdk-6 或者通過軟件中心。
驗證 shell命令 :java -version 看是否與你的版本號一致
1.1.3 安裝hadoop
在每臺機器上相同用戶的home根目錄下解壓,hadoop-0.20.2.tar.gz 配置conf/hadoop-env.sh文件。 增加 export JAVA_HOME =/usr/lib/jvm/java-6-openjdk 這里修改為你的jdk的安裝位置。
1.2 偽分布式搭建
Hadoop可以在單電商以為分布分布式模式運行,用不同的java進程模擬分布式中的中的各類節點namenode,datanode,jobtracker,tasktracker,secondary namenode
1.2.1 hadoop配置
hadoop 0.2.0.2之后需要修改core-site.xml\hdfs-site.xml 以及 mapred-site.xml
配置文件如下:
core-site.xml 配置核心內容,其中fs.default.name 為hdfs地址;tmp為hadoop.tnp.dir為臨時文件
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:49000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadooper/hadooptmp</value>
</property>
</configuration>
注意事項:一定要指定,相同的用戶名,并且tmp一定要設置,否則會出現權限問題。導致hadoop啟動失敗。也可以通過chmod 命令來改變默認tmp的權限。默認tmp路徑為:/usr/tmp。推薦第一種方式。
hdfs-site.xml 設置 hdfs 參數
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
這里dfs.replication指塊的副本數。副本數具體策略可參加見hadoop官方指南。
mapred-site.xml 文件的修改
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:49001</value>
</property>
</configuration>
這個設置了jobtracker的端口。
注意端口的選擇一定要恰當,尤其是集群的配置。默認的9000和9001很容易被ubuntu中其他進程占用,導致datanode失效,因此選擇沒有占用的49000 和49001。筆者,曾經就曾困擾與此。集群配置中將再次強調。
1.2.2 ssh設置
因為master需要訪問datanode因此需要免密碼ssh
設置方法:
ssh-keygen -t rsa然后一直按回車
完成后,在home跟目錄下會產生隱藏文件夾.ssh
cd .ssh
之后ls 查看文件
cp id_rsa.pub authorized_keys
測試:
ssh localhost發現鏈接成功,并且無需密碼。
1.2.3 hadoop運行
在hadoop安裝目錄下:
首先 bin/hadoop namenode -format格式化文件系統
然后 bin/start-all.sh 來啟動守護進程。
利用java 命令 jps 查看進程。或者通過 網址:localhost:50070 localhost:50030來查看是否成功。
1.3 集群搭建
如上所述安裝ubuntu 并且擁有相同用戶。安裝jdk ,安裝hadoop。配置jdk路徑等。
1.3.1 主機信息:
機器名 |
IP地址 |
作用 |
Node1 |
192.168.234.128 |
NameNode、JobTracker |
Node2 |
192.168.234.129 |
DataNode、TaskTracker |
Node3 |
192.168.234.130 |
DataNode、TaskTracker |
修改每臺機器上的hosts
sudo vi /etc/hosts
192.168.1.31 node1
192.168.1.32 node2
192.168.1.33 node3
1.3.2 ssh 設置
把NameNode 上的id_dsa.pub 文件追加到DataNode 的authorized_keys 內:
a. 拷貝NameNode 的id_dsa.pub 文件:
$ scp id_dsa.pub hadooper@node2:/home/hadoop/
b. 登錄node2,執行
$ cat id_dsa.pub >> .ssh/authorized_keys
在所有datanode上執行相同的操作。
驗證:從node1
ssh node2
exit
ssh node3
exit
如果全部免密碼登錄則成功
1.3.3 配置hadoop
配置conf/masters 和conf/slaves 文件
Masters
node1
Slaves
node2
node3
core-site mapred-site 和hdfs-site 和偽分布配置基本相同.只是對應地址,localhost換成了namenode的名稱,node1。
q 配置conf/core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://node1:49000</value>
</property>
</configuration>
仍然注意端口,在運行時如果datanode連接不上namenode,有可能是由于端口問題。換一個端口
1.3.4 運行hadoop
首先格式化文件系統:$ bin/hadoop namenode –format
啟動Hadoop集群:
$ bin/start-all.sh
停止Hadoop集群:
$ bin/stop-all.sh
查看集群狀態:$ bin/hadoop dfsadmin -report
Hadoop 的web 方式查看
JobTracker:http://node1:50030
NameNode:http://node1:50070
1.4 eclipse 插件安裝
安裝eclipse 只需要把hadoop/contrib/eclipse-plus 下的包考到eclipse的plus里即可。(該方法有問題,因為該插件只能部分支持eclipse3.6,如果需要全部支持安裝eclipse3.4以下版本,或修改該插件較復雜)。如果有誰修改了適合3.6以上的插件roymoro@gmail.com.幫我發一份。
摘要:
Java 實現程序運行監控狀態之我的思路(守護進程)
問題:寫出這個工具的意義在于我運行一個需要長時間執行的程序,如單線程爬蟲。在網絡出現中斷的或網站丟包情況下,程序會拋出socketexception 和sockettimeoutexception。程序會中斷。(再此只是提出一種假設)
解決方案:
Java 并不能像C#一樣對windows的進程進行監控(資料說這是跨平臺原...
閱讀全文
Exception in thread "main" java.lang.StackOverflowError
at java.lang.Character.codePointAt(Character.java:2335)
at java.util.regex.Pattern$CharProperty.match(Pattern.java:3344)
at java.util.regex.Pattern$Branch.match(Pattern.java:4114)
at java.util.regex.Pattern$GroupHead.match(Pattern.java:4168)
at java.util.regex.Pattern$LazyLoop.match(Pattern.java:4357)
at java.util.regex.Pattern$GroupTail.match(Pattern.java:4227)
at java.util.regex.Pattern$BranchConn.match(Pattern.java:4078)
類似于以上異常,源自于正則匹配需要不斷地遞歸字符串。當字符串遞歸超過800+,具體數字忘記了,就會出現堆棧溢出。
我在實際應用的場景是,匹配一個網頁尋求《div》《/div》 之間的內容。當div 之間字符達到了950的時候這時候產生了 類似以上的錯誤。
經過分析,和網友遇到的類似問題貼http://topic.csdn.net/u/20110303/10/6a7dce52-481b-430a-b442-98099e9a01c9.html
得出以下不完全正確的解析方案
在正則表達式匹配時對字符個數進行限制 如:"<div>(.*?|\n*|\r*)*</div> 變成了 <div>(.*?|\n*|\r*){0,700}</div> 這樣達到了限制字符的作用。
但是當解析到此條目時速度仍然非常慢。
如果您有更好的解決方案請您聯系我。
歡迎轉帖。轉帖請標注出處,以更好的和大家探討解決問題。
——————————————————————————————————————
Lancelot 提出的正則<div[^>]*>([\s\S]*?)</div> 或<div>([\s\S]*?)</div>
由于沒有分支條件,因此大大減少了正則匹配過程的回溯深度。因此成功解決了這一問題。
目前能和大家分享的是,如果遇到類似問題還需簡化正則,減少分支條件等。
如果您有更好的方案歡迎您提出寶貴的建議。