亚洲乱码中文字幕综合,久久国产亚洲精品,亚洲综合av一区二区三区不卡

分布式计��开源框架Hadoop介绍

西瓜 — Fri, 22 Oct 2010 07:21:00 GMT

在SIP��目设计的过�E�中�Q�对于它庞大的日志在开始时��p��虑使用��d��分解的多�U�程处理模式来分析统计，在我从前写的文章《Tiger Concurrent Practice --日志分析�q�行分解设计与实现》中有所提到。但是由于统计的内容暂时�q�是十分��单，所以就采用Memcache作�ؓ计数器，�l�合MySQL��完成了讉K�� 控制以及�l�计的工作。然而未来，对于��量日志分析的工作，�q�是需要有所准备。现在最火的技术词汇莫�q�于“云计��?#8221;�Q�在Open API日益盛行的今天，互联�|�应用的数据��会��来��有价��|��如何��d��析这些数据，挖掘其内在�h��|��需要分布式计算来支撑�v量数据的分析工作�?/p>

回过头来看，早先那种多线�E�，多�Q务分解的日志分析设计�Q�其实是分布式计��的一个单机版�~�略�Q�如何将�q�种单机的工作进行分拆，变成协同工作的集��，其实��是分布式计��框架设计所涉及的。在��d��参加BEA大会的时候，BEA和VMWare合作采用虚拟机来构徏集群�Q�无非就是希望��得计��机��g能够�c�M�� 于应用程序中资源池的资源�Q��用者无需兛_��资源的分配情况，从而最大化了硬件资源的使用价倹{��分布式计算也是如此�Q�具体的计算��d��交由哪一台机器执行，�? 行后��p��来汇总，�q�都由分布式框架的Master来抉择，而��用者只需��单地��待分析内容提供�l�分布式计算�pȝ��作�ؓ输入�Q�就可以得到分布式计��后的结果�?/p>

Hadoop是Apache开源组�l�的一个分布式计算开源框�Ӟ��在很多大型网站上都已�l�得��C��应用�Q�如亚马逊、Facebook和Yahoo�{�等�? 对于我来��_��最�q�的一个��用点��是服务集成�q�_��的日志分析。服务集成��^台的日志量将会很大，而这也正好符合了分布式计��的适用场景�Q�日志分析和索引建立��? 是两大应用场景）�?/p>

当前没有正式��定使用�Q�所以也是自�׃��余摸索，后箋所写的相关内容�Q�都是一个新手的学习�q�程�Q�难免会有一些错误，只是希望记录下来可以分��n�l�更多志同道合的朋友�?/p>

什么是Hadoop�Q?/h2>

搞什么东西之前，�W�一步是要知道What�Q�是什么）�Q�然后是Why�Q��ؓ什么）�Q�最后才是How�Q�怎么做）。但很多开发的朋友在做了多�q�项目以后，都习惯是先How�Q�然后What�Q�最后才是Why�Q�这样只会让自己变得��躁�Q�同时往往会将技术误用于不适合的场景�?/p>

Hadoop框架中最核心的设计就是：MapReduce和HDFS。MapReduce的思想是由Google的一��论文所提及而被�q��ؓ��传的， ��单的一句话解释MapReduce��是“��d��的分解与�l�果的汇�?#8221;。HDFS是Hadoop分布式文件系�l�（Hadoop Distributed File System�Q�的�~�写�Q��ؓ分布式计��存储提供了底层支持�?/p>

MapReduce从它名字上来看就大致可以看出个缘由，两个动词Map和Reduce�Q?#8220;Map�Q�展开�Q?#8221;��是��一个�Q务分解成为多个�Q 务，“Reduce”��是��分解后多�Q务处理的�l�果汇总�v来，得出最后的分析�l�果。这不是什么新思想�Q�其实在前面提到的多�U�程�Q�多��d��的设计就可以扑ֈ��q? �U�思想的媄子。不论是现实�C�会�Q�还是在�E�序设计中，一��工作往往可以被拆分成为多个�Q务，��d��之间的关�p�d��以分��Z��U�：一�U�是不相关的��d��Q�可以�ƈ行执行；另一�U�是��d��之间有相互的依赖�Q�先后顺序不能够颠倒，�q�类��d��是无法�ƈ行处理的。回到大学时期，教授上课时让大家��d��析关键�\径，无非��是找最省时�? ��d��分解执行方式。在分布式系�l�中�Q�机器集��就可以看作��g资源池，��ƈ行的��d��拆分�Q�然后交由每一个空闲机器资源去处理�Q�能够极大地提高计算效率�Q�同�? �q�种资源无关性，对于计算集群的扩展无疑提供了最好的设计保证。（其实我一直认为Hadoop的卡通图标不应该是一个小象，应该是蚂蚁，分布式计��就好比蚂蚁吃大象，廉�h的机器群可以�Ҏ��M��高性能的计��机�Q�纵向扩展的曲线始终敌不�q�横向扩展的斜线�Q�。�Q务分解处理以后，那就需要将处理以后的结果再汇总�v 来，�q�就是Reduce要做的工作�?/p>
�?�Q�MapReduce�l�构�C�意�?/strong>

上图��是MapReduce大致的结构图�Q�在Map前还可能会对输入的数据有Split�Q�分�Ԍ��的过�E�，保证��d��q�行效率�Q�在Map之后�q�会有Shuffle�Q��؜合）的过�E�，对于提高Reduce的效率以及减��数据传输的压力有很大的帮助。后面会具体提及�q�些部分的细节�?/p>

HDFS是分布式计算的存储基矻I��Hadoop的分布式文�g�pȝ��和其他分布式文�g�pȝ��有很多类似的特质。分布式文�g�pȝ��基本的几个特点：

对于整个集群有单一的命名空间�?/li>
数据一致性。适合一�ơ写入多�ơ读取的模型�Q�客��L��在文件没有被成功创徏之前无法看到文�g存在�?/li>
文�g会被分割成多个文件块�Q�每个文件块被分配存储到数据节点上，而且�Ҏ��配置会由复制文�g块来保证数据的安全性�?/li>

�?�Q�HDFS�l�构�C�意�?/strong>
上图中展��C��整个HDFS三个重要角色�Q�NameNode、DataNode和Client。NameNode可以看作是分布式文�g�pȝ��中的��理者，主要负责��理文�g�pȝ��的命名空间、集��配�|�信息和存储块的复制�{�。NameNode会将文�g�pȝ��的Meta-data存储在内存中�Q�这些信息主要包�? 了文件信息、每一个文件对应的文�g块的信息和每一个文件块在DataNode的信息等。DataNode是文件存储的基本单元�Q�它��Block存储在本�? 文�g�pȝ��中，保存了Block的Meta-data�Q�同时周期性地��所有存在的Block信息发送给NameNode。Client��是需要获取分布式�? 件系�l�文件的应用�E�序。这里通过三个操作来说明他们之间的交互关系�?/p>
文�g写入�Q?/strong>

Client向NameNode发�v文�g写入的请求�?/li>
NameNode�Ҏ��文�g大小和文件块配置情况�Q�返回给Client它所��理部分DataNode的信息�?/li>
Client��文件划分�ؓ多个Block�Q�根据DataNode的地址信息�Q�按��序写入到每一个DataNode块中�?/li>

文�g��d��Q?/strong>

Client向NameNode发�v文�g��d��的请求�?/li>
NameNode�q�回文�g存储的DataNode的信息�?/li>
Client��d��文�g信息�?/li>

文�gBlock复制�Q?/strong>

NameNode发现部分文�g的Block不符合最��复制数或者部分DataNode失效�?/li>
通知DataNode�怺�复制Block�?/li>
DataNode开始直接相互复制�?/li>

最后再说一下HDFS的几个设计特点（对于框架设计值得借鉴�Q�：

Block的放�|�：默认不配�|�。一个Block会有三䆾备䆾�Q�一份放在NameNode指定的DataNode�Q�另一份放在与指定 DataNode非同一Rack上的DataNode�Q�最后一份放在与指定DataNode同一Rack上的DataNode上。备份无非就是�ؓ了数据安全，考虑同一Rack的失败情况以及不同Rack之间数据拯��性能问题��采用这�U�配�|�方式�?/li>
心蟩��DataNode的健��L��况，如果发现问题��采取数据备份的方式来保证数据的安全性�?/li>
数据复制�Q�场景�ؓDataNode��p�|、需要��^衡DataNode的存储利用率和需要��^衡DataNode数据交互压力�{�情况）�Q�这里先说一下，使用HDFS的balancer命��o�Q�可以配�|�一个Threshold来��^衡每一个DataNode��盘利用率。例如设�|�了Threshold�? 10%�Q�那么执行balancer命��o的时候，首先�l�计所有DataNode的磁盘利用率的均��|��然后判断如果某一个DataNode的磁盘利用率��过�q? 个均值Threshold以上�Q�那么将会把�q�个DataNode的block转移到磁盘利用率低的DataNode�Q�这对于新节点的加入来说十分有用�?/li>
数据交验�Q�采用CRC32作数据交验。在文�gBlock写入的时候除了写入数据还会写入交验信息，在读取的时候需要交验后再读入�?/li>
NameNode是单点：如果��p�|的话�Q��Q务处理信息将会纪录在本地文�g�pȝ��和远端的文�g�pȝ��中�?/li>
数据��道性的写入�Q�当客户端要写入文�g到DataNode上，首先客户端读取一个Block然后写到�W�一个DataNode上，然后��q�� 一个DataNode传递到备䆾的DataNode上，一直到所有需要写入这个Block的NataNode都成功写入，客户端才会��l�开始写下一�? Block�?/li>
安全模式�Q�在分布式文件系�l�启动的时候，开始的时候会有安全模式，当分布式文�g�pȝ��处于安全模式的情况下�Q�文件系�l�中的内容不允许修改�? 不允许删除，直到安全模式�l�束。安全模式主要是��Z��pȝ��启动的时候检查各个DataNode上数据块的有效性，同时�Ҏ��{�略必要的复制或者删除部分数�? 块。运行期通过命��o也可以进入安全模式。在实践�q�程中，�pȝ��启动的时候去修改和删除文件也会有安全模式不允�怿�改的出错提示�Q�只需要等待一会儿卛_��?/li>

下面�l�合MapReduce和HDFS来看Hadoop的结构：

�?�Q�Hadoop�l�构�C�意�?/strong>

在Hadoop的系�l�中�Q�会有一台Master�Q�主要负责NameNode的工作以及JobTracker的工作。JobTracker的主要职�? ��是启动、跟�t�和调度各个Slave的�Q务执行。还会有多台Slave�Q�每一台Slave通常��h��DataNode的功能�ƈ负责TaskTracker�? 工作。TaskTracker�Ҏ��应用要求来结合本地数据执行Map��d��以及Reduce��d��?/p>
说到�q�里�Q�就要提到分布式计算最重要的一个设计点�Q�Moving Computation is Cheaper than Moving Data。就是在分布式处理中�Q�移动数据的代�h��L��高于转移计算的代仗��简单来说就是分而治之的工作�Q�需要将数据也分而存储，本地��d��处理本地数据然后�? 总，�q�样才会保证分布式计��的高效性�?/p>
��Z��么要选择Hadoop�Q?/h2>
说完了What�Q�简单地说一下Why。官方网站已�l�给了很多的说明�Q�这里就大致说一下其优点及��用的场景�Q�没有不好的工具�Q�只用不适用的工��P��因此选择好场景才能够真正发挥分布式计��的作用�Q�：

可扩展：不论是存储的可扩展还是计��的可扩展都是Hadoop的设计根本�?/li>
�l�济�Q�框架可以运行在��M��普通的PC上�?/li>
可靠�Q�分布式文�g�pȝ��的备份恢复机制以及MapReduce的�Q务监控保证了分布式处理的可靠性�?/li>
高效�Q�分布式文�g�pȝ��的高效数据交互实��C��及MapReduce�l�合Local Data处理的模式，为高效处理�v量的信息作了基础准备�?/li>

使用场景�Q?/strong>个�h觉得最适合的就是�v量数据的分析�Q�其实Google最早提出MapReduce也就是�ؓ了�v量数据分析。同时HDFS最早是��Z��搜烦引擎实现而开发的�Q�后来才被用于分布式计算框架中。�v量数据被分割于多个节点，然后由每一个节点�ƈ行计��，��得出的�l? 果归�q�到输出。同时第一阶段的输出又可以作�ؓ下一阶段计算的输入，因此可以惌��C��个树状结构的分布式计��图�Q�在不同阶段都有不同产出�Q�同时�ƈ行和串行�l? 合的计算也可以很好地在分布式集群的资源下得以高效的处理�?/p>

其实参看Hadoop官方文档已经能够很容易配�|�分布式框架�q�行环境了，不过�q�里既然写了��再多写一点，同时有一些细节需要注意的也说明一下，其实也就是这些细节会让�h摸烦半天。Hadoop可以单机跑，也可以配�|�集��跑�Q�单��׃��需要多说了�Q�只需要按照Demo的运行说明直接执行命令即可。这�? 主要重点说一下集��配�|�运行的�q�程�?/p>
环境

7台普通的机器�Q�操作系�l�都是Linux。内存和CPU��׃��说了�Q�反正Hadoop一大特点就是机器在多不在精。JDK必须�?.5以上的，�q�个切记�?台机器的机器名务必不同，后箋会谈到机器名对于MapReduce有很大的影响�?/p>
部��v考虑

正如上面我描�q�的�Q�对于Hadoop的集��来��_��可以分成两大�c�角�Ԍ��Master和Slave�Q�前者主要配�|�NameNode�? JobTracker的角�Ԍ��负责�ȝ��分布式数据和分解��d��的执行，后者配�|�DataNode和TaskTracker的角�Ԍ��负责分布式数据存储以及�Q 务的执行。本来我打算看看一台机器是否可以配�|�成Master�Q�同时也作�ؓSlave使用�Q�不�q�发现在NameNode初始化的�q�程中以�? TaskTracker执行�q�程中机器名配置好像有冲�H�（NameNode和TaskTracker对于Hosts的配�|�有些冲�H�，�I�竟是把机器名对�? IP攑֜�配置前面�q�是把Localhost对应IP攑֜�前面有点问题�Q�不�q�可能也是我自己的问题吧�Q�这个大家可以根据实施情�늻�我反馈）。最后反正决定一台Master�Q�六台Slave�Q�后�l�复杂的应用开发和��试�l�果的比对会增加机器配置�?/p>
实施步骤

在所有的机器上都建立相同的目录，也可以就建立相同的用��P��以该用户的home路径来做hadoop的安装�\径。例如我在所有的机器上都建立�?code>/home/wenchu�?/li>
下蝲Hadoop�Q�先解压到Master上。这里我是下载的0.17.1的版本。此时Hadoop的安装�\径就�?code>/home/wenchu/hadoop-0.17.1�?/li>
解压后进入conf目录�Q�主要需要修改以下文�Ӟ��hadoop-env.sh�Q?code>hadoop-site.xml�?code>masters�?code>slaves�?
Hadoop的基��配置文�g�?code>hadoop-default.xml�Q�看Hadoop的代码可以知道，默认建立一个Job的时候会建立Job的Config�Q�Config首先��d��hadoop-default.xml的配�|�，然后再读�?code>hadoop-site.xml的配�|�（�q�个文�g初始的时候配�|��ؓ�I�）�Q?code>hadoop-site.xml中主要配�|�你需要覆盖的hadoop-default.xml的系�l��配置�Q�以及你需要在你的MapReduce�q�程中��用的自定义配�|�（具体的一些��用例如final�{�参考文档）�?/p>
以下是一个简单的hadoop-site.xml的配�|�：

   fs.default.name//你的namenode的配�|�，机器名加端口
   hdfs://10.2.224.46:54310/

   mapred.job.tracker//你的JobTracker的配�|�，机器名加端口
   hdfs://10.2.224.46:54311/

   dfs.replication//数据需要备份的数量�Q�默认是�?br />    1

    hadoop.tmp.dir//Hadoop的默认��时�\径，�q�个最好配�|�，如果在新增节�Ҏ��者其他情况下莫名其妙的DataNode启动不了�Q�就删除此文件中的tmp目录卛_��。不�q�如果删除了NameNode机器的此目录�Q�那么就需要重新执行NameNode格式化的命��o�?br />     /home/wenchu/hadoop/tmp/

   mapred.child.java.opts//java虚拟机的一些参数可以参照配�|?br />    -Xmx512m

dfs.block.size//block的大��，单位字节�Q�后面会提到用处�Q�必��L��512的倍数�Q�因为采用crc作文件完整性校验，默认配置512是checksum的最��单元�?br /> 5120000
The default block size for new files.

hadoop-env.sh文�g只需要修改一个参敎ͼ�

# The java implementation to use. Required.
export JAVA_HOME=/usr/ali/jdk1.5.0_10

配置你的Java路径�Q�记住一定要1.5版本以上�Q�免得莫名其妙出现问题�?/p>
Masters中配�|�Masters的IP或者机器名�Q�如果是机器名那么需要在/etc/hosts中有所讄��。Slaves中配�|�的是Slaves的IP或者机器名�Q�同样如果是机器名需要在/etc/hosts中有所讄��。范例如下，我这里配�|�的都是IP�Q?/p>
Masters:
10.2.224.46

Slaves:
10.2.226.40
10.2.226.39
10.2.226.38
10.2.226.37
10.2.226.41
10.2.224.36

建立Master到每一台Slave的SSH受信证书。由于Master��会通过SSH启动所有Slave的Hadoop�Q�所以需要徏立单向或者双向证书保证命令执行时不需要再输入密码。在Master和所有的Slave机器上执行：ssh-keygen -t rsa。执行此命��o的时候，看到提示只需要回车。然后就会在/root/.ssh/下面产生id_rsa.pub的证书文�Ӟ��通过scp��Master机器上的�q�个文�g拯��到Slave上（记得修改名称�Q�，例如�Q?code>scp root@masterIP:/root/.ssh/id_rsa.pub /root/.ssh/46_rsa.pub�Q�然后执�?code>cat /root/.ssh/46_rsa.pub >>/root/.ssh/authorized_keys�Q�徏�?code>authorized_keys�? 件即可，可以打开�q�个文�g看看�Q�也��是rsa的公钥作为key�Q�user@IP作�ؓvalue。此时可以试验一下，从master ssh到slave已经不需要密码了。由slave反向建立也是同样。�ؓ什么要反向呢？其实如果一直都是Master启动和关闭的话那么没有必要徏立反向，只是如果惛_��Slave也可以关闭Hadoop��需要徏立反向�?/li>
��Master上的Hadoop通过scp拯��到每一个Slave相同的目录下�Q�根据每一个Slave�?code>Java_HOME的不同修改其hadoop-env.sh�?/li>
修改Master�?code>/etc/profile�Q?/code>
新增以下内容�Q�（具体的内�Ҏ��据你的安装�\径修改，�q�步只是��Z��方便使用�Q?br />
export HADOOP_HOME=/home/wenchu/hadoop-0.17.1
export PATH=$PATH:$HADOOP_HOME/bin
修改完毕后，执行source /etc/profile来��其生效�?/li>
在Master上执�?code>Hadoop namenode –format�Q�这是第一需要做的初始化�Q�可以看作格式化吧，以后除了在上面我提到�q�删除了Master上的hadoop.tmp.dir目录�Q�否则是不需要再�ơ执行的�?/li>
然后执行Master上的start-all.sh�Q�这个命令可以直接执行，因�ؓ�?中已�l�添加到了path路径�Q�这个命令是启动hdfs和mapreduce两部分，当然你也可以分开单独启动hdfs和mapreduce�Q�分别是bin目录下的start-dfs.sh�?code>start-mapred.sh�?/li>
��查Master的logs目录�Q�看看Namenode日志以及JobTracker日志是否正常启动�?/li>
��查Slave的logs目录看看Datanode日志以及TaskTracker日志是否正常�?/li>
如果需要关闭，那么��q��接执�?code>stop-all.sh卛_��?/li>

以上步骤��可以启动Hadoop的分布式环境�Q�然后在Master的机器进入Master的安装目录，执行hadoop jar hadoop-0.17.1-examples.jar wordcount输入路径和输��\径，��可以看到字数统计的效果了。此处的输入路径和输��\径都指的是HDFS中的路径�Q�因此你可以首先通过拯��本地文�g�pȝ��中的目录到HDFS中的方式来徏立HDFS中的输入路径�Q?/p>
hadoop dfs -copyFromLocal /home/wenchu/test-in test-in�?/code>其中/home/wenchu/test-in是本地�\径，test-in是将会徏立在HDFS中的路径�Q�执行完毕以后可以通过hadoop dfs –ls看到test-in目录已经存在�Q�同时可以通过hadoop dfs –ls test-in查看里面的内宏V��输��\径要求是在HDFS中不存在的，当执行完那个demo以后�Q�就可以通过hadoop dfs –ls 输出路径看到其中的内容，具体文�g的内容可以通过hadoop dfs –cat文�g名称来查看�?/p>
�l�验�ȝ��和注意事��（�q�部分是我在使用�q�程中花了一些时间走的弯路）�Q?/p>
Master和Slave上的几个conf配置文�g不需要全部同步，如果��定都是通过Master��d��动和关闭�Q�那么Slave机器上的配置不需要去�l�护。但如果希望在�Q意一台机器都可以启动和关闭Hadoop�Q�那么就需要全部保持一致了�?/li> Master和Slave机器上的/etc/hosts中必��L��集群中机器都配置上去�Q�就��在各个配置文�g�? 使用的是IP。这个吃�q�不��苦��_��原来以�ؓ如果配成IP��׃��需要去配置Host�Q�结果发现在执行Reduce的时候��L��卡住�Q�在拯��的时候就无法�l�箋�? 去，不断重试。另外如果集��中如果有两台机器的机器名如果重复也会出现问题�?/li>
如果在新增了节点或者删除节点的时候出��C��问题�Q�首先就��d��除Slave�?code>hadoop.tmp.dir�Q�然后重新启动试试看�Q�如果还是不行那��干脆把Master�?code>hadoop.tmp.dir删除�Q�意味着dfs上的数据也会丢失�Q�，如果删除了Master�?code>hadoop.tmp.dir�Q�那么就需要重�?code>namenode –format�?/li>
Map��d��个数以及Reduce��d��个数配置。前面分布式文�g�pȝ��设计提到一个文件被攑օ�到分布式文�g�pȝ��中，会被分割成多个block攄��到每一个的DataNode上，默认dfs.block.size应该�?4M�Q�也��是说如果你攄��到HDFS上的数据��于64�Q�那么将只有一个Block�Q�此时会被放�|�到某一个DataNode中，�q�个可以通过使用命��o�Q?code>hadoop dfsadmin –report��可以看到各个节点存储的情况。也可以直接��L��一个DataNode查看目录�Q?code>hadoop.tmp.dir/dfs/data/current��? 可以看到那些block了。Block的数量将会直接媄响到Map的个数。当然可以通过配置来设定Map和Reduce的�Q务个数。Map的个数通常默认和HDFS需要处理的blocks相同。也可以通过配置Map的数量或者配�|�minimum split size来设定，实际的个��Cؓ�Q?code>max(min(block_size,data/#maps),min_split_size)。Reduce可以通过�q�个公式计算�Q?code>0.95*num_nodes*mapred.tasktracker.tasks.maximum�?/li>

�ȝ��来说��Z��问题或者启动的时候最好去看看日志�Q�这样心里有底�?/p>
Hadoop中的命��o�Q�Command�Q��ȝ��

�q�部分内容其实可以通过命��o的Help以及介绍了解�Q�我主要侧重于介�l�一下我用的比较多的几个命��o。Hadoop dfs �q�个命��o后面加参数就是对于HDFS的操作，和Linux操作�pȝ��的命令很�c�M��Q�例如：

Hadoop dfs –ls��是查看/usr/root目录下的内容�Q�默认如果不填�\径这��是当前用户路径�Q?/li>
Hadoop dfs –rmr xxx��是删除目录�Q�还有很多命令看看就很容易上手；

Hadoop dfsadmin –report�q�个命��o可以全局的查看DataNode的情况；

Hadoop job后面增加参数是对于当前运行的Job的操作，例如list,kill�{�；

Hadoop balancer��是前面提到的均衡磁盘负载的命��o�?/li>

其他��׃��详细介绍了�?/p>

Hadoop基本��程

一个图片太大了�Q�只好分割成��Z��部分。根据流�E�图来说一下具体一个�Q务执行的情况�?/p>

在分布式环境中客��L��创徏��d��q�提交�?/li>
InputFormat做Map前的预处理，主要负责以下工作�Q?br />

验证输入的格式是否符合JobConfig的输入定义，�q�个在实现Map和构建Conf的时候就会知道，不定义可以是Writable的�Q意子�c�R�?/li>
��input的文件切分�ؓ逻辑上的输入InputSplit�Q�其实这��是在上面提到的在分布式文�g�pȝ��中blocksize是有大小限制的，因此大文件会被划分�ؓ多个block�?/li>
通过RecordReader来再�ơ处理inputsplit��Z��l�records�Q�输出给Map。（inputsplit只是逻辑切分的第一步，但是如何�Ҏ��文�g中的信息来切分还需要RecordReader来实玎ͼ�例如最��单的默认方式��是回�R换行的切分）

RecordReader处理后的�l�果作�ؓMap的输入，Map执行定义的Map逻辑�Q�输出处理后的key和value对应��C��时中间文件�?/li>
Combiner可选择配置�Q�主要作用是在每一个Map执行完分析以后，在本��C��先作Reduce的工作，减少在Reduce�q�程中的数据传输量�?/li>
Partitioner可选择配置�Q�主要作用是在多个Reduce的情况下�Q�指定Map的结果由某一个Reduce处理�Q�每一个Reduce都会有单独的输出文�g。（后面的代码实例中有介�l��用场景）

Reduce执行具体的业务逻辑�Q��ƈ且将处理�l�果输出�l�OutputFormat�?/li>
OutputFormat的职责是�Q�验证输出目录是否已�l�存在，同时验证输出�l�果�c�d��是否如Config中配�|�，最后输出Reduce汇��d��的结果�?/li>

业务场景和代码范�?/h2>
业务场景描述�Q?/strong>可设定输入和输出路径�Q�操作系�l�的路径非HDFS路径�Q�，�Ҏ��讉K��日志分析某一个应用访问某一个API的��L��数和��L��量，�l�计后分别输出到两个文�g中。这里仅仅�ؓ了测试，没有�ȝ��分很多类�Q�将所有的�c�都归�ƈ于一个类便于说明问题�?/p>

��试代码�c�d��

LogAnalysiser��是�ȝ��Q�主要负责创建、提交�Q务，�q�且输出部分信息。内部的几个子类用途可以参看流�E�中提到的角色职责。具体地看看几个�c�d��Ҏ��的代码片断：

LogAnalysiser::MapClass

    public static class MapClass extends MapReduceBase         implements Mapper     {         public void map(LongWritable key, Text value, OutputCollector output, Reporter reporter)                 throws IOException         {                String line = value.toString();//没有配置RecordReader�Q�所以默认采用line的实玎ͼ�key��是行号�Q�value��是行内�?br />             if (line == null || line.equals(""))                 return;             String[] words = line.split(",");             if (words == null || words.length < 8)                 return;             String appid = words[1];             String apiName = words[2];             LongWritable recbytes = new LongWritable(Long.parseLong(words[7]));             Text record = new Text();             record.set(new StringBuffer("flow::").append(appid)                             .append("::").append(apiName).toString());             reporter.progress();             output.collect(record, recbytes);//输出��量的统计结果，通过flow::作�ؓ前缀来标�C��?br />             record.clear();             record.set(new StringBuffer("count::").append(appid).append("::").append(apiName).toString());             output.collect(record, new LongWritable(1));//输出�ơ数的统计结果，通过count::作�ؓ前缀来标�C?br />         }        }

LogAnalysiser:: PartitionerClass

    public static class PartitionerClass implements Partitioner     {         public int getPartition(Text key, LongWritable value, int numPartitions)         {             if (numPartitions >= 2)//Reduce 个数�Q�判断流量还是次数的�l�计分配��C��同的Reduce                 if (key.toString().startsWith("flow::"))                     return 0;                 else                     return 1;             else                 return 0;         }         public void configure(JobConf job){}    }

LogAnalysiser:: CombinerClass

参看ReduceClass�Q�通常两者可以��用一个，不过�q�里有些不同的处理就分成了两个。在ReduceClass中蓝色的行表�C�在CombinerClass中不存在�?/p>
LogAnalysiser:: ReduceClass

    public static class ReduceClass extends MapReduceBase         implements Reducer     {         public void reduce(Text key, Iterator values,                 OutputCollector output, Reporter reporter)throws IOException         {             Text newkey = new Text();             newkey.set(key.toString().substring(key.toString().indexOf("::")+2));             LongWritable result = new LongWritable();             long tmp = 0;             int counter = 0;             while(values.hasNext())//累加同一个key的统计结�?br />             {                 tmp = tmp + values.next().get();                                 counter = counter +1;//担心处理太久�Q�JobTracker长时间没有收到报告会认�ؓTaskTracker已经失效�Q�因此定时报告一�?br />                 if (counter == 1000)                 {                     counter = 0;                     reporter.progress();                 }             }             result.set(tmp);             output.collect(newkey, result);//输出最后的汇�ȝ��?br />         }        }

LogAnalysiser

public static void main(String[] args) { try { run(args); } catch (Exception e) { e.printStackTrace(); } } public static void run(String[] args) throws Exception { if (args == null || args.length <2) { System.out.println("need inputpath and outputpath"); return; } String inputpath = args[0]; String outputpath = args[1]; String shortin = args[0]; String shortout = args[1]; if (shortin.indexOf(File.separator) >= 0) shortin = shortin.substring(shortin.lastIndexOf(File.separator)); if (shortout.indexOf(File.separator) >= 0) shortout = shortout.substring(shortout.lastIndexOf(File.separator)); SimpleDateFormat formater = new SimpleDateFormat("yyyy.MM.dd"); shortout = new StringBuffer(shortout).append("-") .append(formater.format(new Date())).toString(); if (!shortin.startsWith("/")) shortin = "/" + shortin; if (!shortout.startsWith("/")) shortout = "/" + shortout; shortin = "/user/root" + shortin; shortout = "/user/root" + shortout; File inputdir = new File(inputpath); File outputdir = new File(outputpath); if (!inputdir.exists() || !inputdir.isDirectory()) { System.out.println("inputpath not exist or isn't dir!"); return; } if (!outputdir.exists()) { new File(outputpath).mkdirs(); } JobConf conf = new JobConf(new Configuration(),LogAnalysiser.class);//构徏Config FileSystem fileSys = FileSystem.get(conf); fileSys.copyFromLocalFile(new Path(inputpath), new Path(shortin));//��本地文件系�l�的文�g拯��到HDFS�?br /> conf.setJobName("analysisjob"); conf.setOutputKeyClass(Text.class);//输出的key�c�d��Q�在OutputFormat会检�?br /> conf.setOutputValueClass(LongWritable.class); //输出的value�c�d��Q�在OutputFormat会检�?br /> conf.setMapperClass(MapClass.class); conf.setCombinerClass(CombinerClass.class); conf.setReducerClass(ReduceClass.class); conf.setPartitionerClass(PartitionerClass.class); conf.set("mapred.reduce.tasks", "2");//强制需要有两个Reduce来分别处理流量和�ơ数的统�?br /> FileInputFormat.setInputPaths(conf, shortin);//hdfs中的输入路径 FileOutputFormat.setOutputPath(conf, new Path(shortout));//hdfs中输��\�?br /> Date startTime = new Date(); System.out.println("Job started: " + startTime); JobClient.runJob(conf); Date end_time = new Date(); System.out.println("Job ended: " + end_time); System.out.println("The job took " + (end_time.getTime() - startTime.getTime()) /1000 + " seconds."); //删除输入和输出的临时文�g fileSys.copyToLocalFile(new Path(shortout),new Path(outputpath)); fileSys.delete(new Path(shortin),true); fileSys.delete(new Path(shortout),true); }

以上的代码就完成了所有的逻辑性代码，然后�q�需要一个注册驱动类来注册业务Class��Z��个可标示的命令，让hadoop jar可以执行�?/p>
public class ExampleDriver { public static void main(String argv[]){     ProgramDriver pgd = new ProgramDriver();     try {       pgd.addClass("analysislog", LogAnalysiser.class, "A map/reduce program that analysis log .");       pgd.driver(argv);     }     catch(Throwable e){       e.printStackTrace();     } } }

��代码打成jar�Q��ƈ且设�|�jar的mainClass为ExampleDriver�q�个�c�R��在分布式环境启动以后执行如下语句：

hadoop jar analysiser.jar analysislog /home/wenchu/test-in /home/wenchu/test-out

�?home/wenchu/test-in中是需要分析的日志文�g�Q�执行后��׃��看见整个执行�q�程�Q�包括了Map和Reduce的进度。执行完毕会 �?home/wenchu/test-out下看到输出的内容。有两个文�g�Q�part-00000和part-00001分别记录了统计后的结果�? 如果需要看执行的具体情况，可以看在输出目录下的_logs/history/xxxx_analysisjob�Q�里面罗列了所有的Map�Q�Reduce 的创建情况以及执行情��c��在�q�行期也可以通过��览器来查看Map,Reduce的情况：http://MasterIP:50030 /jobtracker.jsp

Hadoop集群��试

首先�q�里使用上面的范例作为测试，也没有做太多的优化配�|�，�q�个��试�l�果只是��Z��看看集群的效果，以及一些参数配�|�的影响�?/p>
文�g复制��Cؓ1�Q�blocksize 5M

Slave�?/td> 处理记录�?万条) 执行旉��Q�秒�Q?/td>

2 95 38

2 950 337

4 95 24

4 950 178

6 95 21

6 950 114

Blocksize 5M

Slave�?/td> 处理记录�?万条) 执行旉��Q�秒�Q?/td>

2�Q�文件复制数�?�Q?/td> 950 337

2�Q�文件复制数�?�Q?/td> 950 339

6�Q�文件复制数�?�Q?/td> 950 114

6�Q�文件复制数�?�Q?/td> 950 117

文�g复制��Cؓ1

Slave�?/td> 处理记录�?万条) 执行旉��Q�秒�Q?/td>

6(blocksize 5M) 95 21

6(blocksize 77M) 95 26

4(blocksize 5M) 950 178

4(blocksize 50M) 950 54

6(blocksize 5M) 950 114

6(blocksize 50M) 950 44

6(blocksize 77M) 950 74

��试的数据结果很�E�_��Q�基本测几次同样条�g下都是一栗��通过��试�l�果可以看出以下几点�Q?/p>

机器数对于性能�q�是有帮助的�Q�等于没说^_^�Q��?/li>
文�g复制数的增加只对安全性有帮助�Q�但是对于性能没有太多帮助。而且现在采取的是��操作系�l�文件拷贝到HDFS中，所以备份多了，准备的时间很�ѝ�?/li>
blocksize对于性能影响很大�Q�首先如果将block划分的太��，那么��会增加job的数量，同时也增加了协作的代��P��降低了性能�Q�但是配�|�的太大也会让job不能最大化�q�行处理。所以这个值的配置需要根据数据处理的量来考虑�?/li>
最后就是除了这个表里面列出来的�l�果�Q�应该去仔细看输出目录中的_logs/history中的xxx_analysisjob�q�个文�g�Q�里面记录了全部的执行过�E�以及读写情��c��这个可以更加清楚地了解哪里可能会更加耗时�?/li>

随想

“云计��?#8221;热的烫手�Q�就和SAAS、Web2及SNS�{�一��P��往往都是在搞概念�Q�只有真正踏�t�实实的大型互联�|�公司，才会投入人力物力�ȝ��I�符合自 ��q��分布式计��。其实当你的数据量没有那么大的时候，�q�种分布式计��也��׃��仅只是一个玩兯��已�Q�只有在真正解决问题的过�E�中�Q�它深层�ơ的问题才会被挖掘出来�?/p>
�q�三��文章（分布式计��开源框架Hadoop介绍�Q�Hadoop中的集群配置和��用技巧）仅仅是�ؓ了给对分布式计算有兴��的朋友抛个砖，要想真的掘到�? 子，那么��p��t�实实的�ȝ��、去惟뀁去分析。或者自�׃��会更�q�一步地�ȝ��I�框架中的实现机�Ӟ��在解册��己问题的同时�Q�也能够贡献一些什么�?/p>
前几日看到有��求成为架构师的方式，看了有些可悲�Q�有些可�W�，其实有多��架构师知道什么叫做架构？架构师的职责是什么？与其�q�求�q�么一个名��P��q�不如踏�t�实实地做块矛_��沉到水底。要知道�Q�积累和沉淀的过�E�就是一�U�成�ѝ�?/p>

西瓜 2010-10-22 15:21 发表评论

Slave�?/td>	处理记录�?万条)	执行旉��Q�秒�Q?/td>
2	95	38
2	950	337
4	95	24
4	950	178
6	95	21
6	950	114

Slave�?/td>	处理记录�?万条)	执行旉��Q�秒�Q?/td>
2�Q�文件复制数�?�Q?/td>	950	337
2�Q�文件复制数�?�Q?/td>	950	339
6�Q�文件复制数�?�Q?/td>	950	114
6�Q�文件复制数�?�Q?/td>	950	117

Slave�?/td>	处理记录�?万条)	执行旉��Q�秒�Q?/td>
6(blocksize 5M)	95	21
6(blocksize 77M)	95	26
4(blocksize 5M)	950	178
4(blocksize 50M)	950	54
6(blocksize 5M)	950	114
6(blocksize 50M)	950	44
6(blocksize 77M)	950	74

Hadoop-- ��量文�g的分布式计算处理�Ҏ��

西瓜 — Fri, 22 Oct 2010 02:55:00 GMT
Hadoop 是Google MapReduce�? 一个Java实现。MapReduce是一�U�简化的分布式编�E�模式，让程序自动分布到一个由普通机器组成的��大集群上�ƈ发执行。就如同java�E�序员可�? 不考虑内存泄露一��P�� MapReduce的run-time�pȝ��会解册��入数据的分布�l�节�Q�跨��机器集��的�E�序执行调度�Q�处理机器的失效�Q��ƈ且管理机器之间的通讯��h��。这��L�� 模式允许�E�序员可以不需要有什么�ƈ发处理或者分布式�pȝ��的经验，��可以处理超大的分布式系�l�得资源�?
    一、概�?/h2>
    作�ؓHadoop�E�序员，他要做的事情��是�Q?br />     1、定义Mapper�Q�处理输入的Key-Value对，输出中间�l�果�?br />     2、定义Reducer�Q�可选，对中间结果进行规�U�，输出最�l�结果�?br />     3、定义InputFormat 和OutputFormat�Q�可选，InputFormat��每行输入文件的内容转换为Java�c�M��Mapper函数使用�Q�不定义旉��认�ؓString�?br />     4、定义main函数�Q�在里面定义一个Job�q�运行它�?br />

    然后的事情就交给�pȝ��了�?br />     1.基本概念�Q�Hadoop的HDFS实现了google的GFS文�g�pȝ��Q�NameNode作�ؓ文�g�pȝ��的负责调度运行在 master�Q�DataNode�q�行在每个机器上。同时Hadoop实现了Google的MapReduce�Q�JobTracker作�ؓ MapReduce的总调度运行在master�Q�TaskTracker则运行在每个机器上执行Task�?br />
    2.main()函数�Q�创建JobConf�Q�定义Mapper�Q�Reducer�Q�Input/OutputFormat 和输入输出文件目录，最后把Job提交�i�JobTracker�Q�等待Job�l�束�?br />
    3.JobTracker�Q�创��Z��个InputFormat的实例，调用它的getSplits()�Ҏ��Q�把输入目录的文件拆分成FileSplist作�ؓMapper task 的输入，生成Mapper task加入Queue�?br />
    4.TaskTracker �?JobTracker索求下一个Map/Reduce�?br />
     Mapper Task先从InputFormat创徏RecordReader�Q��@环读入FileSplits的内容生成Key与Value�Q�传�l�Mapper函数�Q�处理完后中间结果写成SequenceFile.
     Reducer Task 从运行Mapper的TaskTracker的Jetty上��用http协议获取所需的中间内容（33%�Q�，Sort/Merge后（66%�Q�，执行Reducer函数�Q�最后按照OutputFormat写入�l�果目录�?

      TaskTracker �?0�U�向JobTracker报告一�ơ运行情况，每完成一个Task10�U�后�Q�就会向JobTracker索求下一个Task�?/p>
      Nutch��目的全部数据处理都构徏在Hadoop之上�Q�详�?a >Scalable Computing with Hadoop�?/p>

    二、程序员�~�写的代�?/h2>
    我们做一个简单的分布式的Grep�Q�简单对输入文�g�q�行逐行的正则匹配，如果�W�合��将该行打印到输出文件。因为是��单的全部输出�Q�所以我们只要写Mapper函数�Q�不用写Reducer函数�Q�也不用定义Input/Output Format�?/p>
package demo.hadoop

public class HadoopGrep {

public static class RegMapper extends MapReduceBase implements Mapper {

   private Pattern pattern;

   public void configure(JobConf job) {
   pattern = Pattern.compile(job.get( " mapred.mapper.regex " ));
  }

   public void map(WritableComparable key, Writable value, OutputCollector output, Reporter reporter)
     throws IOException {
   String text = ((Text) value).toString();
   Matcher matcher = pattern.matcher(text);
    if (matcher.find()) {
    output.collect(key, value);
   }
  }
}

private HadoopGrep () {
} // singleton

public static void main(String[] args) throws Exception {

  JobConf grepJob = new JobConf(HadoopGrep. class );
  grepJob.setJobName( " grep-search " );
  grepJob.set( " mapred.mapper.regex " , args[ 2 ]);

  grepJob.setInputPath( new Path(args[ 0 ]));
  grepJob.setOutputPath( new Path(args[ 1 ]));
  grepJob.setMapperClass(RegMapper. class );
  grepJob.setReducerClass(IdentityReducer. class );

  JobClient.runJob(grepJob);
}
}

        RegMapper�cȝ��configure()函数接受由main函数传入的查扑֭��W�串�Q�map() 函数�q�行正则匚w��Q�key是行敎ͼ�value是文件行的内容，�W�合的文件行攑օ�中间�l�果�?br />         main()函数定义由命令行参数传入的输入输出目录和匚w��字符�Ԍ��Mapper函数为RegMapper�c�，Reduce函数是什么都不做�Q�直接把中间�l�果输出到最�l�结果的的IdentityReducer�c�，�q�行Job�?/p>

        整个代码非常��单，丝毫没有分布式编�E�的��M��l�节�?/strong>

       �?�q�行Hadoop�E�序

        Hadoop�q�方面的文档写得不全面，�l�合参�?a >GettingStartedWithHadoop �?u>Nutch Hadoop Tutorial 两篇后，再碰了很多钉子才�l�于完整的跑��h��了，记录如下�Q?nbsp;

3.1 local�q�行模式

       完全不进行�Q何分布式计算�Q�不动用��M��namenode,datanode的做法，适合一开始做调试代码�?br />        解压hadoop�Q�其中conf目录是配�|�目录，hadoop的配�|�文件在hadoop-default.xml�Q�如果要修改配置�Q�不是直接修改该文�g�Q�而是修改hadoop-site.xml�Q�将该属性在hadoop-site.xml里重新赋倹{�?br />        hadoop-default.xml的默认配�|�已�l�是local�q�行�Q�不用�Q何修改，配置目录里唯一必须修改的是hadoop-env.sh �?font face="Courier New">JAVA_HOME的位�|��?/p>

       ��编译好的HadoopGrep与RegMapper.class 攑օ�hadoop/build/classes/demo/hadoop/目录找一个比较大的log文�g攑օ�一个目录，然后�q�行

       hadoop / bin / hadoop demo.hadoop.HadoopGrep log文�g所在目�?nbsp;��L��的输出目�?nbsp;grep的字�W�串

     查看输出目录的结果，查看hadoop/logs/里的�q�行日志�?nbsp;
     在重新运行前�Q�先删掉输出目录�?br />

3.2 单机集群�q�行模式

       现在来搞一下只有单机的集群.假设以完�?.1中的讄��Q�本机名为hadoopserver
       �W?�?    然后修改hadoop-site.xml �Q�加入如下内容：

< property >
   < name > fs.default.name name >
   < value > hadoopserver:9000 value >
property >
< property >
   < name > mapred.job.tracker name >
   < value > hadoopserver:9001 value >
property >
< property >
   < name > dfs.replication name >
   < value > 1 value >
property >

    从此��将�q�行从local文�g�pȝ��转向了hadoop的hdfs�pȝ��Q�mapreduce的jobtracker也从local的进�E�内操作变成了分布式的�Q务系�l�，9000�Q?001两个端口��h��随便选择的两个空余端口号�?br />
另外�Q�如果你�?tmp目录不够大，可能�q�要修改hadoop.tmp.dir属性�?/p>

�W?�? 增加ssh不输入密码即可登陆�?br />
    因�ؓHadoop需要不用输入密码的ssh来进行调度，在不su的状态下�Q�在自己的home目录�q�行ssh-keygen -t rsa ,然后一路回车生成密钥，再进�?ssh目录,cp id_rsa.pub authorized_keys
    详细可以man 一下ssh, 此时执行ssh hadoopserver�Q�不需要输入�Q何密码就能进入了�?/p>
3.格式化namenode�Q�执�?br />   bin/hadoop namenode -format

4.启动Hadoop
     执行hadoop/bin/start-all.sh, 在本机启动namenode,datanode,jobtracker,tasktracker

5.现在��待查找的log文�g攑օ�hdfs,�?br />      执行hadoop/bin/hadoop dfs 可以看到它所支持的文件操作指令�?br />      执行hadoop/bin/hadoop dfs put log文�g所在目�?in �Q�则log文�g目录已放入hdfs�?user/user-name/in 目录�?/p>
6.现在来执行Grep操作
      hadoop/bin/hadoop demo.hadoop.HadoopGrep in out
      查看hadoop/logs/里的�q�行日志�Q�重新执行前。运行hadoop/bin/hadoop dfs rmr out 删除out目录�?br />
7.�q�行hadoop/bin/stop-all.sh �l�束

3.3 集群�q�行模式
假设已执行完3.2的配�|�，假设�W?台机器名是hadoopserver2
1.创徏与hadoopserver同样的执行用��P��hadoop解压到相同的目录�?br />
2.同样的修改haoop-env.sh中的JAVA_HOME 及修改与3.2同样的hadoop-site.xml

3. ��hadoopserver中的/home/username/.ssh/authorized_keys 复制到hadoopserver2,保证hadoopserver可以无需密码登陆hadoopserver2
     scp /home/username/.ssh/authorized_keys username@hadoopserver2:/home/username/.ssh/authorized_keys

4.修改hadoop-server的hadoop/conf/slaves文�g, 增加集群的节点，��localhost改�ؓ
    hadoop-server
    hadoop-server2

5.在hadoop-server执行hadoop/bin/start-all.sh
   ��会在hadoop-server启动namenode,datanode,jobtracker,tasktracker
   在hadoop-server2启动datanode 和tasktracker

6.现在来执行Grep操作
     hadoop/bin/hadoop demo.hadoop.HadoopGrep in out
    重新执行�?�q�行hadoop/bin/hadoop dfs rmr out 删除out目录

7.�q�行hadoop/bin/stop-all.sh �l�束�?br />

四、效�?/h2>
   �l�测试，Hadoop�q�不是万用灵丹，很取决于文�g的大��和数量�Q�处理的复杂度以及群集机器的数量�Q�相�q�的带宽�Q�当以上四者�ƈ不大�Ӟ��hadoop优势�q�不明显�?br />    比如�Q�不用hadoop用java写的��单grep函数处理100M的log文�g只要4�U�，用了hadoop local的方式运行是14�U�，用了hadoop单机集群的方式是30�U�，用双机集��?0M�|�口的话更慢�Q�慢��C��好意思说出来的地步�?/p>

西瓜 2010-10-22 10:55 发表评论

亚洲乱码中文字幕综合,久久国产亚洲精品,亚洲综合av一区二区三区不卡

分布式计���开源框架Hadoop介绍

环境

部��v考虑

实施步骤

Hadoop中的命��o�Q�Command�Q��ȝ��

Hadoop基本���程

Hadoop集群���试

随想

Hadoop-- ���量文�g的分布式计算处理�Ҏ��

�?�q�行Hadoop�E�序

分布式计��开源框架Hadoop介绍

Hadoop基本��程

Hadoop集群��试

Hadoop-- ��量文�g的分布式计算处理�Ҏ��