亚洲国产日韩在线视频,久久精品夜色国产亚洲av,亚洲国产综合自在线另类

POI操作Excel

鸉K�� — Fri, 20 Mar 2020 02:13:00 GMT

一、POI概述　　Apache POI是Apache软�g基金会的开放源码函式库�Q�POI提供API�l�Java�E�序对Microsoft Office格式档案��d��写的功能�? 　　�l�构�Q? HSSF �Q?提供��d��Microsoft Excel格式档案的功能�? XSSF �Q?提供��d��Microsoft Excel OOXML格式档案的功能�? HWPF �Q?提供��d��Microsoft Word格式档案的功能�? HSLF �Q?提供��d��Microsoft PowerPoint格式档案的功能�? HDGF �Q?提供��d��Microsoft Visio格式档案的功能�? 　使用必须引入依赖 org.apache.poi poi 3.17 注：3.17版本是支持jdk6的最后版�? 二、HSSF概况　　HSSF 是Horrible SpreadSheet Format的羃写，通过HSSF�Q�你可以用纯Java代码来读取、写入、修改Excel文�g。HSSF ��取操作提供了两类API�Q�usermodel和eventusermodel�Q�即“用户模型”�?#8220;事�g-用户模型”�? 三�?POI EXCEL文档�l�构�c? HSSFWorkbook excel文档对象 HSSFSheet excel的sheet HSSFRow excel的行 HSSFCell excel的单元格 HSSFFont excel字体 HSSFName 名称 HSSFDataFormat 日期格式 HSSFHeader sheet�? HSSFFooter sheet��? HSSFCellStyle cell样式 HSSFDateUtil 日期 HSSFPrintSetup 打印 HSSFErrorConstants 错误信息�? 四、EXCEL的读写操�? 1、读�?#8220;区域数据.xls”�q�储存于list集合中，“区域数据.xls”如下�? public List importXLS(){ ArrayList list = new ArrayList<>(); try { 　　　　　//1、获取文件输入流　　　　　InputStream inputStream = new FileInputStream("/Users/Shared/区域数据.xls"); 　　　　　//2、获取Excel工作��对�? HSSFWorkbook workbook = new HSSFWorkbook(inputStream); 　　　　　//3、得到Excel工作表对�? HSSFSheet sheetAt = workbook.getSheetAt(0); //4、��@环读取表格数�? 　　　　 for (Row row : sheetAt) { 　　　　　　　//首行�Q�即表头�Q�不��d�� if (row.getRowNum() == 0) { continue; } //��d��当前行中单元格数据，索引�?开�? 　　　　　　　String areaNum = row.getCell(0).getStringCellValue(); String province = row.getCell(1).getStringCellValue(); String city = row.getCell(2).getStringCellValue(); String district = row.getCell(3).getStringCellValue(); String postcode = row.getCell(4).getStringCellValue(); Area area = new Area(); area.setCity(city); area.setDistrict(district); area.setProvince(province); 　　　　　　　area.setPostCode(postcode); list.add(area); } 　　　　 //5、关闭流 workbook.close(); } catch (IOException e) { e.printStackTrace(); } 　　return list; } 2、导出数据到“区域数据.xls”文�g中，��面数据如下图： public void exportExcel() throws IOException { Page page = areaService.pageQuery(null); List list = page.getContent(); //1.在内存中创徏一个excel文�g HSSFWorkbook hssfWorkbook = new HSSFWorkbook(); //2.创徏工作��? HSSFSheet sheet = hssfWorkbook.createSheet(); //3.创徏标题�? HSSFRow titlerRow = sheet.createRow(0); titlerRow.createCell(0).setCellValue("�?); titlerRow.createCell(1).setCellValue("�?); titlerRow.createCell(2).setCellValue("�?); titlerRow.createCell(3).setCellValue("邮编"); titlerRow.createCell(4).setCellValue("��?); titlerRow.createCell(5).setCellValue("城市�~�码"); //4.遍历数据,创徏数据�? for (Area area : list) { //获取最后一行的行号 int lastRowNum = sheet.getLastRowNum(); HSSFRow dataRow = sheet.createRow(lastRowNum + 1); dataRow.createCell(0).setCellValue(area.getProvince()); dataRow.createCell(1).setCellValue(area.getCity()); dataRow.createCell(2).setCellValue(area.getDistrict()); dataRow.createCell(3).setCellValue(area.getPostcode()); dataRow.createCell(4).setCellValue(area.getShortcode()); dataRow.createCell(5).setCellValue(area.getCitycode()); } //5.创徏文�g�? String fileName = "区域数据�l�计.xls"; //6.获取输出��对�? HttpServletResponse response = ServletActionContext.getResponse(); ServletOutputStream outputStream = response.getOutputStream(); //7.获取mimeType ServletContext servletContext = ServletActionContext.getServletContext(); String mimeType = servletContext.getMimeType(fileName); //8.获取��览器信�?�Ҏ��件名�q�行重新�~�码 HttpServletRequest request = ServletActionContext.getRequest(); fileName = FileUtils.filenameEncoding(fileName, request); //9.讄��信息�? response.setContentType(mimeType); response.setHeader("Content-Disposition","attachment;filename="+fileName); //10.写出文�g,关闭��? hssfWorkbook.write(outputStream); hssfWorkbook.close(); } 工具�c? public class FileUtils { public static String filenameEncoding(String filename, HttpServletRequest request) throws IOException { String agent = request.getHeader("User-Agent"); //获取��览�? if (agent.contains("Firefox")) { BASE64Encoder base64Encoder = new BASE64Encoder(); filename = "=?utf-8?B?" + base64Encoder.encode(filename.getBytes("utf-8")) + "?="; } else if(agent.contains("MSIE")) { filename = URLEncoder.encode(filename, "utf-8"); } else if(agent.contains ("Safari")) { filename = new String (filename.getBytes ("utf-8"),"ISO8859-1"); } else { filename = URLEncoder.encode(filename, "utf-8"); } return filename; } } 写出xls文�g�Q? 五�?EXCEL常用操作�Ҏ�� 1�?得到Excel常用对象 POIFSFileSystem fs=newPOIFSFileSystem(new FileInputStream("d:/test.xls")); //得到Excel工作��对�? HSSFWorkbook wb = new HSSFWorkbook(fs); //得到Excel工作表对�? HSSFSheet sheet = wb.getSheetAt(0); //得到Excel工作表的�? HSSFRow row = sheet.getRow(i); //得到Excel工作表指定行的单元格 HSSFCell cell = row.getCell((short) j); cellStyle = cell.getCellStyle();//得到单元格样�? 2、徏立Excel常用对象 HSSFWorkbook wb = new HSSFWorkbook();//创徏Excel工作��对�? HSSFSheet sheet = wb.createSheet("new sheet");//创徏Excel工作表对�? HSSFRow row = sheet.createRow((short)0); //创徏Excel工作表的�? cellStyle = wb.createCellStyle();//创徏单元格样�? row.createCell((short)0).setCellStyle(cellStyle); //创徏Excel工作表指定行的单元格 row.createCell((short)0).setCellValue(1); //讄��Excel工作表的�? 3、设�|�sheet名称和单元格内容 wb.setSheetName(1, "�W�一张工作表",HSSFCell.ENCODING_UTF_16); cell.setEncoding((short) 1); cell.setCellValue("单元格内�?); 4、取得sheet的数�? wb.getNumberOfSheets() 5�?�Ҏ��index取得sheet对象 HSSFSheet sheet = wb.getSheetAt(0); 6、取得有效的行数 int rowcount = sheet.getLastRowNum(); 7、取得一行的有效单元��g��? row.getLastCellNum(); 8、单元格值类型读�? cell.setCellType(HSSFCell.CELL_TYPE_STRING); //讄��单元��gؓSTRING�c�d�� cell.getNumericCellValue();//��d��为数值类型的单元格内�? 9、设�|�列宽、行�? sheet.setColumnWidth((short)column,(short)width); row.setHeight((short)height); 10、添加区域，合�ƈ单元�? Region region = new Region((short)rowFrom,(short)columnFrom,(short)rowTo ,(short)columnTo);//合�ƈ从第rowFrom行columnFrom�? sheet.addMergedRegion(region);// 到rowTo行columnTo的区�? //得到所有区�? sheet.getNumMergedRegions() 11、保存Excel文�g FileOutputStream fileOut = new FileOutputStream(path); wb.write(fileOut); 12、根据单元格不同属性返回字�W�串数�? public String getCellStringValue(HSSFCell cell) { 　　String cellValue = ""; 　　switch (cell.getCellType()) { 　　　　case HSSFCell.CELL_TYPE_STRING://字符串类�? 　　　　　　　　cellValue = cell.getStringCellValue(); 　　　　　　　　if(cellValue.trim().equals("")||cellValue.trim().length()<=0) 　　　　　　　　　　cellValue=" "; 　　　　　　　　break; 　　　　case HSSFCell.CELL_TYPE_NUMERIC: //数值类�? 　　　　　　　　cellValue = String.valueOf(cell.getNumericCellValue()); 　　　　　　　　break; 　　　　case HSSFCell.CELL_TYPE_FORMULA: //公式　　　　　　　　cell.setCellType(HSSFCell.CELL_TYPE_NUMERIC); 　　　　　　　　cellValue = String.valueOf(cell.getNumericCellValue()); 　　　　　　　　break; 　　　　case HSSFCell.CELL_TYPE_BLANK: 　　　　　　　　cellValue=" "; 　　　　　　　　break; 　　　　case HSSFCell.CELL_TYPE_BOOLEAN: 　　　　　　　　break; 　　　　case HSSFCell.CELL_TYPE_ERROR: 　　　　　　　　break; 　　　　default: 　　　　　　　　break; 　　} 　　return cellValue; } 13、常用单元格�Ҏ��格式 HSSFCellStyle style = wb.createCellStyle(); style.setBorderBottom(HSSFCellStyle.BORDER_DOTTED);//下边�? style.setBorderLeft(HSSFCellStyle.BORDER_DOTTED);//左边�? style.setBorderRight(HSSFCellStyle.BORDER_THIN);//双��? style.setBorderTop(HSSFCellStyle.BORDER_THIN);//上边�? 14、设�|�字体和内容位置 HSSFFont f = wb.createFont(); f.setFontHeightInPoints((short) 11);//字号 f.setBoldweight(HSSFFont.BOLDWEIGHT_NORMAL);//加粗 style.setFont(f); style.setAlignment(HSSFCellStyle.ALIGN_CENTER);//左右居中 style.setVerticalAlignment(HSSFCellStyle.VERTICAL_CENTER);//上下居中 style.setRotation(short rotation);//单元格内容的旋�{的角�? HSSFDataFormat df = wb.createDataFormat(); style1.setDataFormat(df.getFormat("0.00%"));//讄��单元格数据格�? cell.setCellFormula(string);//�l�单元格讑օ��? style.setRotation(short rotation);//单元格内容的旋�{的角�? 15、插入图�? //先把读进来的囄��攑ֈ�一个ByteArrayOutputStream中，以便产生ByteArray ByteArrayOutputStream byteArrayOut = new ByteArrayOutputStream(); BufferedImage bufferImg = ImageIO.read(new File("ok.jpg")); ImageIO.write(bufferImg,"jpg",byteArrayOut); //读进一个excel模版 FileInputStream fos = new FileInputStream(filePathName+"/stencil.xlt"); fs = new POIFSFileSystem(fos); //创徏一个工作薄 HSSFWorkbook wb = new HSSFWorkbook(fs); HSSFSheet sheet = wb.getSheetAt(0); HSSFPatriarch patriarch = sheet.createDrawingPatriarch(); HSSFClientAnchor anchor = new HSSFClientAnchor(0,0,1023,255,(short) 0,0,(short)10,10); patriarch.createPicture(anchor , wb.addPicture(byteArrayOut.toByteArray(),HSSFWorkbook.PICTURE_TYPE_JPEG)); 16、调整工作表位置 HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet("format sheet"); HSSFPrintSetup ps = sheet.getPrintSetup(); sheet.setAutobreaks(true); ps.setFitHeight((short)1); ps.setFitWidth((short)1);

鸉K�� 2020-03-20 10:13 发表评论

鸉K�� — Tue, 14 May 2019 15:04:00 GMT

1、在学习从文件读取数据中�Q�写了个�C�Z��代码�Q�读取不在同一个目录的file.txt�Q�运行后报这个Python OSError: [Errno 22] Invalid argument:错误�Q? �Q?�Q�、首先，在F盘的python_stu中新增了一个file.txt�Q�同时在F盘的python_stu文�g目录底下新增一个file文�g夹，里面有个file_reader.py来读取python_stu文�g目录底下的file.txt�Q�代码分别如下： file.txt�Q? ��试 ��试2 ��试3 file_reader.py�Q? with open('F:\python_stu\file.txt') as file_obj: contents = file_obj.read(); print(contents.rstrip()); �Q?�Q�、运行后报错�Q? �Q?�Q�、出现这�U�错误的原因是由于读取不到这个文�Ӟ��看Traceback报的错误�Q�最后一行，很明显读取不到file.txt�Q�前面的F:\\python_stu没错�Q�后面的名称怎么变了�Q�还是x0cile.txt�? �Q?�Q�、解军_��法，可修改上�q�第一行代码�ؓ�Q? with open('F:\python_stu/file.txt') as file_obj: 或者： with open('F:/python_stu/file.txt') as file_obj: 或者： with open('F://python_stu//file.txt') as file_obj: 又或者： with open('F:\\python_stu\\file.txt') as file_obj: �q�有一些我��׃��附上了，上面�W�一�U�方式不�l�一�Q�最好不要用�Q�用�l�一的方式，而且有时候还有注意一些�{义字�W�，比如 \t�Q�\n也会��D��报错�?

鸉K�� 2019-05-14 23:04 发表评论

鸉K�� — Sun, 13 Aug 2017 10:49:00 GMT

前面学习了��用命令hdfs haadmin -failover手动�q�行故障转移�Q�在该模式下�Q�即使现役NameNode已经失效�Q�系�l�也不会自动从现役NameNode转移到待机NameNode�Q�下面学习如何配�|�部�|�HA自动�q�行故障转移。自动故障�{�U�MؓHDFS部��v增加了两个新�l��g�Q�ZooKeeper和ZKFailoverController�Q�ZKFC�Q�进�E�。ZooKeeper是维护少量协调数据，通知客户端这些数据的改变和监视客��L��故障的高可用服务。HA的自动故障�{�U�M��赖于ZooKeeper的以下功能：

故障��：集群中的每个NameNode在ZooKeeper中维护了一个持久会话，如果机器崩溃�Q�ZooKeeper中的会话��终止，ZooKeeper通知另一个NameNode需要触发故障�{�U�R�?/li>
现役NameNode选择�Q�ZooKeeper提供了一个简单的机制用于唯一的选择一个节点�ؓactive状态。如果目前现役NameNode崩溃�Q�另一个节点可能从ZooKeeper获得�Ҏ��的排外锁以表明它应该成�ؓ现役NameNode�?/li>

ZKFC是自动故障�{�U�M��的另一个新�l��g�Q�是ZooKeeper的客��L��Q�也监视和管理NameNode的状态。每个运行NameNode的主��Z��q�行了一个ZKFC�q�程�Q�ZKFC负责�Q?/p>

健康监测�Q�ZKFC使用一个健��h��查命令定期地ping与之在相同主机的NameNode�Q�只要该NameNode及时地回复健��L��态，ZKFC认�ؓ该节�Ҏ��健康的。如果该节点崩溃�Q�冻�l�或�q�入不健��L��态，健康监测器标识该节点为非健康的�?/li>
ZooKeeper会话��理�Q�当本地NameNode是健��L��Q�ZKFC保持一个在ZooKeeper中打开的会话。如果本地NameNode处于active状态，ZKFC也保持一个特�D�的znode锁，该锁使用了ZooKeeper对短暂节点的支持�Q�如果会话终止，锁节点将自动删除�?/li>
��Z��ZooKeeper的选择�Q�如果本地NameNode是健��L��Q�且ZKFC发现没有其它的节点当前持有znode锁，它将��p��取该锁。如果成功，则它已经赢得了选择�Q��ƈ负责�q�行故障转移�q�程以��它的本地NameNode为active。故障�{�U�进城与前面描述的手动故障�{�Uȝ��|��首先如果必要保护之前的现役NameNode�Q�然后本地NameNode转换为active状态�?/li>

在典型部�|�中�Q�ZooKeeper守护�q�程�q�行在三个或者五个节点上�Q�但�׃��ZooKeeper本��n需要较��的资源�Q�所以将ZooKeeper部��v在与现役NameNode和待机NameNode相同的主��Z��Q�还可以��ZooKeeper部��v��C��YARN的ResourceManager相同的节点上。徏议配�|�ZooKeeper��数据存储在与HDFS元数据不同的��盘上以得到最好的性能和隔��L��。在配置自动故障转移之前需要先停掉集群�Q�目前在集群�q�行时还不可能将手动故障转移的安装�{换�ؓ自动故障转移的安装。接下来看看如何配置HA的自动故障�{�U�R��首先在hdfs-site.xml中添加下面的参数�Q�该参数的值默认�ؓfalse�Q?/p>

[html] view plain copy

print?

<property>
<name>dfs.ha.automatic-failover.enabledname>
<value>truevalue>
property>

在core-site.xml文�g中添加下面的参数�Q�该参数的��gؓZooKeeper服务器的地址�Q�ZKFC��用该地址�?/p>

[html] view plain copy

print?

<property>
<name>ha.zookeeper.quorumname> <value>zk1.example.com:2181,zk2.example.com:2181,zk3.example.com:2181value>
property>

在HA或者HDFS联盟中，上面的两个参数还需要以NameServiceID为后�~��Q�比如dfs.ha.automatic-failover.enabled.mycluster。除了上面的两个参数外，�q�有其它几个参数用于自动故障转移�Q�比如ha.zookeeper.session-timeout.ms�Q�但对于大多数安装来说都不是必须的�?/p>

在添加了上述的配�|�参数后�Q�下一步就是在ZooKeeper中初始化要求的状态，可以在�Q一NameNode中运行下面的命��o实现该目的，该命令将在ZooKeeper中创建znode�Q?/p>

[java] view plain copy

print?

$ hdfs zkfc -formatZK

在启用自动故障�{�Uȝ��集群中，start-dfs.sh脚本��在��M��q�行NameNode的主��Z��自动启动ZKFC守护�q�程�Q�一旦ZKFC启动完毕�Q�它们将自动选择一个NameNode为现役NameNode。如果手动管理集��中的服务，需要在每台�q�行NameNode的主��Z��手动启动ZKFC�Q�命令�ؓ�Q?/p>

[java] view plain copy

print?

hadoop-daemon.sh start zkfc
hdfs zkfc

如果正在�q�行一个安全的集群�Q�可能想��保存储在ZooKeeper中的信息也是安全的，�q�将��L��恶意的客��L��修改ZooKeeper中的元数据或者潜在地触发一个错误的故障转移。�ؓ了保护ZooKeeper中的信息�Q�首先在core-site.xml中添加下面的参数�Q?/p>

[html] view plain copy

print?

<property>
<name>ha.zookeeper.authname>
<value>@/path/to/zk-auth.txtvalue>
property>
<property>
<name>ha.zookeeper.aclname>
<value>@/path/to/zk-acl.txtvalue>
property>

参数��g��的@字符表示参数��g��存在@后的��盘文�g中。第一个配�|�文件指定了ZooKeeper的认证列表，其格式与ZK CLI使用的相同，例如�Q�digest:hdfs-zkfcs:mypassword�Q�其中hdfs-zkfcs为ZooKeeper的用户名�Q�mypassword为密码。其�ơ��用下面的命��o��认证生成一个ZooKeeper讉K��控制列表�Q?/p>

[java] view plain copy

print?

$ java -cp $ZK_HOME/lib/*:$ZK_HOME/zookeeper-3.4.2.jar org.apache.zookeeper.server.auth.DigestAuthenticationProvider hdfs-zkfcs:mypassword
output: hdfs-zkfcs:mypassword->hdfs-zkfcs:P/OQvnYyU/nF/mGYvB/xurX8dYs=

拯��->之后的字�W�串�q�添加digest:前缀�Q�然后粘贴到zk-acls.txt中，例如�Q�digest:hdfs-zkfcs:vlUvLnd8MlacsE80rDuu6ONESbM=:rwcda。要想��ACLs生效�Q�需要再�ơ运行zkfc –formatZK。最后可能像下面�q�样在ZK CLI中验证ACLs�Q?/p>

[java] view plain copy

print?

[zk: localhost:2181(CONNECTED) 1] getAcl /hadoop-ha
'digest,'hdfs-zkfcs:vlUvLnd8MlacsE80rDuu6ONESbM=
: cdrwa

在安装完成自动故障�{�U�d��Q�或讔R��?a title="软�g��试知识�? target="_blank" style="color: #df3434; text-decoration: none; font-weight: bold;">��试一下。首先定位现役NameNode�Q�可以通过讉K��NameNode的web��面来确定哪个NameNode是active状态的。一旦确定了处于active状态的NameNode�Q�就需要在该节点上刉��点故障�Q�比如��用命令kill -9 模拟JVM崩溃�Q�或重启��L��或拔掉网�U�来模拟不同的中断。一旦触发了自动故障转移�Q�另一个NameNode应该自动在几�U�钟内变为active状态。检��到故障�q�触发故障�{�Uȝ��参数ha.zookeeper.session-timeout.ms控制�Q�该参数��Z��core-site.xml中，默认�?�U�。如果测试不成功�Q�可能是配置问题�Q�检查ZKFC和NameNode�q�程的日志以�q�一步诊断问题，通常错误都是很明昄��?/p>

鸉K�� 2017-08-13 18:49 发表评论

Yarn 调度器Scheduler详解

鸉K�� — Fri, 04 Aug 2017 16:35:00 GMT

理想情况下，我们应用对Yarn资源的请求应该立��d��到满��I��但现实情况资源往往是有限的�Q�特别是在一个很�J�忙的集��，一个应用资源的��h��l�常需要等待一�D�|��间才能的到相应的资源。在Yarn中，负责�l�应用分配资源的��是Scheduler。其实调度本�w�就是一个难题，很难扑ֈ�一个完��的�{�略可以解决所有的应用场景。�ؓ此，Yarn提供了多�U�调度器和可配置的策略供我们选择�?/p>

一、调度器的选择

在Yarn中有三种调度器可以选择�Q?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">FIFO Scheduler �Q?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">Capacity Scheduler�Q?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">FairS cheduler�?/p>

FIFO Scheduler把应用按提交的顺序排成一个队列，�q�是一个先�q�先出队列，在进行资源分配的时候，先给队列中最头上的应用进行分配资源，待最头上的应用需求满��_��再给下一个分配，以此�c�L��?/p>

FIFO Scheduler是最��单也是最�Ҏ��理解的调度器�Q�也不需要�Q何配�|�，但它�q�不适用于共享集��。大的应用可能会占用所有集��资源，�q�就��D��其它应用被阻塞。在�׃�n集群中，更适合采用Capacity Scheduler�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">Fair Scheduler�Q�这两个调度器都允许大�Q务和��Q务在提交的同时获得一定的�pȝ��资源�?/p>

下面“Yarn调度器对比图”展示了这几个调度器的区别�Q�从图中可以看出�Q�在FIFO 调度器中�Q�小��d��会被大�Q务阻塞�?/p>

而对于Capacity调度器，有一个专门的队列用来�q�行��Q务，但是为小��d��专门讄��一个队列会预先占用一定的集群资源�Q�这��导致大��d��的执行时间会落后于��用FIFO调度器时的时间�?/p>

在Fair调度器中�Q�我们不需要预先占用一定的�pȝ��资源�Q�Fair调度器会为所有运行的job动态的调整�pȝ��资源。如下图所�C�，当第一个大job提交�Ӟ��只有�q�一个job在运行，此时它获得了所有集��资源；当第二个��Q务提交后�Q�Fair调度器会分配一半资源给�q�个��Q务，让这两个��d��公��^的共享集��资源�?/p>

需要注意的是，在下图Fair调度器中�Q�从�W�二个�Q务提交到获得资源会有一定的延迟�Q�因为它需要等待第一个�Q务释攑֍�用的Container。小��d��执行完成之后也会释放自己占用的资源，大�Q务又获得了全部的�pȝ��资源。最�l�的效果��是Fair调度器即得到了高的资源利用率又能保证��Q务及时完成�?/p>

Yarn调度器对比图:

二、Capacity Scheduler�Q�容器调度器�Q�的配置

2.1 容器调度介绍

Capacity 调度器允许多个组�l�共享整个集��，每个�l�织可以获得集群的一部分计算能力。通过为每个组�l�分配专门的队列�Q�然后再为每个队列分配一定的集群资源�Q�这��h��个集��就可以通过讄��多个队列的方式给多个�l�织提供服务了。除此之外，队列内部又可以垂直划分，�q�样一个组�l�内部的多个成员��可以共享这个队列资源了�Q�在一个队列内部，资源的调度是采用的是先进先出(FIFO)�{�略�?/p>

通过上面那幅图，我们已经知道一个job可能使用不了整个队列的资源。然而如果这个队列中�q�行多个job�Q�如果这个队列的资源够用�Q�那么就分配�l�这些job�Q�如果这个队列的资源不够用了呢？其实Capacity调度器仍可能分配额外的资源给�q�个队列�Q�这��是“�Ҏ��队�?#8221;(queue elasticity)的概��c�?/p>

在正常的操作中，Capacity调度器不会强刉��放Container�Q�当一个队列资源不够用�Ӟ��q�个队列只能获得其它队列释放后的Container资源。当�Ӟ��我们可以为队列设�|�一个最大资源��用量�Q�以免这个队列过多的占用�I�闲资源�Q�导致其它队列无法��用这些空闲资源，�q�就�?#8221;�Ҏ��队�?#8221;需要权衡的地方�?/p>

2.2 容器调度的配�|?/h3>

假设我们有如下层�ơ的队列�Q?/p>

root ├── prod └── dev     ├── eng     └── science

下面是一个简单的Capacity调度器的配置文�g�Q�文件名�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">capacity-scheduler.xml。在�q�个配置中，在root队列下面定义了两个子队列prod�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">dev�Q�分别占40%�?0%的容量。需要注意，一个队列的配置是通过属�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">yarn.sheduler.capacity..指定的，代表的是队列的��承树�Q�如root.prod队列�Q?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">一般指capacity�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">maximum-capacity�?/p>

我们可以看到�Q?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">dev队列又被分成�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">eng�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">science两个相同定w��的子队列�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">dev�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">maximum-capacity属性被讄��成了75%�Q�所以即�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">prod队列完全�I�闲dev也不会占用全部集��资源，也就是说�Q?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">prod队列仍有25%的可用资源用来应急。我们注意到�Q?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">eng�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">science两个队列没有讄��maximum-capacity属性，也就是说eng�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">science队列中的job可能会用到整�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">dev队列的所有资源（最多�ؓ集群�?5%�Q�。而类似的�Q?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">prod�׃��没有讄��maximum-capacity属性，它有可能会占用集��全部资源�?/p>

Capacity容器除了可以配置队列及其定w��外，我们�q�可以配�|�一个用��h��应用可以分配的最大资源数量、可以同时运行多��应用、队列的ACL认证�{��?/p>

2.3 队列的设�|?/h3>
关于队列的设�|�，�q�取决于我们具体的应用。比如，在MapReduce中，我们可以通过`mapreduce.job.queuename`属性指定要用的队列。如果队列不存在�Q�我们在提交��d��时就会收到错误。如果我们没有定义�Q何队列，所有的应用��会攑֜�一�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">default队列中�?/p>
注意�Q�对于Capacity调度器，我们的队列名必须是队列树中的最后一部分�Q�如果我们��用队列树则不会被识别。比如，在上面配�|�中�Q�我们��?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">prod�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">eng作�ؓ队列名是可以的，但是如果我们�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">root.dev.eng或�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">dev.eng是无效的�?/p>

三、Fair Scheduler�Q�公�q��度器�Q�的配置

3.1 公��^调度

Fair调度器的设计目标是�ؓ所有的应用分配公��^的资源（对公�q�的定义可以通过参数来设�|�）。在上面�?em style="padding: 0px;">“Yarn调度器对比图”展示了一个队列中两个应用的公�q��度；当然�Q�公�q��度在也可以在多个队列间工作。�D个例子，假设有两个用户A和B�Q�他们分别拥有一个队列。当A启动一个job而B没有��d��Ӟ��A会获得全部集��资源；当B启动一个job后，A的job会��l�运行，不过一会儿之后两个��d��会各自获得一半的集群资源。如果此时B再启动第二个job�q�且其它job�q�在�q�行�Q�则它将会和B的第一个job�׃�nB�q�个队列的资源，也就是B的两个job会用于四分之一的集��资源，而A的job仍然用于集群一半的资源�Q�结果就是资源最�l�在两个用户之间�q�等的共享。过�E�如下图所�C�：

3.2 启用Fair Scheduler

调度器的使用是通过yarn-site.xml配置文�g中的yarn.resourcemanager.scheduler.class参数�q�行配置的，默认采用Capacity Scheduler调度器。如果我们要使用Fair调度器，需要在�q�个参数上配�|�FairScheduler�cȝ��全限定名�Q?nbsp;org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler�?/p>

3.3 队列的配�|?/h3>
Fair调度器的配置文�g位于�c��\径下�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">fair-scheduler.xml文�g中，�q�个路径可以通过`yarn.scheduler.fair.allocation.file`属性进行修攏V��若没有�q�个配置文�g�Q�Fair调度器采用的分配�{�略�Q�这个策略和3.1节介�l�的�c�M��Q�调度器会在用户提交�W�一个应用时为其自动创徏一个队列，队列的名字就是用户名�Q�所有的应用都会被分配到相应的用户队列中�?/p>
我们可以在配�|�文件中配置每一个队列，�q�且可以像Capacity 调度器一样分层次配置队列。比如，参�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">capacity-scheduler.xml来配�|�fair-scheduler�Q?nbsp;
队列的层�ơ是通过嵌套元素实现的。所有的队列都是`root`队列的孩子，即��我们没有配到元素里。在�q�个配置中，我们�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">dev队列有分成了`eng`�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">science两个队列�?/p>
Fair调度器中的队列有一个权重属性（�q�个权重��是对公�q�的定义�Q�，�q�把�q�个属性作为公�q��度的依据。在�q�个例子中，当调度器分配集群`40:60`资源�l?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">prod�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">dev时便视作公��^�Q?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">eng�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">science队列没有定义权重�Q�则会被�q�_��分配。这里的权重�q�不是百分比�Q�我们把上面�?0�?0分别替换�?�?�Q�效果也是一��L��。注意，对于在没有配�|�文件时按用戯��动创建的队列�Q�它们仍有权重�ƈ且权重��gؓ1�?/p>
每个队列内部仍可以有不同的调度策略。队列的默认调度�{�略可以通过��元素�q�行配置�Q�如果没有配�|�，默认采用公��^调度�?/p>
��管是Fair调度器，其仍支持在队列��别进行FIFO调度。每个队列的调度�{�略可以被其内部�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;"> 元素覆盖�Q�在上面�q�个例子中，`prod`队列��p��指定采用FIFO�q�行调度�Q�所以，对于提交�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">prod队列的�Q务就可以按照FIFO规则��序的执行了。需要注意，`prod`�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">dev之间的调度仍然是公��^调度�Q�同�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">eng�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">science也是公��^调度�?/p>
��管上面的配�|�中没有展示�Q�每个队列仍可配�|�最大、最��资源占用数和最大可�q�行的应用的数量�?/p>

3.4 队列的设�|?/h3>

Fair调度器采用了一套基于规则的�pȝ��来确定应用应该放到哪个队列。在上面的例子中�Q?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;"> 元素定义了一个规则列表，其中的每个规则会被逐个��试直到匚w��成功。例如，上例�W�一个规�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">specified�Q�则会把应用攑ֈ�它指定的队列中，若这个应用没有指定队列名或队列名不存在，则说明不匚w��q�个规则�Q�然后尝试下一个规则�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">primaryGroup规则会尝试把应用攑֜��?em style="padding: 0px;">用户所在的Unix�l�名命名的队列中�Q�如果没有这个队列，不创建队列�{而尝试下一个规则。当前面所有规则不满��Ӟ��则触�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">default规则�Q�把应用攑֜�dev.eng队列中�?/p>

当然�Q�我们可以不配置queuePlacementPolicy规则�Q�调度器则默认采用如下规则：

上面规则可以归结成一句话�Q�除非队列被准确的定义，否则会以用户名�ؓ队列名创建队列�?/p>

�q�有一个简单的配置�{�略可以使得所有的应用攑օ�同一个队列（default�Q�，�q�样��可以让所有应用之间��^�{�共享集��而不是在用户之间。这个配�|�的定义如下�Q?/p>

实现上面功能我们�q�可以不使用配置文�g�Q�直接设�|?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">yarn.scheduler.fair.user-as-default-queue=false�Q�这样应用便会被攑օ�default 队列�Q�而不是各个用户名队列。另外，我们�q�可以设�|?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">yarn.scheduler.fair.allow-undeclared-pools=false�Q�这��L��户就无法创徏队列了�?/p>

3.5 抢占�Q�Preemption�Q?/h3>

当一个job提交��C��个繁忙集��中的空队列�Ӟ��job�q�不会马上执行，而是��d��直到正在�q�行的job释放�pȝ��资源。�ؓ了��提交job的执行时间更具预��性（可以讄��{�待的超时时��_��Q�Fair调度器支持抢占�?/p>

抢占��是允许调度器杀掉占用超�q�其应占份额资源队列的containers�Q�这些containers资源便可被分配到应该享有�q�些份额资源的队列中。需要注意抢占会降低集群的执行效率，因�ؓ被终止的containers需要被重新执行�?/p>

可以通过讄��一个全局的参�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">yarn.scheduler.fair.preemption=true来启用抢占功能。此外，�q�有两个参数用来控制抢占的过期时��_��q�两个参数默认没有配�|�，需要至��配�|�一个来允许抢占Container�Q�：

- minimum share preemption timeout - fair share preemption timeout

如果队列�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">minimum share preemption timeout指定的时间内未获得最��的资源保障�Q�调度器��׃��抢占containers。我们可以通过配置文�g中的��元素为所有队列配�|�这个超时时��_��我们�q�可以在元素内配�|?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">元素来�ؓ某个队列指定��时旉��?/p>

与之�c�M��Q�如果队列在fair share preemption timeout指定旉��内未获得�q�等的资源的一半（�q�个比例可以配置�Q�，调度器则会进行抢占containers。这个超时时间可以通过��元素和元素��元素分别配置所有队列和某个队列的超时时间。上面提到的比例可以通过(配置所有队�?�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">(配置某个队列)�q�行配置�Q�默认是0.5�?/p>

鸉K�� 2017-08-05 00:35 发表评论

hive大数据倾斜�ȝ��

鸉K�� — Mon, 31 Jul 2017 11:57:00 GMT

在做Shuffle阶段的优化过�E�中�Q�遇��C��数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因�ؓ在Job完成后的所得到的Counters是整个Job的��d��Q�优化是��Z��q�些Counters得出的��^均��|��而由于数据倾斜的原因造成map处理数据量的差异�q�大�Q��得这些��^均��D��代表的�h值降低。Hive的执行是分阶�D늚��Q�map处理数据量的差异取决于上一个stage的reduce输出�Q�所以如何将数据均匀的分配到各个reduce中，��是解决数据倾斜的根本所在。规遉K��误来更好的运行比解决错误更高效。在查看了一些资料后�Q��ȝ��如下�?/p>

1数据倾斜的原�?/strong>

1.1操作�Q?/strong>

关键�?/strong>	情�Ş	后果
Join	其中一个表较小�Q?/p> 但是key集中	分发到某一个或几个Reduce上的数据�q�高于��^均�?/p>
Join	大表与大表，但是分桶的判断字�D?值或�I��D��?/p>	�q�些�I�值都�׃��个reduce处理�Q�灰常慢
group by	group by �l�度�q�小�Q?/p> 某值的数量�q�多	处理某值的reduce灰常耗时
Count Distinct	某特�D��D��?/p>	处理此特�D�值的reduce耗时

1.2原因�Q?/strong>

1)、key分布不均匀

2)、业务数据本�w�的�Ҏ�?/p>

3)、徏表时考虑不周

4)、某些SQL语句本��n��有数据倾斜

1.3表现�Q?/strong>

��d��q�度长时间维持在99%�Q�或100%�Q�，查看��d��监控��面�Q�发现只有少量（1个或几个�Q�reduce子�Q务未完成。因为其处理的数据量和其他reduce差异�q�大�?/p>

单一reduce的记录数与��^均记录数差异�q�大�Q�通常可能辑ֈ�3倍甚��x��多�?最长时长远大于�q�_��旉��?/p>

2数据倾斜的解��x��?/strong>

2.1参数调节�Q?/strong>

hive.map.aggr=true

Map 端部分聚合，相当于Combiner

hive.groupby.skewindata=true

有数据倾斜的时候进行负载均衡，当选项讑֮��?true�Q�生成的查询计划会有两个 MR Job。第一�?MR Job 中，Map 的输出结果集合会随机分布�?Reduce 中，每个 Reduce 做部分聚合操作，�q�输出结果，�q�样处理的结果是相同�?Group By Key 有可能被分发��C��同的 Reduce 中，从而达到负载均衡的目的�Q�第二个 MR Job 再根据预处理的数据结果按�?Group By Key 分布�?Reduce 中（�q�个�q�程可以保证相同�?Group By Key 被分布到同一�?Reduce 中）�Q�最后完成最�l�的聚合操作�?/p>

2.2 SQL语句调节�Q?/strong>

如何Join�Q?/strong>

关于驱动表的选取�Q�选用join key分布最均匀的表作�ؓ驱动�?/p>

做好列裁剪和filter操作�Q�以辑ֈ�两表做join的时候，数据量相对变��的效果�?/p>

大小�?/strong>Join�Q?/strong>

使用map join让小的维度表�Q?000条以下的记录条数�Q?先进内存。在map端完成reduce.

大表Join大表�Q?/strong>

把空值的key变成一个字�W�串加上随机敎ͼ�把倾斜的数据分��C��同的reduce上，�׃��null值关联不上，处理后�ƈ不媄响最�l�结果�?/p>

count distinct大量相同�Ҏ��?/strong>

count distinct�Ӟ��gؓ�I�的情况单独处理�Q�如果是计算count distinct�Q�可以不用处理，直接�q��o�Q�在最后结果中�?。如果还有其他计��，需要进行group by�Q�可以先��gؓ�I�的记录单独处理�Q�再和其他计��结果进行union�?/p>

group by�l�度�q�小�Q?/strong>

采用sum() group by的方式来替换count(distinct)完成计算�?/p>

�Ҏ��情况�Ҏ��处理�Q?/strong>

在业务逻辑优化效果的不大情况下�Q�有些时候是可以��倾斜的数据单独拿出来处理。最后union回去�?/p>

3典型的业务场�?/strong>

3.1�I��g�生的数据倾斜

场景�Q?/strong>如日志中�Q�常会有信息丢失的问题，比如日志中的 user_id�Q�如果取其中�?user_id �?用户表中的user_id 兌��Q�会��到数据倾斜的问题�?/p>

解决�Ҏ��1�Q?/strong> user_id为空的不参与兌��Q�红色字体�ؓ修改后）

select * from log a   join users b   on a.user_id is not null   and a.user_id = b.user_id union all select * from log a   where a.user_id is null;

解决�Ҏ��2 �Q?/strong>赋与�I�值分新的key�?/p>

select *   from log a   left outer join users b   on case when a.user_id is null then concat(‘hive’,rand() ) else a.user_id end = b.user_id;

�l�论�Q?/strong>�Ҏ��2比方�?效率更好�Q�不但io��了�Q�而且作业��C��了。解��x��?�?log��d��两次�Q�jobs�?。解��x��? job数是1 。这个优化适合无效 id (比如 -99 , ’’, null �{? 产生的倾斜问题。把�I�值的 key 变成一个字�W�串加上随机敎ͼ��p��把倾斜的数据分��C��同的reduce�?,解决数据倾斜问题�?/p>

3.2不同数据�c�d��兌��产生数据倾斜

场景�Q?/strong>用户表中user_id字段为int�Q�log表中user_id字段既有string�c�d��也有int�c�d��。当按照user_id�q�行两个表的Join操作�Ӟ��默认的Hash操作会按int型的id来进行分配，�q�样会导致所有string�c�d��id的记录都分配��C��个Reducer中�?/p>

解决�Ҏ��Q?/strong>把数字类型�{换成字符串类�?/p>

select * from users a   left outer join logs b   on a.usr_id = cast(b.user_id as string)

3.3��表不小不大�Q�怎么�?map join 解决倾斜问题

使用 map join 解决��表(记录数少)兌��大表的数据倾斜问题�Q�这个方法��用的频率非常高，但如果小表很大，大到map join会出现bug或异常，�q�时��需要特别的处理�?nbsp;以下例子:

select * from log a   left outer join users b   on a.user_id = b.user_id;

users 表有 600w+ 的记录，�?users 分发到所有的 map 上也是个不小的开销�Q�而且 map join 不支持这么大的小表。如果用普通的 join�Q�又会碰到数据倾斜的问题�?/p>

解决�Ҏ��Q?/strong>

select /*+mapjoin(x)*/* from log a   
left outer join (     
select  /*+mapjoin(c)*/d.*  from ( 
select distinct user_id from log ) c  join users d       
on c.user_id = d.user_id     ) x   
on a.user_id = b.user_id;

假如�Q�log里user_id有上百万个，�q�就又回到原来map join问题。所�q�，每日的会员uv不会太多�Q�有交易的会员不会太多，有点�ȝ��会员不会太多�Q�有佣金的会员不会太多等�{�。所以这个方法能解决很多场景下的数据倾斜问题�?/p>

4�ȝ��

使map的输出数据更均匀的分布到reduce中去�Q�是我们的最�l�目标。由于Hash��法的局限性，按key Hash会或多或��的造成数据倾斜。大量经验表明数据倾斜的原因是��Zؓ的徏表疏忽或业务逻辑可以规避的。在此给��为通用的步骤：

1、采样log表，哪些user_id比较倾斜�Q�得��C��个结果表tmp1。由于对计算框架来说�Q�所有的数据�q�来�Q�他都是不知道数据分布情�늚��Q�所以采��h��q�不可少的�?/p>

2、数据的分布�W�合�C�会学统计规则，贫富不均。倾斜的key不会太多�Q�就像一个社会的富�h不多�Q�奇特的��Z��多一栗��所以tmp1记录��C��很少。把tmp1和users做map join生成tmp2,把tmp2��d��distribute file cache。这是一个map�q�程�?/p>

3、map��d��users和log�Q�假如记录来自log,则检查user_id是否在tmp2里，如果是，输出到本地文件a,否则生成的key,value对，假如记录来自member,生成的key,value对，�q�入reduce阶段�?/p>

4、最�l�把a文�g�Q�把Stage3 reduce阶段输出的文件合�q��v写到hdfs�?/p>

如果��认业务需要这样倾斜的逻辑�Q�考虑以下的优化方案：

1、对于join�Q�在判断��表不大�?G的情况下�Q��用map join

2、对于group by或distinct�Q�设�?nbsp;hive.groupby.skewindata=true

3、尽量��用上�q�的SQL语句调节�q�行优化

鸉K�� 2017-07-31 19:57 发表评论

Hive性能调优

鸉K�� — Sun, 30 Jul 2017 05:52:00 GMT
Hive的一般学习者和培训者在谈性能优化的时候一般都会从语法和参数这些雕虫小技的角度谈优化,而不会革命性的优化Hive的性能,产生�q�种现象的原因有:
1,历史原因和思维定势:大家学习SQL的时候一般都是就单机DB,�q�个时候你的性能优化技巧确实主要是SQL语法和参数调�?
2,Hive的核心的性能问题往往是��生在��过规模数据�?例如�?00亿条�U�别的数据集,以及每天处理上千上万个Hive作业的情况下产生�?

上面的第二点是我们现在Hive性能调优部分要彻底解决的内容;

要从�Ҏ��上解军_��显著的解军_��际企业中Hive真正的性能优化问题,必须考虑到底什么是Hive性能的限�?我们按照优先�U�来�?
�W�一重要的是:战略性架�?/span>
解决��量数据下大量Job�q�于频繁的IO问题,而这个问题实质上涉及了架构方面的分表数据复用以及分区表等调优的方�?
   补充:1,��量的数据中有些数据是高频��用的数据,而有些是很少使用�?如果能够分离成�ؓ不同的表,会极大的提升效率;很多的作业可能会有共同点,抽离出来先进行计��ƈ保留计算�l�果,后面的作业都可以复用;同时,底层的基��功能
也可以先计算,在上层应用的时候直接拿数据�l�果,而不是每�ơ都重复计算;
   2,合理从用静态分��和动态分��,可以避免数据全局扫描及计��资源更合理的利�?

   3,数据倾斜的一站式解决�Ҏ��;
�W�二重要的是:引擎和物理层�?很多内容都是普通Hive使用�q�不知道�?
   从Hive语法和Job内部的角度去�q�行优化,�q�要求MapReduce以及Hive如何被翻译成为MapReduce要非常精�?

�W�三重要的是:一些关键的参数;

归根到底,Hive的性能优化主要考虑的是如何最大化和最有效的��用CPU Memory IO;

Hive背后的Mapper调优:
1,Mapper数过�?会��生大量小文�g,�׃��Mapper是基于虚拟机�?�q�多的Mapper创徏和初始化及关闭虚拟机都会消耗大量的��g资源;
   Mapper数太��?�q�发度过��?Job执行旉��q�长,无法充分利用分布式硬件资�?
2,Mapper数据�׃��么决定呢?
   输入文�g数目;
   输入文�g的大��?
   配置参数;
默认情况�?例如一个文�?00M,BLock大小�?28M,那么Mapper数目��是7�?6个Mapper处理的数据是 128M, 1个Mapper处理的数据是32M;再例�?一个目录下有三个文件分别大��问5M 10M 150M
此时会��?个Mapper,处理的数据分别是5M 10M 128M 22M;

减少Mapper的个�?��p��合�ƈ��文�?�q�种��文件有可能是直接来自于数据源的��文�?也可能是Reducer产生的小文�g;
   set hive.input.format=org.apache.Hadoop.hive.ql.io.CombineHiveInputFormat;
   set hive.merge.mapFiles=true;
   set hive.merge.mapredFiles=true;
   set hive.merge.size.per.task=256000000
   set mapred.max.split.size=256000000
   set mapred.min.split.size.per.node=128000000


增加Mapper的个�?一般是通过控制Hive SQL中上一个Job的Reducer个数来控制的,例如在Join操作的时候会把多个表分解为多个Job;

set mapred.map.tasks=2;
set hive.merge.mapFiles=true;
set hive.merge.mapredFiles=true;
set hive.merge.size.per.task=256000000

例如我们�?�?00M的文�?按照上面的配�|�会产生10个Mapper,5个Mapper处理的都�?56M的数�?另外5个Mapper处理的都�?4M的数�?问题�?大的Mapper会数据倾斜
如何解决,讄��set mapred.map.tasks=6,此时�Ҏ��MapRed的运行机�?会划�?个Mapper,每个Mapper的处理数据的大小�?50M, min(1500M/6, 256M) =250M

Hive背后的Reducer调优:
1,Reducer数目�q�大的话,会��生很多小文�g,每个Reducer都会产生一个文�?如果�q�些��文件是下一个JOB的输�?则会需要对��文件进行合�q?同样启动初始化和销毁Reducer的虚拟机也需要消耗大量的��g;
Reducer数据�q�小的话,Reduce的时间会比较�?也可能会出现数据倾斜;
2,如何控制Reducer的个数呢?
set hive.exec.reducers.byte.per.reducer=1G
set hive.exec.reducers.max=999
Reducer个数=min(999, Reducer的数据输入总量/1G);

set mapred.reduce.tasks = 10, 默认�?; 如果说当前的Reducer的结果很�?且被接下来多个Job使用其结�?我们该如何设�|�参数呢?一般都需要调大该参数;

什么情况下只有一个Reducer?如果不进行Group by但却需要汇�?或者说Order by,当然如果最后Reducer的数据小于默认的1G的话,也会只有一个Reducer;

1,Hive在分布式�q�行的时候最��x��的是数据倾斜,�q�是�׃��分布式系�l�的�Ҏ��决定的,因�ؓ分布式系�l�之所以很快是�׃��作业�q�_��分配�l�了不同的节�?不同节点同心协力,从而达到更快处理完作业的目�?
��Z��说明一�?处理数据倾斜的能力是hadoop�?a title="Apache Spark知识�? target="_blank" style="text-decoration: none; color: #df3434; font-weight: bold;">Spark工程师最核心的竞争力之一;

2,Hive中数据倾斜的原�?
   数据在分布式节点上分布不�q��;
   join时某些key可能特别�?
   groupBy的时候某个Key可能特别�?
   count(distinct)有可能出现数据倾斜,因�ؓ其内部首先会�q�行groupBy操作;

3,join,我们希望join时候key是分�?如果一个key的数据量特别�?有可能会出现数据倾斜和OOM,一个核心点�?��表join大表,在reduce阶段左侧的小表会加蝲�q�内�?减少OOM的风�?
4,大表join大表的情�?数据倾斜,例如null�?解决办法一般是要打散null�?例如说��用随机数�{?如果数据倾斜比较严重,采用�q�种方式可以提升臛_��一倍的速度;
5,mapJoin:��表join(��?大表的时�?可以采用mapJoin的方式把��表全部加蝲到Mapper端的内存�?*+MAPJOIN(table_name)*/;
6,��表join(��?大表的时�?是否会自动进行mapJoin,惌��行mapJoin,需要设�|?set hive.auto.convert.join=true,Hive在进行join的时候会判断左表的大��来军_��是否�q�行mapJoin:
   set hive.mapjoin.smalltable.filesize=128000000;
   set hive.mapjoin.cache.numrows=100000;
   上述参数可以�Ҏ��实际的硬件机器的内存�q�行调整,�Ҏ��能有至关重要的影响,因�ؓ没有了Shuffle;
对于mapJoin我们能够使用Mapper端JVM中多大的内存�?
   set hive.mapjoin.followby.gby.localtask.max.momery.usage = 0.8
   set hive.mapjoin.localtask.max.memory.uage=0.9
7,groupBy,我们可以讄��在Mapper端进行部分聚�?最后在Reducer端进行全局聚合
   set hive.map.aggr=true;
   set hive.groupby.mapaggr.checkinterval=100000

   set hive.groupby.skewindata = true 内部会��生两个Job,�W�一个Job会通过自己�?a title="��法与数据结构知识库" target="_blank" style="text-decoration: none; color: #df3434; font-weight: bold;">��法打散倾斜的Key�q�进行聚合操作且保留�l�果,�W�二个Job会完成全部的groupBy操作,会��生Mapper-Reducer-Reducer的结�?br data-filtered="filtered" />
8, count(distinct),如果某个字段特别�?�Ҏ��产生数据倾斜,解决思�\:
   在查询语句中例如对null�q�行�q��o,在结果中�?

9, �W�卡��积:join时候没有on条�g,或者on条�g无效,�q�个时候会使用Reducer�q�行�W�卡��积的操�?

鸉K�� 2017-07-30 13:52 发表评论

HIVE和HBASE区别

鸉K�� — Fri, 21 Jul 2017 03:44:00 GMT

1. 两者分别是什么？

Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一�U�类SQL语言�Q�这�U�语�a�最�l�被转化为Map/Reduce. 虽然Hive提供了SQL查询功能�Q�但是Hive不能够进行交互查�?-因�ؓ它只能够在Haoop上批量的执行Hadoop�?/p>
    Apache HBase是一�U�Key/Value�pȝ��Q�它�q�行在HDFS之上。和Hive不一��P��Hbase的能够在它的数据库上实时�q�行�Q�而不是运行MapReduce��d��。Hive被分��Zؓ表格�Q�表格又被进一步分割�ؓ列簇。列��必��M��用schema定义�Q�列��将某一�c�d��列集合�v来（列不要求schema定义�Q�。例如，“message”列簇可能包含�Q?#8220;to”, ”from” “date”, “subject”, �?#8221;body”. 每一�?key/value对在Hbase中被定义��Z��个cell�Q�每一个key由row-key�Q�列��、列和时间戳。在Hbase中，行是key/value映射的集合，�q�个映射通过row-key来唯一标识。Hbase利用Hadoop的基��设施�Q�可以利用通用的设备进行水�q�的扩展�?/p>
2. 两者的特点

  Hive帮助熟悉SQL的�h�q�行MapReduce��d��。因为它是JDBC兼容的，同时�Q�它也能够和现存的SQL工具整合在一赗��运行Hive查询会花费很长时��_��因�ؓ它会默认遍历表中所有的数据。虽然有�q�样的缺点，一�ơ遍历的数据量可以通过Hive的分区机制来控制。分区允许在数据集上�q�行�q��o查询�Q�这些数据集存储在不同的文�g夹内�Q�查询的时候只遍历指定文�g夹（分区�Q�中的数据。这�U�机制可以用来，例如�Q�只处理在某一个时间范围内的文�Ӟ��只要�q�些文�g名中包括了时间格式�?/p>
    HBase通过存储key/value来工作。它支持四种主要的操作：增加或者更新行�Q�查看一个范围内的cell�Q�获取指定的行，删除指定的行、列或者是列的版本。版本信息用来获取历史数据（每一行的历史数据可以被删除，然后通过Hbase compactions��可以释攑և��I�间�Q�。虽然HBase包括表格�Q�但是schema仅仅被表格和列簇所要求�Q�列不需要schema。Hbase的表格包括增�?计数功能�?/p>
3. 限制

Hive目前不支持更新操作。另外，�׃��hive在hadoop上运行批量操作，它需要花费很长的旉��Q�通常是几分钟到几个小时才可以获取到查询的�l�果。Hive必须提供预先定义好的schema��文件和目录映射到列�Q��ƈ且Hive与ACID不兼宏V�?/p>
    HBase查询是通过特定的语�a�来编写的�Q�这�U�语�a�需要重新学习。类SQL的功能可以通过Apache Phonenix实现�Q�但�q�是以必��L��供schema��Z��L��。另外，Hbase也�ƈ不是兼容所有的ACID�Ҏ��，虽然它支持某些特性。最后但不是最重要�?-��Z��q�行Hbase�Q?font style="padding-bottom: 0px; padding-top: 0px; padding-left: 0px; margin: 0px; padding-right: 0px" color="#0000ff">Zookeeper是必��ȝ��Q�zookeeper是一个用来进行分布式协调的服务，�q�些服务包括配置服务�Q�维护元信息和命名空间服务�?/p>
4. 应用场景

    Hive适合用来对一�D�|��间内的数据进行分析查询，例如�Q�用来计��趋势或者网站的日志。Hive不应该用来进行实时的查询。因为它需要很长时间才可以�q�回�l�果�?/p>
    Hbase非常适合用来�q�行大数据的实时查询。Facebook用Hbase�q�行消息和实时的分析。它也可以用来统计Facebook的连接数�?/p>
5. �ȝ��

    Hive和Hbase是两�U�基于Hadoop的不同技�?-Hive是一�U�类SQL的引擎，�q�且�q�行MapReduce��d��Q�Hbase是一�U�在Hadoop之上的NoSQL 的Key/vale数据库。当�Ӟ��q�两�U�工��h��可以同时使用的。就像用Google来搜索，用FaceBook�q�行�C�交一��P��Hive可以用来�q�行�l�计查询�Q�HBase可以用来�q�行实时查询�Q�数据也可以从Hive写到Hbase�Q�设�|�再从Hbase写回Hive�?/p>

鸉K�� 2017-07-21 11:44 发表评论

Hive分布式安装配�|�Hive+Mysql

鸉K�� — Thu, 20 Jul 2017 07:20:00 GMT
     摘要: 目录 1�Q�环境准�?nbsp;2�Q�安装Hive和配�|�环境变�?nbsp;3�Q�安装MySQL 4�Q�在mysql上创建hive元数据库�Q��ƈ对hive�q�行授权 5�Q�安装jar包到hive 6�Q�配�|�hive-site.xml 7�Q�元数据存储初始�?nbsp;8�Q�启动验证hive 9�Q�报错及解决�Ҏ�� 1�Q�环境准备：准备好Hadoop集群�Q�参�?..  阅读全文

鸉K�� 2017-07-20 15:20 发表评论

TCP/UDP区别以及UDP如何实现可靠传输

鸉K�� — Wed, 19 Jul 2017 14:25:00 GMT

TCP和UDP是OSI模型中的�q�输层中的协议。TCP提供可靠的通信传输�Q�而UDP则常被用于让�q�播和细节控制交�l�应用的通信传输�?/span>

UDP(User Datagram Protocol)

UDP不提供复杂的控制机制�Q�利用IP提供面向无连接的通信服务。�ƈ且它是将应用�E�序发来的数据在收到的那一刻，立刻按照原样发送到�|�络上的一�U�机制�?/span>

即��是出现网�l�拥�늚�情况下，UDP也无法进行流量控制等避免�|�络拥塞的行为。此外，传输途中如果出现了丢包，UDO也不负责重发。甚臛_��出现包的到达��序乱掉时也没有�U�正的功能。如果需要这些细节控�Ӟ��那么不得不交�l�由采用UDO的应用程序去处理。换句话��_��UDP��部分控制�{�U�d��应用�E�序��d��理，自己却只提供作�ؓ传输层协议的最基本功能。UDP有点�c�M��于用戯��什么听什么的机制�Q�但是需要用户充分考虑好上层协议类型�ƈ制作相应的应用程序�?/span>

TCP(Transmission Control Protocol)

TCP充分实现爱呢了数据传输时各种控制功能�Q�可以进行丢包的重发控制�Q�还可以�Ҏ��序�ؕ掉的分包�q�行��序控制。而这些在UDP中都没有。此外，TCP作�ؓ一�U�面向有�q�接的协议，只有在确认通信对端存在时才会发送数据，从而可以控刉��信��量的浪贏V�?/span>

TCP通过��验和、序列号、确认应�{�、重发控制、连接管理以及窗口控制等机制实现可靠性传输。此处不一一叙述�?/span>

TCP与UDP如何加以区分使用�Q?/span>

TCP用于在传输层有必要实现可靠性传输的情况。由于它是面向有�q�接�q�具备顺序控制、重发控制等机制的。所以它可以为应用提供可靠传输�?/span>

另一斚w��Q�UDP主要用于那些寚w��速传输和实时性有较高要求的通信或广播通信。�D一个IP电话�q�行通话的例子。如果��用TCP�Q�数据在传送途中如果丢失会被重发�Q�但是这��h��法流畅地传输通话人的声音�Q�会��D��无法�q�行正常交流。而采用UDP�Q�它不会�q�行重发处理。从而也��׃��会有声音大幅度�g�q�到辄��问题。即使有部分数据丢失�Q�也只是影响某一��部分的通话。此外，在多播与�q�播通信中也使用UDP而不是UDP。RIP、DHCP�{�基于广播的协议也要依赖于UDP�?/span>

TCP与UDP区别�ȝ��Q?/strong>

1、TCP面向�q�接�Q�如打电话要先拨号徏立连接）;UDP是无�q�接的，卛_��送数据之前不需要徏立连�?/span>
2、TCP提供可靠的服务。也��是��_��通过TCP�q�接传送的数据�Q�无差错�Q�不丢失�Q�不重复�Q�且按序到达;UDP��最大努力交付，即不保证可靠交付
3、TCP面向字节��，实际上是TCP把数据看成一�q�串无结构的字节��?UDP是面向报文的
UDP没有拥塞控制�Q�因此网�l�出现拥塞不会��源主机的发送速率降低�Q�对实时应用很有用，如IP电话�Q�实时视频会议等�Q?br />4、每一条TCP�q�接只能是点到点�?UDP支持一对一�Q�一对多�Q�多对一和多对多的交互通信
5、TCP首部开销20字节;UDP的首部开销��，只有8个字�?br />
6、TCP的逻辑通信信道是全双工的可靠信道，UDP则是不可靠信�?/span>

UDP如何实现可靠传输

�׃��在传输层UDP已经是不可靠的连接，那就要在应用层自己实��C��些保障可靠传输的机制

��单来�Ԍ��要��用UDP来构建可靠的面向�q�接的数据传输，��p��实现�c�M��于TCP协议�?/span>

��时重传�Q�定时器�Q?/span>

有序接受 �Q�添加包序号�Q?/span>

应答��认 �Q�Seq/Ack应答机制�Q?/span>

滑动�H�口��量控制�{�机�?�Q�滑动窗口协议）

�{�于说要在传输层的上一层（或者直接在应用层）实现TCP协议的可靠数据传输机�Ӟ��比如使用UDP数据�?序列��P��UDP数据�?旉��戳等�Ҏ��?/span>

目前已经有一些实现UDP可靠传输的机�Ӟ��比如

UDT�Q?span style="font-size: 14px; font-family: arial, 宋体, sans-serif; line-height: 25px">UDP-based Data Transfer Protocol�Q?/span>

��Z��UDP的数据传输协议（UDP-based Data Transfer Protocol�Q�简�U�UDT�Q�是一�U�互联网数据传输协议。UDT的主要目的是支持高速广域网上的��量数据传输�Q�而互联网上的标准数据传输协议TCP在高带宽长距��ȝ��l�上性能很差�?��֐�思义�Q?/span>UDT��Z��UDP之上�Q��ƈ引入新的拥塞控制和数据可靠性控制机制。UDT是面向连接的双向的应用层协议。它同时支持可靠的数据流传输和部分可靠的数据报传输�?/span> �׃��UDT完全在UDP上实玎ͼ�它也可以应用在除了高速数据传输之外的其它应用领域�Q�例如点到点技术（P2P�Q�，防火墙穿透，多媒体数据传输等�{��?/span>

鸉K�� 2017-07-19 22:25 发表评论

一文读懂分布式数据库Hbase

鸉K�� — Wed, 19 Jul 2017 14:24:00 GMT

一�?/p>
1、什么是Hbase�?/p>
�?/span>一个高可靠性、高性能、列存储、可伸羃、实时读写的分布�?a title="MySQL知识�? class="replace_word" style="text-decoration: none; font-weight: bold; color: rgb(223,52,52)" target="_blank">数据�?/a>�pȝ��?/span>

适合于存储非�l�构�?/span>数据�Q�基于列的而不是基于行的模�?/span>

如图�Q?a title="Hadoop知识�? class="replace_word" style="text-decoration: none; font-weight: bold; color: rgb(223,52,52)" target="_blank">Hadoop生态中hbase与其他部分的关系�?br />

2、关�p�L��据库已经��行很多�q�_��q�且hadoop已经有了HDFS和MapReduce�Q��ؓ什么需要HBase?

Hadoop可以很好地解军_��规模数据的离�U�批量处理问题，但是�Q�受限于HadoopMapReduce�~�程框架的高延迟数据处理机制�Q��?/span>Hadoop无法满��大规模数据实时处理应用的需�?/span>

HDFS面向扚w��讉K��模式�Q�不是随��问模�?/span>

传统的通用关系型数据库无法应对在数据规模剧增时��D��的系�l�扩展性和性能问题�Q�分库分表也不能很好解决�Q?/span>

传统关系数据库在数据�l�构变化时一般需要停机维护；�I�列��费存储�I�间

因此�Q�业界出��C��一�c�面向半�l�构化数据存储和处理的高可扩展、低写入/查询延迟的系�l�，例如�Q�键值数据库、文档数据库和列族数据库�Q�如BigTable�?/span>HBase�{�）

HBase已经成功应用于互联网服务领域和传�l�行业的众多在线式数据分析处理系�l�中
3�?/span>HBase与传�l�的关系数据库的区别

�Q?/span>1�Q�数据类型：关系数据库采用关�p�L��型，��h��丰富的数据类型和存储方式�Q?/span>HBase则采用了更加��单的数据模型�Q�它把数据存储�ؓ未经解释的字�W�串

�Q?/span>2�Q�数据操作：关系数据库中包含了丰富的操作�Q�其中会涉及复杂的多表连接�?/span>HBase操作则不存在复杂的表与表之间的关�p�，只有��单的插入、查询、删除、清�I�等�Q�因�?/span>HBase在设计上��避免了复杂的表和表之间的关�p?br />�Q?/span>3�Q�存储模式：关系数据库是��Z��行模式存储的�?/span>HBase是基于列存储的，每个列族都由几个文�g保存�Q�不同列族的文�g是分��ȝ��

�Q?/span>4�Q�数据烦引：关系数据库通常可以针对不同列构建复杂的多个索引�Q�以提高数据讉K��性能�?/span>HBase只有一个烦�?#8212;—行键�Q�通过巧妙的设计，HBase中的所有访问方法，或者通过行键讉K��Q�或者通过行键扫描�Q�从而��得整个系�l�不会慢下来

�Q?/span>5�Q�数据维护：在关�p�L��据库中，更新操作会用最新的当前值去替换记录中原来的旧��|��旧��D��覆盖后就不会存在。�?span style="color: rgb(255,0,0)">�?/span>HBase中执行更新操作时�Q��ƈ不会删除数据旧的版本�Q�而是生成一个新的版本，旧有的版本仍然保�?/span>

�Q?/span>6�Q�可伸羃性：关系数据库很隑֮�现横向扩展，�U�向扩展的空间也比较有限。相反，HBase和BigTable�q�些分布式数据库��是��Z��实现灉|��的水�q�x��展而开发的�Q�能够轻易地通过在集��中增加或者减��硬件数量来实现性能的�׾~?/span>
二、Hbase数据模型

1、模型概�q?/p>

HBase是一个稀疏、多�l�度、排序的映射表，�q�张表的索引是行键、列族、列限定�W�和旉��?/span>

每个值是一个未�l�解释的字符�Ԍ��没有数据�c�d��

用户在表中存储数据，每一行都有一个可排序的行键和��L��多的�?/span>

表在水��^方向�׃��个或者多个列族组成，一个列族中可以包含��L��多个列，同一个列族里面的数据存储在一�?/span>

列族支持动态扩展，可以很轻村֜��d��一个列族或列，无需预先定义列的数量以及�c�d��Q�所有列均以字符串�Ş式存储，用户需要自行进行数据类型�{�?/span>

HBase中执行更新操作时�Q��ƈ不会删除数据旧的版本�Q�而是生成一个新的版本，旧有的版本仍然保留（�q�是�?/span>HDFS只允许追加不允许修改的特性相关的�Q?br />

2、数据坐�?br />HBase中需要根据行键、列族、列限定�W�和旉��x��定一个单元格�Q�因此，可以视�ؓ一�?#8220;四维坐标”�Q�即[行键,列族, 列限定符,旉��?/span>]

�?/span>

�?/span>

[“201505003”,“Info”,“email”, 1174184619081]

“xie@qq.com”

[“201505003”,“Info”,“email”, 1174184620720]

“you@163.com”

3、概念视�?br />

4、物理视�?br />

三、HBase实现原理

1�?span style="color: black">HBase的实现包括三个主要的功能�l��g�Q?/span>

�Q?/span>1�Q�库函数�Q�链接到每个客户�?/span>

�Q?/span>2�Q�一�?/span>Master��L��务器

�Q?/span>3�Q�许多个Region服务�?br />
��L��务器Master负责��理和维护HBase表的分区信息�Q�维�?/span>Region服务器列表，分配Region�Q�负载均�?/span>

Region服务器负责存储和�l�护分配�l�自��q��Region�Q�处理来自客��L��的读写请�?/span>

客户端�ƈ不是直接�?/span>Master��L��务器上读取数据，而是在获�?/span>Region的存储位�|�信息后�Q�直接从Region服务器上��d��数据

客户端�ƈ不依�?/span>Master�Q�而是通过Zookeeper来获�?/span>Region位置信息�Q�大多数客户端甚至从来不�?/span>Master通信�Q�这�U�设计方式��?/span>Master负蝲很小

2、Region
开始只有一�?/span>Region�Q�后来不断分�?/span>

Region拆分操作非常快，接近瞬间�Q�因为拆分之后的Region��d��的仍然是原存储文�Ӟ��直到“合�ƈ”�q�程把存储文件异步地写到独立的文件之后，才会��d��新文�?/span>

同一�?/span>Region不会被分拆到多个Region服务�?br />
每个Region服务器存�?/span>10-1000�?/span>Region

元数据表�Q�又�?/span>.META.表，存储�?/span>Region�?/span>Region服务器的映射关系

�?/span>HBase表很大时�Q?/span> .META.表也会被分裂成多�?/span>Region

�Ҏ��据表�Q�又�?/span>-ROOT-表，记录所有元数据的具体位�|?/span>

-ROOT-表只有唯一一�?/span>Region�Q�名字是在程序中被写�ȝ��

Zookeeper文�g记录�?/span>-ROOT-表的位置

客户端访问数据时�?#8220;三��d��”

��Z��加速寻址�Q�客��L��会缓存位�|�信息，同时�Q�需要解决缓存失效问�?/span>

��d��q�程客户端只需要询�?/span>Zookeeper服务器，不需要连�?/span>Master服务�?/span>

3、HBase的三层结构中各层�ơ的名称和作�?/span>

层次

名称

作用

�W�一�?/span>

Zookeper文�g

记录�?/span>-ROOT-表的位置信息

�W�二�?/span>

-ROOT-�?/span>

记录�?/span>.META.表的Region位置信息

-ROOT-表只能有一�?/span>Region。通过-ROOT-表，��可以访�?/span>.META.表中的数�?/span>

�W�三�?/span>

.META.�?/span>

记录了用��h��据表�?/span>Region位置信息�Q?/span>.META.表可以有多个Region�Q�保存了HBase中所有用��h��据表�?/span>Region位置信息

四、HBase�q�行机制
1、HBase�pȝ��架构

(1、客��L��包含讉K��HBase的接口，同时在缓存中�l�护着已经讉K��q�的Region位置信息�Q�用来加快后�l�数据访问过�E?/span>

(2、Zookeeper可以帮助选�D��Z��?/span>Master作�ؓ集群的�ȝ��Q��ƈ保证在�Q何时��L��L��唯一一�?/span>Master在运行，�q�就避免�?/span>Master�?#8220;单点失效”问题
�Q?span style="color: black">Zookeeper是一个很好的集群��理工具�Q�被大量用于分布式计��，提供配置�l�护、域名服务、分布式同步、组服务�{��?/span>�Q?br />

(3. Master

��L��务器Master主要负责表和Region的管理工作：

��理用户对表的增加、删除、修攏V��查询等操作

实现不同Region服务器之间的负蝲均衡

�?/span>Region分裂或合�q�后�Q�负责重新调�?/span>Region的分�?/span>

对发生故障失效的Region服务器上�?/span>Region�q�行�q�移

(4. Region服务�?/span>

Region服务器是HBase中最核心的模块，负责�l�护分配�l�自��q��Region�Q��ƈ响应用户的读写请�?/span>
2、Region

(1、用戯��写数据过�E?br />用户写入数据�Ӟ��被分配到相应Region服务器去执行

用户数据首先被写入到MemStore�?/span>Hlog�?/span>

只有当操作写�?/span>Hlog之后�Q?/span>commit()调用才会��其�q�回�l�客��L��

当用戯��取数据时�Q?/span>Region服务器会首先讉K��MemStore�~�存�Q�如果找不到�Q�再�ȝ��盘上面的StoreFile中寻�?/span>
(2、缓存的��h��

�pȝ��会周期性地�?/span>MemStore�~�存里的内容刷写到磁盘的StoreFile文�g中，清空�~�存�Q��ƈ�?/span>Hlog里面写入一个标记�?br />每次刷写都生成一个新�?/span>StoreFile文�g�Q�因此，每个Store包含多个StoreFile文�g

每个Region服务器都有一个自��q��HLog文�g�Q�每�ơ启动都��查该文�g�Q�确认最�q�一�ơ执行缓存刷新操作之后是否发生新的写入操作；如果发现更新�Q�则先写�?/span>MemStore�Q�再刷写�?/span>StoreFile�Q�最后删除旧�?/span>Hlog文�g�Q�开始�ؓ用户提供服务
(3、StroreFile的合�q?span style="color: black">
每次刷写都生成一个新�?/span>StoreFile�Q�数量太多，影响查找速度

调用Store.compact()把多个合�q�成一�?/span>

合�ƈ操作比较耗费资源�Q�只有数量达��C��个阈值才启动合�ƈ
3、Store工作原理

Store�?/span>Region服务器的核心

多个StoreFile合�ƈ成一�?br />触发分裂操作�Q?/span>1个父Region被分裂成两个�?/span>Region

单个StoreFile�q�大�Ӟ��?/span>
4、HLog工作原理

分布式环境必��要考虑�pȝ��出错�?/span>HBase采用HLog保证�pȝ��恢复

HBase�pȝ��为每�?/span>Region服务器配�|�了一�?/span>HLog文�g�Q�它是一�U�预写式日志�Q?/span>WriteAhead Log�Q?/span>

用户更新数据必须首先写入日志后，才能写入MemStore�~�存�Q��ƈ且，直到MemStore�~�存内容对应的日志已�l�写入磁盘，该缓存内�Ҏ��能被刷写到磁�?/span>

Zookeeper会实时监��每�?/span>Region服务器的状态，当某�?/span>Region服务器发生故障时�Q?/span>Zookeeper会通知Master

Master首先会处理该故障Region服务器上面遗留的HLog文�g�Q�这个遗留的HLog文�g中包含了来自多个Region对象的日志记�?/span>

�pȝ��会根据每条日志记录所属的Region对象�?/span>HLog数据�q�行拆分�Q�分别放到相�?/span>Region对象的目录下�Q�然后，再将失效�?/span>Region重新分配到可用的Region服务器中�Q��ƈ把与�?/span>Region对象相关�?/span>HLog日志记录也发送给相应�?/span>Region服务�?/span>

Region服务器领取到分配�l�自��q��Region对象以及与之相关�?/span>HLog日志记录以后�Q�会重新做一遍日志记录中的各�U�操作，把日志记录中的数据写入到MemStore�~�存中，然后�Q�刷新到��盘�?/span>StoreFile文�g中，完成数据恢复

��q��日志优点�Q�提高对表的写操作性能�Q�缺点：恢复旉��要分拆日�?/span>
五、HBase性能
1�?span style="color: black">行键�Q�RowKey�Q?br />

行键是按�?/span>字典�?/span>存储�Q�因此，设计行键�Ӟ��要充分利用这个排序特点，��经�怸�赯��取的数据存储��C��块，��最�q�可能会被访问的数据攑֜�一块�?/span>

举个例子�Q�如果最�q�写�?/span>HBase表中的数据是最可能被访问的�Q�可以考虑��时间戳作�ؓ行键的一部分�Q�由于是字典序排序，所以可以��?/span>Long.MAX_VALUE- timestamp作�ؓ行键�Q�这栯��保证新写入的数据在读取时可以被快速命中�?/span>

InMemory�Q�创��的时候，可以通过HColumnDescriptor.setInMemory(true)��表攑ֈ�Region服务器的�~�存中，保证在读取的时候被cache命中�?/span>

Max Version�Q�创��的时候，可以通过HColumnDescriptor.setMaxVersions(int maxVersions)讄��表中数据的最大版本，如果只需要保存最新版本的数据�Q�那么可以设�|?/span>setMaxVersions(1)�?/span>

Time To Live创徏表的时候，可以通过HColumnDescriptor.setTimeToLive(inttimeToLive)讄��表中数据的存储生命期�Q�过期数据将自动被删除，例如如果只需要存储最�q�两天的数据�Q�那么可以设�|?/span>setTimeToLive(2* 24 * 60 * 60)�?/span>

2、HBaseMaster默认��Z��Web�?/span>UI服务端口�?/span>60010�Q?/span>HBase region服务器默认基�?/span>Web�?/span>UI服务端口�?/span>60030.如果master�q�行在名�?/span>master.foo.com的主��Z��Q?/span>mater的主��地址��是http://master.foo.com:60010�Q�用户可以通过Web��览器输入这个地址查看该页�?/span>

可以查看HBase集群的当前状�?/span>
3�?span style="color: black">NoSQL区别于关�p�d��数据库的一点就�?/span>NoSQL不��?/span>SQL作�ؓ查询语言�Q�至于�ؓ何在NoSQL数据存储HBase上提�?/span>SQL接口

易��用，减少�~�码

4、HBase只有一个针对行健的索引

讉K��HBase表中的行�Q�只有三�U�方式：

通过单个行健讉K��

通过一个行健的区间来访�?/span>

全表扫描

�ȝ��Q?br />
1、HBase数据库是BigTable的开源实玎ͼ��?/span>BigTable一��P��支持大规模�v量数据，分布式�ƈ发数据处理效率极高，易于扩展且支持动态�׾~�，适用于廉仯��?/span>

2、HBase可以支持NativeJava API�?/span>HBaseShell�?/span>ThriftGateway�?/span>Hive�{�多�U�访问接口，可以�Ҏ��具体应用场合选择相应讉K��方式

3、HBase实际上就是一个稀疏、多�l�、持久化存储的映��表�Q�它采用行键、列键和旉��戌��行烦引，每个值都是未�l�解释的字符丌Ӏ?/span>

4、HBase采用分区存储�Q�一个大的表会被分拆许多�?/span>Region�Q�这�?/span>Region会被分发��C��同的服务器上实现分布式存�?/span>

5、HBase的系�l�架构包括客��L��?/span>Zookeeper服务器�?/span>Master��L��务器�?/span>Region服务器。客��L��包含讉K��HBase的接口；Zookeeper服务器负责提供稳定可靠的协同服务�Q?/span>Master��L��务器主要负责表和Region的管理工作；Region服务器负责维护分配给自己�?/span>Region�Q��ƈ响应用户的读写请�?/span>

鸉K�� 2017-07-19 22:24 发表评论

层次	名称	作用
�W�一�?/span>	Zookeper文�g	记录�?/span>-ROOT-表的位置信息
�W�二�?/span>	-ROOT-�?/span>	记录�?/span>.META.表的Region位置信息 -ROOT-表只能有一�?/span>Region。通过-ROOT-表，��可以访�?/span>.META.表中的数�?/span>
�W�三�?/span>	.META.�?/span>	记录了用��h��据表�?/span>Region位置信息�Q?/span>.META.表可以有多个Region�Q�保存了HBase中所有用��h��据表�?/span>Region位置信息

亚洲国产日韩在线视频,久久精品夜色国产亚洲av,亚洲国产综合自在线另类

POI操作Excel

Yarn 调度器Scheduler详解

一、调度器的选择

二、Capacity Scheduler�Q�容器调度器�Q�的配置

2.1 容器调度介绍

三、Fair Scheduler�Q�公�q����度器�Q�的配置

3.1 公��^调度

3.2 启用Fair Scheduler

hive大数据倾斜�ȝ��

1数据倾斜的原�?/strong>

1.1操作�Q?/strong>

1.2原因�Q?/strong>

1.3表现�Q?/strong>

2数据倾斜的解��x���?/strong>

2.1参数调节�Q?/strong>

2.2 SQL语句调节�Q?/strong>

3典型的业务场�?/strong>

3.1�I���g�生的数据倾斜

3.2不同数据�c�d��兌���产生数据倾斜

3.3���表不小不大�Q�怎么�?map join 解决倾斜问题

4�ȝ��

Hive性能调优

HIVE和HBASE区别

Hive分布式安装配�|�Hive+Mysql

TCP/UDP区别以及UDP如何实现可靠传输

UDT�Q?span style="font-size: 14px; font-family: arial, 宋体, sans-serif; line-height: 25px">UDP-based Data Transfer Protocol�Q?/span>

一文读懂分布式数据库Hbase

三、Fair Scheduler�Q�公�q��度器�Q�的配置

2数据倾斜的解��x��?/strong>

3.1�I��g�生的数据倾斜

3.2不同数据�c�d��兌��产生数据倾斜

3.3��表不小不大�Q�怎么�?map join 解决倾斜问题