亚洲精品亚洲人成在线,亚洲精品人成网在线播放影院,亚洲一级毛片视频

POI操作Excel

鸉K�� — Fri, 20 Mar 2020 02:13:00 GMT

一、POI概述　　Apache POI是Apache软�g基金�?x��)的开放源码函式库�Q�POI提供API�l�Java�E�序对Microsoft Office格式档案��d��写的功能�? 　　�l�构�Q? HSSF �Q?提供��d��Microsoft Excel格式档案的功能�? XSSF �Q?提供��d��Microsoft Excel OOXML格式档案的功能�? HWPF �Q?提供��d��Microsoft Word格式档案的功能�? HSLF �Q?提供��d��Microsoft PowerPoint格式档案的功能�? HDGF �Q?提供��d��Microsoft Visio格式档案的功能�? 　使用必须引入依赖 org.apache.poi poi 3.17 注：(x��)3.17版本是支持jdk6的最后版�? 二、HSSF概况　　HSSF 是Horrible SpreadSheet Format的羃写，通过HSSF�Q�你可以用纯Java代码来读取、写入、修改Excel文�g。HSSF ��取操作提供了两类API�Q�usermodel和eventusermodel�Q�即“用户模型”�?#8220;事�g-用户模型”�? 三�?POI EXCEL文档�l�构�c? HSSFWorkbook excel文档对象 HSSFSheet excel的sheet HSSFRow excel的行 HSSFCell excel的单元格 HSSFFont excel字体 HSSFName 名称 HSSFDataFormat 日期格式 HSSFHeader sheet�? HSSFFooter sheet��? HSSFCellStyle cell样式 HSSFDateUtil 日期 HSSFPrintSetup 打印 HSSFErrorConstants 错误信息�? 四、EXCEL的读写操�? 1、读�?#8220;区域数据.xls”�q�储存于list集合中，“区域数据.xls”如下�? public List importXLS(){ ArrayList list = new ArrayList<>(); try { 　　　　　//1、获取文件输入流　　　　　InputStream inputStream = new FileInputStream("/Users/Shared/区域数据.xls"); 　　　　　//2、获取Excel工作��对�? HSSFWorkbook workbook = new HSSFWorkbook(inputStream); 　　　　　//3、得到Excel工作表对�? HSSFSheet sheetAt = workbook.getSheetAt(0); //4、��@环读取表格数�? 　　　　 for (Row row : sheetAt) { 　　　　　　　//首行�Q�即表头�Q�不��d�� if (row.getRowNum() == 0) { continue; } //��d��当前行中单元格数据，索引�?开�? 　　　　　　　String areaNum = row.getCell(0).getStringCellValue(); String province = row.getCell(1).getStringCellValue(); String city = row.getCell(2).getStringCellValue(); String district = row.getCell(3).getStringCellValue(); String postcode = row.getCell(4).getStringCellValue(); Area area = new Area(); area.setCity(city); area.setDistrict(district); area.setProvince(province); 　　　　　　　area.setPostCode(postcode); list.add(area); } 　　　　 //5、关闭流 workbook.close(); } catch (IOException e) { e.printStackTrace(); } 　　return list; } 2、导出数据到“区域数据.xls”文�g中，��面数据如下图：(x��) public void exportExcel() throws IOException { Page page = areaService.pageQuery(null); List list = page.getContent(); //1.在内存中创徏一个excel文�g HSSFWorkbook hssfWorkbook = new HSSFWorkbook(); //2.创徏工作��? HSSFSheet sheet = hssfWorkbook.createSheet(); //3.创徏标题�? HSSFRow titlerRow = sheet.createRow(0); titlerRow.createCell(0).setCellValue("�?); titlerRow.createCell(1).setCellValue("�?); titlerRow.createCell(2).setCellValue("�?); titlerRow.createCell(3).setCellValue("邮编"); titlerRow.createCell(4).setCellValue("��?); titlerRow.createCell(5).setCellValue("城市�~�码"); //4.遍历数据,创徏数据�? for (Area area : list) { //获取最后一行的行号 int lastRowNum = sheet.getLastRowNum(); HSSFRow dataRow = sheet.createRow(lastRowNum + 1); dataRow.createCell(0).setCellValue(area.getProvince()); dataRow.createCell(1).setCellValue(area.getCity()); dataRow.createCell(2).setCellValue(area.getDistrict()); dataRow.createCell(3).setCellValue(area.getPostcode()); dataRow.createCell(4).setCellValue(area.getShortcode()); dataRow.createCell(5).setCellValue(area.getCitycode()); } //5.创徏文�g�? String fileName = "区域数据�l�计.xls"; //6.获取输出��对�? HttpServletResponse response = ServletActionContext.getResponse(); ServletOutputStream outputStream = response.getOutputStream(); //7.获取mimeType ServletContext servletContext = ServletActionContext.getServletContext(); String mimeType = servletContext.getMimeType(fileName); //8.获取��览器信�?�Ҏ(gu��)��件名�q�行重新�~�码 HttpServletRequest request = ServletActionContext.getRequest(); fileName = FileUtils.filenameEncoding(fileName, request); //9.讄��信息�? response.setContentType(mimeType); response.setHeader("Content-Disposition","attachment;filename="+fileName); //10.写出文�g,关闭��? hssfWorkbook.write(outputStream); hssfWorkbook.close(); } 工具�c? public class FileUtils { public static String filenameEncoding(String filename, HttpServletRequest request) throws IOException { String agent = request.getHeader("User-Agent"); //获取��览�? if (agent.contains("Firefox")) { BASE64Encoder base64Encoder = new BASE64Encoder(); filename = "=?utf-8?B?" + base64Encoder.encode(filename.getBytes("utf-8")) + "?="; } else if(agent.contains("MSIE")) { filename = URLEncoder.encode(filename, "utf-8"); } else if(agent.contains ("Safari")) { filename = new String (filename.getBytes ("utf-8"),"ISO8859-1"); } else { filename = URLEncoder.encode(filename, "utf-8"); } return filename; } } 写出xls文�g�Q? 五�?EXCEL常用操作�Ҏ(gu��)�� 1�?得到Excel常用对象 POIFSFileSystem fs=newPOIFSFileSystem(new FileInputStream("d:/test.xls")); //得到Excel工作��对�? HSSFWorkbook wb = new HSSFWorkbook(fs); //得到Excel工作表对�? HSSFSheet sheet = wb.getSheetAt(0); //得到Excel工作表的�? HSSFRow row = sheet.getRow(i); //得到Excel工作表指定行的单元格 HSSFCell cell = row.getCell((short) j); cellStyle = cell.getCellStyle();//得到单元格样�? 2、徏立Excel常用对象 HSSFWorkbook wb = new HSSFWorkbook();//创徏Excel工作��对�? HSSFSheet sheet = wb.createSheet("new sheet");//创徏Excel工作表对�? HSSFRow row = sheet.createRow((short)0); //创徏Excel工作表的�? cellStyle = wb.createCellStyle();//创徏单元格样�? row.createCell((short)0).setCellStyle(cellStyle); //创徏Excel工作表指定行的单元格 row.createCell((short)0).setCellValue(1); //讄��Excel工作表的�? 3、设�|�sheet名称和单元格内容 wb.setSheetName(1, "�W�一张工作表",HSSFCell.ENCODING_UTF_16); cell.setEncoding((short) 1); cell.setCellValue("单元格内�?); 4、取得sheet的数�? wb.getNumberOfSheets() 5�?�Ҏ(gu��)��index取得sheet对象 HSSFSheet sheet = wb.getSheetAt(0); 6、取得有效的行数 int rowcount = sheet.getLastRowNum(); 7、取得一行的有效单元��g��? row.getLastCellNum(); 8、单元格值类型读�? cell.setCellType(HSSFCell.CELL_TYPE_STRING); //讄��单元��gؓ(f��)STRING�c�d�� cell.getNumericCellValue();//��d��为数值类型的单元格内�? 9、设�|�列宽、行�? sheet.setColumnWidth((short)column,(short)width); row.setHeight((short)height); 10、添加区域，合�ƈ单元�? Region region = new Region((short)rowFrom,(short)columnFrom,(short)rowTo ,(short)columnTo);//合�ƈ从第rowFrom行columnFrom�? sheet.addMergedRegion(region);// 到rowTo行columnTo的区�? //得到所有区�? sheet.getNumMergedRegions() 11、保存Excel文�g FileOutputStream fileOut = new FileOutputStream(path); wb.write(fileOut); 12、根据单元格不同属性返回字�W�串数�? public String getCellStringValue(HSSFCell cell) { 　　String cellValue = ""; 　　switch (cell.getCellType()) { 　　　　case HSSFCell.CELL_TYPE_STRING://字符串类�? 　　　　　　　　cellValue = cell.getStringCellValue(); 　　　　　　　　if(cellValue.trim().equals("")||cellValue.trim().length()<=0) 　　　　　　　　　　cellValue=" "; 　　　　　　　　break; 　　　　case HSSFCell.CELL_TYPE_NUMERIC: //数值类�? 　　　　　　　　cellValue = String.valueOf(cell.getNumericCellValue()); 　　　　　　　　break; 　　　　case HSSFCell.CELL_TYPE_FORMULA: //公式　　　　　　　　cell.setCellType(HSSFCell.CELL_TYPE_NUMERIC); 　　　　　　　　cellValue = String.valueOf(cell.getNumericCellValue()); 　　　　　　　　break; 　　　　case HSSFCell.CELL_TYPE_BLANK: 　　　　　　　　cellValue=" "; 　　　　　　　　break; 　　　　case HSSFCell.CELL_TYPE_BOOLEAN: 　　　　　　　　break; 　　　　case HSSFCell.CELL_TYPE_ERROR: 　　　　　　　　break; 　　　　default: 　　　　　　　　break; 　　} 　　return cellValue; } 13、常用单元格�Ҏ(gu��)��格式 HSSFCellStyle style = wb.createCellStyle(); style.setBorderBottom(HSSFCellStyle.BORDER_DOTTED);//下边�? style.setBorderLeft(HSSFCellStyle.BORDER_DOTTED);//左边�? style.setBorderRight(HSSFCellStyle.BORDER_THIN);//双��? style.setBorderTop(HSSFCellStyle.BORDER_THIN);//上边�? 14、设�|�字体和内容位置 HSSFFont f = wb.createFont(); f.setFontHeightInPoints((short) 11);//字号 f.setBoldweight(HSSFFont.BOLDWEIGHT_NORMAL);//加粗 style.setFont(f); style.setAlignment(HSSFCellStyle.ALIGN_CENTER);//左右居中 style.setVerticalAlignment(HSSFCellStyle.VERTICAL_CENTER);//上下居中 style.setRotation(short rotation);//单元格内容的旋�{的角�? HSSFDataFormat df = wb.createDataFormat(); style1.setDataFormat(df.getFormat("0.00%"));//讄��单元格数据格�? cell.setCellFormula(string);//�l�单元格讑օ��? style.setRotation(short rotation);//单元格内容的旋�{的角�? 15、插入图�? //先把读进来的囄��攑ֈ�一个ByteArrayOutputStream中，以便产生ByteArray ByteArrayOutputStream byteArrayOut = new ByteArrayOutputStream(); BufferedImage bufferImg = ImageIO.read(new File("ok.jpg")); ImageIO.write(bufferImg,"jpg",byteArrayOut); //读进一个excel模版 FileInputStream fos = new FileInputStream(filePathName+"/stencil.xlt"); fs = new POIFSFileSystem(fos); //创徏一个工作薄 HSSFWorkbook wb = new HSSFWorkbook(fs); HSSFSheet sheet = wb.getSheetAt(0); HSSFPatriarch patriarch = sheet.createDrawingPatriarch(); HSSFClientAnchor anchor = new HSSFClientAnchor(0,0,1023,255,(short) 0,0,(short)10,10); patriarch.createPicture(anchor , wb.addPicture(byteArrayOut.toByteArray(),HSSFWorkbook.PICTURE_TYPE_JPEG)); 16、调整工作表位置 HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet("format sheet"); HSSFPrintSetup ps = sheet.getPrintSetup(); sheet.setAutobreaks(true); ps.setFitHeight((short)1); ps.setFitWidth((short)1);

鸉K�� 2020-03-20 10:13 发表评论

鸉K�� — Tue, 14 May 2019 15:04:00 GMT

1、在学习(f��n)从文件读取数据中�Q�写了个�C�Z��代码�Q�读取不在同一个目录的file.txt�Q�运行后报这个Python OSError: [Errno 22] Invalid argument:错误�Q? �Q?�Q�、首先，在F盘的python_stu中新增了一个file.txt�Q�同时在F盘的python_stu文�g目录底下新增一个file文�g夹，里面有个file_reader.py来读取python_stu文�g目录底下的file.txt�Q�代码分别如下：(x��) file.txt�Q? ��试 ��试2 ��试3 file_reader.py�Q? with open('F:\python_stu\file.txt') as file_obj: contents = file_obj.read(); print(contents.rstrip()); �Q?�Q�、运行后报错�Q? �Q?�Q�、出现这�U�错误的原因是由于读取不到这个文�Ӟ��看Traceback报的错误�Q�最后一行，很明显读取不到file.txt�Q�前面的F:\\python_stu没错�Q�后面的名称怎么变了�Q�还是x0cile.txt�? �Q?�Q�、解军_��法，可修改上�q�第一行代码�ؓ(f��)�Q? with open('F:\python_stu/file.txt') as file_obj: 或者：(x��) with open('F:/python_stu/file.txt') as file_obj: 或者：(x��) with open('F://python_stu//file.txt') as file_obj: 又或者：(x��) with open('F:\\python_stu\\file.txt') as file_obj: �q�有一些我��׃��附上了，上面�W�一�U�方式不�l�一�Q�最好不要用�Q�用�l�一的方式，而且有时候还有注意一些�{义字�W�，比如 \t�Q�\n也会(x��)��D��报错�?

鸉K�� 2019-05-14 23:04 发表评论

鸉K�� — Sun, 13 Aug 2017 10:49:00 GMT

前面学习(f��n)了��用命令hdfs haadmin -failover手动�q�行故障转移�Q�在该模式下�Q�即使现役NameNode已经失效�Q�系�l�也不会(x��)自动从现役NameNode转移到待机NameNode�Q�下面学�?f��n)如何配�|�部�|�HA自动�q�行故障转移。自动故障�{�U�Mؓ(f��)HDFS部��v增加了两个新�l��g�Q�ZooKeeper和ZKFailoverController�Q�ZKFC�Q�进�E�。ZooKeeper是维护少量协调数据，通知客户端这些数据的改变和监视客��L(f��ng)��故障的高可用服务。HA的自动故障�{�U�M��赖于ZooKeeper的以下功能：(x��)

故障��(g��)��：(x��)集群中的每个NameNode在ZooKeeper中维护了一个持久会(x��)话，如果机器崩溃�Q�ZooKeeper中的�?x��)话��终止，ZooKeeper通知另一个NameNode需要触发故障�{�U�R�?/li>
现役NameNode选择�Q�ZooKeeper提供了一个简单的机制用于唯一的选择一个节点�ؓ(f��)active状态。如果目前现役NameNode崩溃�Q�另一个节点可能从ZooKeeper获得�Ҏ(gu��)��的排外锁以表明它应该成�ؓ(f��)现役NameNode�?/li>

ZKFC是自动故障�{�U�M��的另一个新�l��g�Q�是ZooKeeper的客��L(f��ng)��Q�也监视和管理NameNode的状态。每个运行NameNode的主��Z��q�行了一个ZKFC�q�程�Q�ZKFC负责�Q?/p>

健康监测�Q�ZKFC使用一个健��h��查命令定期地ping与之在相同主机的NameNode�Q�只要该NameNode�?qi��ng)时地回复健��L(f��ng)��态，ZKFC认�ؓ(f��)该节�Ҏ(gu��)��健康的。如果该节点崩溃�Q�冻�l�或�q�入不健��L(f��ng)��态，健康监测器标识该节点为非健康的�?/li>
ZooKeeper�?x��)话��理�Q�当本地NameNode是健��L(f��ng)��Q�ZKFC保持一个在ZooKeeper中打开的会(x��)话。如果本地NameNode处于active状态，ZKFC也保持一个特�D�的znode锁，该锁使用了ZooKeeper对短暂节点的支持�Q�如果会(x��)话终止，锁节点将自动删除�?/li>
��Z��ZooKeeper的选择�Q�如果本地NameNode是健��L(f��ng)��Q�且ZKFC发现没有其它的节点当前持有znode锁，它将��p��取该锁。如果成功，则它已经赢得了选择�Q��ƈ负责�q�行故障转移�q�程以��它的本地NameNode为active。故障�{�U�进城与前面描述的手动故障�{�Uȝ��|��首先如果必要保护之前的现役NameNode�Q�然后本地NameNode转换为active状态�?/li>

在典型部�|�中�Q�ZooKeeper守护�q�程�q�行在三个或者五个节点上�Q�但�׃��ZooKeeper本��n需要较?y��u)��的资源�Q�所以将ZooKeeper部��v在与现役NameNode和待机NameNode相同的主��Z��Q�还可以��ZooKeeper部��v��C��YARN的ResourceManager相同的节点上。徏议配�|�ZooKeeper��数据存储在与HDFS元数据不同的��盘上以得到最好的性能和隔��L��。在配置自动故障转移之前需要先停掉集群�Q�目前在集群�q�行时还不可能将手动故障转移的安装�{换�ؓ(f��)自动故障转移的安装。接下来看看如何配置HA的自动故障�{�U�R��首先在hdfs-site.xml中添加下面的参数�Q�该参数的值默认�ؓ(f��)false�Q?/p>

[html] view plain copy

print?

<property>
<name>dfs.ha.automatic-failover.enabledname>
<value>truevalue>
property>

在core-site.xml文�g中添加下面的参数�Q�该参数的��gؓ(f��)ZooKeeper服务器的地址�Q�ZKFC��用该地址�?/p>

[html] view plain copy

print?

<property>
<name>ha.zookeeper.quorumname> <value>zk1.example.com:2181,zk2.example.com:2181,zk3.example.com:2181value>
property>

在HA或者HDFS联盟中，上面的两个参数还需要以NameServiceID为后�~��Q�比如dfs.ha.automatic-failover.enabled.mycluster。除了上面的两个参数外，�q�有其它几个参数用于自动故障转移�Q�比如ha.zookeeper.session-timeout.ms�Q�但对于大多数安装来说都不是必须的�?/p>

在添加了上述的配�|�参数后�Q�下一步就是在ZooKeeper中初始化要求的状态，可以在�Q一NameNode中运行下面的命��o(h��)实现该目的，该命令将在ZooKeeper中创建znode�Q?/p>

[java] view plain copy

print?

$ hdfs zkfc -formatZK

在启用自动故障�{�Uȝ��集群中，start-dfs.sh脚本��在��M��q�行NameNode的主��Z��自动启动ZKFC守护�q�程�Q�一旦ZKFC启动完毕�Q�它们将自动选择一个NameNode为现役NameNode。如果手动管理集��中的服务，需要在每台�q�行NameNode的主��Z��手动启动ZKFC�Q�命令�ؓ(f��)�Q?/p>

[java] view plain copy

print?

hadoop-daemon.sh start zkfc
hdfs zkfc

如果正在�q�行一个安全的集群�Q�可能想��保存储在ZooKeeper中的信息也是安全的，�q�将��L��恶意的客��L(f��ng)��修改ZooKeeper中的元数据或者潜在地触发一个错误的故障转移。�ؓ(f��)了保护ZooKeeper中的信息�Q�首先在core-site.xml中添加下面的参数�Q?/p>

[html] view plain copy

print?

<property>
<name>ha.zookeeper.authname>
<value>@/path/to/zk-auth.txtvalue>
property>
<property>
<name>ha.zookeeper.aclname>
<value>@/path/to/zk-acl.txtvalue>
property>

参数��g��的@字符表示参数��g��存在@后的��盘文�g中。第一个配�|�文件指定了ZooKeeper的认证列表，其格式与ZK CLI使用的相同，例如�Q�digest:hdfs-zkfcs:mypassword�Q�其中h(hu��n)dfs-zkfcs为ZooKeeper的用户名�Q�mypassword为密码。其�ơ��用下面的命��o(h��)��认证生成一个ZooKeeper讉K��控制列表�Q?/p>

[java] view plain copy

print?

$ java -cp $ZK_HOME/lib/*:$ZK_HOME/zookeeper-3.4.2.jar org.apache.zookeeper.server.auth.DigestAuthenticationProvider hdfs-zkfcs:mypassword
output: hdfs-zkfcs:mypassword->hdfs-zkfcs:P/OQvnYyU/nF/mGYvB/xurX8dYs=

拯��->之后的字�W�串�q�添加digest:前缀�Q�然后粘贴到zk-acls.txt中，例如�Q�digest:hdfs-zkfcs:vlUvLnd8MlacsE80rDuu6ONESbM=:rwcda。要想��ACLs生效�Q�需要再�ơ运行zkfc –formatZK。最后可能像下面�q�样在ZK CLI中验证ACLs�Q?/p>

[java] view plain copy

print?

[zk: localhost:2181(CONNECTED) 1] getAcl /hadoop-ha
'digest,'hdfs-zkfcs:vlUvLnd8MlacsE80rDuu6ONESbM=
: cdrwa

在安装完成自动故障�{�U�d��Q�或�?d��ng)R��?a title="软�g��试知识�? target="_blank" style="color: #df3434; text-decoration: none; font-weight: bold;">��试一下。首先定位现役NameNode�Q�可以通过讉K��NameNode的web��面来确定哪个NameNode是active状态的。一旦确定了处于active状态的NameNode�Q�就需要在该节点上刉��点故障�Q�比如��用命令kill -9 模拟JVM崩溃�Q�或重启��L��或拔掉网�U�来模拟不同的中断。一旦触发了自动故障转移�Q�另一个NameNode应该自动在几�U�钟内变为active状态。检��到故障�q�触发故障�{�Uȝ��参数ha.zookeeper.session-timeout.ms控制�Q�该参数��Z��core-site.xml中，默认�?�U�。如果测试不成功�Q�可能是配置问题�Q�检查ZKFC和NameNode�q�程的日志以�q�一步诊断问题，通常错误都是很明昄��?/p>

鸉K�� 2017-08-13 18:49 发表评论

Yarn 调度器Scheduler详解

鸉K�� — Fri, 04 Aug 2017 16:35:00 GMT

理想情况下，我们应用对Yarn资源的请求应该立��d��到满��I��但现实情况资源往往是有限的�Q�特别是在一个很�J�忙的集��，一个应用资源的��h��l�常需要等待一�D�|��间才能的到相应的资源。在Yarn中，负责�l�应用分配资源的��是Scheduler。其实调度本�w�就是一个难题，很难扑ֈ�一个完��的�{�略可以解决所有的应用场景。�ؓ(f��)此，Yarn提供了多�U�调度器和可配置的策略供我们选择�?/p>

一、调度器的选择

在Yarn中有三种调度器可以选择�Q?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">FIFO Scheduler �Q?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">Capacity Scheduler�Q?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">FairS cheduler�?/p>

FIFO Scheduler把应用按提交的顺序排成一个队列，�q�是一个先�q�先出队列，在进行资源分配的时候，先给队列中最头上的应用进行分配资源，待最头上的应用需求满��_��再给下一个分配，以此�c�L��?/p>

FIFO Scheduler是最��单也是最�Ҏ(gu��)��理解的调度器�Q�也不需要�Q何配�|�，但它�q�不适用于共享集��。大的应用可能会(x��)占用所有集��资源，�q�就��D��其它应用被阻塞。在�׃�n集群中，更适合采用Capacity Scheduler�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">Fair Scheduler�Q�这两个调度器都允许大�Q务和��Q务在提交的同时获得一定的�pȝ��资源�?/p>

下面“Yarn调度器对比图”展示了这几个调度器的区别�Q�从图中可以看出�Q�在FIFO 调度器中�Q�小��d��?x��)被大�Q务阻塞�?/p>

而对于Capacity调度器，有一个专门的队列用来�q�行��Q务，但是为小��d��专门讄��一个队列会(x��)预先占用一定的集群资源�Q�这��导致大��d��的执行时间会(x��)落后于��用FIFO调度器时的时间�?/p>

在Fair调度器中�Q�我们不需要预先占用一定的�pȝ��资源�Q�Fair调度器会(x��)为所有运行的job动态的调整�pȝ��资源。如下图所�C�，当第一个大job提交�Ӟ��只有�q�一个job在运行，此时它获得了所有集��资源；当第二个��Q务提交后�Q�Fair调度器会(x��)分配一半资源给�q�个��Q务，让这两个��d��公��^的共享集��资源�?/p>

需要注意的是，在下图Fair调度器中�Q�从�W�二个�Q务提交到获得资源�?x��)有一定的延迟�Q�因为它需要等待第一个�Q务释攑֍�用的Container。小��d��执行完成之后也会(x��)释放自己占用的资源，大�Q务又获得了全部的�pȝ��资源。最�l�的效果��是Fair调度器即得到了高的资源利用率又能保证��Q务及(qi��ng)时完成�?/p>

Yarn调度器对比图:

二、Capacity Scheduler�Q�容器调度器�Q�的配置

2.1 容器调度介绍

Capacity 调度器允许多个组�l�共享整个集��，每个�l�织可以获得集群的一部分计算能力。通过为每个组�l�分配专门的队列�Q�然后再为每个队列分配一定的集群资源�Q�这��h��个集��就可以通过讄��多个队列的方式给多个�l�织提供服务了。除此之外，队列内部又可以垂直划分，�q�样一个组�l�内部的多个成员��可以共享这个队列资源了�Q�在一个队列内部，资源的调度是采用的是先进先出(FIFO)�{�略�?/p>

通过上面那幅图，我们已经知道一个job可能使用不了整个队列的资源。然而如果这个队列中�q�行多个job�Q�如果这个队列的资源够用�Q�那么就分配�l�这些job�Q�如果这个队列的资源不够用了呢？其实Capacity调度器仍可能分配额外的资源给�q�个队列�Q�这��是“�Ҏ(gu��)��队�?#8221;(queue elasticity)的概��c(di��n)�?/p>

在正常的操作中，Capacity调度器不�?x��)强刉��放Container�Q�当一个队列资源不够用�Ӟ��q�个队列只能获得其它队列释放后的Container资源。当�?d��ng)��我们可以为队列设�|�一个最大资源��用量�Q�以免这个队列过多的占用�I�闲资源�Q�导致其它队列无法��用这些空闲资源，�q�就�?#8221;�Ҏ(gu��)��队�?#8221;需要权衡的地方�?/p>

2.2 容器调度的配�|?/h3>

假设我们有如下层�ơ的队列�Q?/p>

root ├── prod └── dev     ├── eng     └── science

下面是一个简单的Capacity调度器的配置文�g�Q�文件名�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">capacity-scheduler.xml。在�q�个配置中，在root队列下面定义了两个子队列prod�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">dev�Q�分别占40%�?0%的容量。需要注意，一个队列的配置是通过属�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">yarn.sheduler.capacity..指定的，代表的是队列的��承树(w��i)�Q�如root.prod队列�Q?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">一般指capacity�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">maximum-capacity�?/p>

我们可以看到�Q?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">dev队列又被分成�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">eng�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">science两个相同定w��的子队列�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">dev�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">maximum-capacity属性被讄��成了75%�Q�所以即�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">prod队列完全�I�闲dev也不�?x��)占用全部集��资源，也就是说�Q?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">prod队列仍有25%的可用资源用来应急。我们注意到�Q?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">eng�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">science两个队列没有讄��maximum-capacity属性，也就是说eng�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">science队列中的job可能�?x��)用到整�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">dev队列的所有资源（最多�ؓ(f��)集群�?5%�Q�。而类似的�Q?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">prod�׃��没有讄��maximum-capacity属性，它有可能�?x��)占用集��全部资源�?/p>

Capacity容器除了可以配置队列�?qi��ng)其定w��外，我们�q�可以配�|�一个用��h��应用可以分配的最大资源数量、可以同时运行多��应用、队列的ACL认证�{��?/p>

2.3 队列的设�|?/h3>
关于队列的设�|�，�q�取决于我们具体的应用。比如，在MapReduce中，我们可以通过`mapreduce.job.queuename`属性指定要用的队列。如果队列不存在�Q�我们在提交��d��时就�?x��)收到错误。如果我们没有定义�Q何队列，所有的应用��会(x��)攑֜�一�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">default队列中�?/p>
注意�Q�对于Capacity调度器，我们的队列名必须是队列树(w��i)中的最后一部分�Q�如果我们��用队列树(w��i)则不�?x��)被识别。比如，在上面配�|�中�Q�我们��?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">prod�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">eng作�ؓ(f��)队列名是可以的，但是如果我们�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">root.dev.eng或�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">dev.eng是无效的�?/p>

三、Fair Scheduler�Q�公�q��度器�Q�的配置

3.1 公��^调度

Fair调度器的设计目标是�ؓ(f��)所有的应用分配公��^的资源（对公�q�的定义可以通过参数来设�|�）(j��)。在上面�?em style="padding: 0px;">“Yarn调度器对比图”展示了一个队列中两个应用的公�q��度；当然�Q�公�q��度在也可以在多个队列间工作。�D个例子，假设有两个用户A和B�Q�他们分别拥有一个队列。当A启动一个job而B没有��d��Ӟ��A�?x��)获得全部集��资源；当B启动一个job后，A的job�?x��)��l�运行，不过一�?x��)儿之后两个��d��?x��)各自获得一半的集群资源。如果此时B再启动第二个job�q�且其它job�q�在�q�行�Q�则它将�?x��)和B的第一个job�׃�nB�q�个队列的资源，也就是B的两个job�?x��)用于四分之一的集��资源，而A的job仍然用于集群一半的资源�Q�结果就是资源最�l�在两个用户之间�q�等的共享。过�E�如下图所�C�：(x��)

3.2 启用Fair Scheduler

调度器的使用是通过yarn-site.xml配置文�g中的yarn.resourcemanager.scheduler.class参数�q�行配置的，默认采用Capacity Scheduler调度器。如果我们要使用Fair调度器，需要在�q�个参数上配�|�FairScheduler�cȝ��全限定名�Q?nbsp;org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler�?/p>

3.3 队列的配�|?/h3>
Fair调度器的配置文�g位于�c��\径下�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">fair-scheduler.xml文�g中，�q�个路径可以通过`yarn.scheduler.fair.allocation.file`属性进行修攏V��若没有�q�个配置文�g�Q�Fair调度器采用的分配�{�略�Q�这个策略和3.1节介�l�的�c�M��Q�调度器�?x��)在用户提交�W�一个应用时为其自动创徏一个队列，队列的名字就是用户名�Q�所有的应用都会(x��)被分配到相应的用户队列中�?/p>
我们可以在配�|�文件中配置每一个队列，�q�且可以像Capacity 调度器一样分层次配置队列。比如，参�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">capacity-scheduler.xml来配�|�fair-scheduler�Q?nbsp;
队列的层�ơ是通过嵌套元素实现的。所有的队列都是`root`队列的孩子，即��我们没有配到元素里。在�q�个配置中，我们�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">dev队列有分成了`eng`�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">science两个队列�?/p>
Fair调度器中的队列有一个权重属性（�q�个权重��是对公�q�的定义�Q�，�q�把�q�个属性作为公�q��度的依据。在�q�个例子中，当调度器分配集群`40:60`资源�l?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">prod�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">dev时便视作公��^�Q?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">eng�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">science队列没有定义权重�Q�则�?x��)被�q�_��分配。这里的权重�q�不是百分比�Q�我们把上面�?0�?0分别替换�?�?�Q�效果也是一��L(f��ng)��。注意，对于在没有配�|�文件时按用戯��动创建的队列�Q�它们仍有权重�ƈ且权重��gؓ(f��)1�?/p>
每个队列内部仍可以有不同的调度策略。队列的默认调度�{�略可以通过��元素�q�行配置�Q�如果没有配�|�，默认采用公��^调度�?/p>
��管是Fair调度器，其仍支持在队列��别进行FIFO调度。每个队列的调度�{�略可以被其内部�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;"> 元素覆盖�Q�在上面�q�个例子中，`prod`队列��p��指定采用FIFO�q�行调度�Q�所以，对于提交�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">prod队列的�Q务就可以按照FIFO规则��序的执行了。需要注意，`prod`�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">dev之间的调度仍然是公��^调度�Q�同�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">eng�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">science也是公��^调度�?/p>
��管上面的配�|�中没有展示�Q�每个队列仍可配�|�最大、最��资源占用数和最大可�q�行的应用的数量�?/p>

3.4 队列的设�|?/h3>

Fair调度器采用了一套基于规则的�pȝ��来确定应用应该放到哪个队列。在上面的例子中�Q?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;"> 元素定义了一个规则列表，其中的每个规则会(x��)被逐个��试直到匚w��成功。例如，上例�W�一个规�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">specified�Q�则�?x��)把应用攑ֈ�它指定的队列中，若这个应用没有指定队列名或队列名不存在，则说明不匚w��q�个规则�Q�然后尝试下一个规则�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">primaryGroup规则�?x��)尝试把应用攑֜��?em style="padding: 0px;">用户所在的Unix�l�名命名的队列中�Q�如果没有这个队列，不创建队列�{而尝试下一个规则。当前面所有规则不满��Ӟ��则触�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">default规则�Q�把应用攑֜�dev.eng队列中�?/p>

当然�Q�我们可以不配置queuePlacementPolicy规则�Q�调度器则默认采用如下规则：(x��)

上面规则可以归结成一句话�Q�除非队列被准确的定义，否则�?x��)以用户名��?f��)队列名创建队列�?/p>

�q�有一个简单的配置�{�略可以使得所有的应用攑օ�同一个队列（default�Q�，�q�样��可以让所有应用之间��^�{�共享集��而不是在用户之间。这个配�|�的定义如下�Q?/p>

实现上面功能我们�q�可以不使用配置文�g�Q�直接设�|?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">yarn.scheduler.fair.user-as-default-queue=false�Q�这样应用便�?x��)被攑օ�default 队列�Q�而不是各个用户名队列。另外，我们�q�可以设�|?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">yarn.scheduler.fair.allow-undeclared-pools=false�Q�这��L(f��ng)��户就无法创徏队列了�?/p>

3.5 抢占�Q�Preemption�Q?/h3>

当一个job提交��C��个繁忙集��中的空队列�Ӟ��job�q�不�?x��)马上执行，而是��d��直到正在�q�行的job释放�pȝ��资源。�ؓ(f��)了��提交job的执行时间更具预��性（可以讄��{�待的超时时��_(d��)��(j��)�Q�Fair调度器支持抢占�?/p>

抢占��是允许调度器杀掉占用超�q�其应占份额资源队列的containers�Q�这些containers资源便可被分配到应该享有�q�些份额资源的队列中。需要注意抢占会(x��)降低集群的执行效率，因�ؓ(f��)被终止的containers需要被重新执行�?/p>

可以通过讄��一个全局的参�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">yarn.scheduler.fair.preemption=true来启用抢占功能。此外，�q�有两个参数用来控制抢占的过期时��_(d��)��q�两个参数默认没有配�|�，需要至��配�|�一个来允许抢占Container�Q�：(x��)

- minimum share preemption timeout - fair share preemption timeout

如果队列�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">minimum share preemption timeout指定的时间内未获得最��的资源保障�Q�调度器��׃��(x��)抢占containers。我们可以通过配置文�g中的��元素为所有队列配�|�这个超时时��_(d��)��我们�q�可以在元素内配�|?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">元素来�ؓ(f��)某个队列指定��时旉��?/p>

与之�c�M��Q�如果队列在fair share preemption timeout指定旉��内未获得�q�等的资源的一半（�q�个比例可以配置�Q�，调度器则�?x��)进行抢占containers。这个超时时间可以通过��元素和元素��元素分别配置所有队列和某个队列的超时时间。上面提到的比例可以通过(配置所有队�?�?code style="font-family: Arial, Helvetica, sans-serif; padding: 0px;">(配置某个队列)�q�行配置�Q�默认是0.5�?/p>

鸉K�� 2017-08-05 00:35 发表评论

hive大数据倾斜�ȝ��

鸉K�� — Mon, 31 Jul 2017 11:57:00 GMT

在做Shuffle阶段的优化过�E�中�Q�遇��C��数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因�ؓ(f��)在Job完成后的所得到的Counters是整个Job的��d��Q�优化是��Z��q�些Counters得出的��^均��|��而由于数据倾斜的原因造成map处理数据量的差异�q�大�Q��得这些��^均��D��代表的�h(hu��n)值降低。Hive的执行是分阶�D늚��Q�map处理数据量的差异取决于上一个stage的reduce输出�Q�所以如何将数据均匀的分配到各个reduce中，��是解决数据倾斜的根本所在。规遉K��误来更好的运行比解决错误更高效。在查看了一些资料后�Q��ȝ��如下�?/p>

1数据倾斜的原�?/strong>

1.1操作�Q?/strong>

关键�?/strong>	情�Ş	后果
Join	其中一个表较小�Q?/p> 但是key集中	分发到某一个或几个Reduce上的数据�q�高于��^均�?/p>
Join	大表与大表，但是分桶的判断字�D?值或�I��D��?/p>	�q�些�I�值都�׃��个reduce处理�Q�灰常慢
group by	group by �l�度�q�小�Q?/p> 某值的数量�q�多	处理某值的reduce灰常耗时
Count Distinct	某特�D��D��?/p>	处理此特�D�值的reduce耗时

1.2原因�Q?/strong>

1)、key分布不均匀

2)、业务数据本�w�的�Ҏ(gu��)�?/p>

3)、徏表时考虑不周

4)、某些SQL语句本��n��有数据倾斜

1.3表现�Q?/strong>

��d��q�度长时间维持在99%�Q�或100%�Q�，查看��d��监控��面�Q�发现只有少量（1个或几个�Q�reduce子�Q务未完成。因为其处理的数据量和其他reduce差异�q�大�?/p>

单一reduce的记录数与��^均记录数差异�q�大�Q�通常可能辑ֈ�3倍甚��x��多�?最长时长远大于�q�_��旉��?/p>

2数据倾斜的解��x��?/strong>

2.1参数调节�Q?/strong>

hive.map.aggr=true

Map 端部分聚合，相当于Combiner

hive.groupby.skewindata=true

有数据倾斜的时候进行负载均衡，当选项讑֮��?true�Q�生成的查询计划�?x��)有两�?MR Job。第一�?MR Job 中，Map 的输出结果集合会(x��)随机分布�?Reduce 中，每个 Reduce 做部分聚合操作，�q�输出结果，�q�样处理的结果是相同�?Group By Key 有可能被分发��C��同的 Reduce 中，从而达到负载均衡的目的�Q�第二个 MR Job 再根据预处理的数据结果按�?Group By Key 分布�?Reduce 中（�q�个�q�程可以保证相同�?Group By Key 被分布到同一�?Reduce 中）(j��)�Q�最后完成最�l�的聚合操作�?/p>

2.2 SQL语句调节�Q?/strong>

如何Join�Q?/strong>

关于驱动表的选取�Q�选用join key分布最均匀的表作�ؓ(f��)驱动�?/p>

做好列裁剪和filter操作�Q�以辑ֈ�两表做join的时候，数据量相对变��的效果�?/p>

大小�?/strong>Join�Q?/strong>

使用map join让小的维度表�Q?000条以下的记录条数�Q?先进内存。在map端完成reduce.

大表Join大表�Q?/strong>

把空值的key变成一个字�W�串加上随机敎ͼ�把倾斜的数据分��C��同的reduce上，�׃��null值关联不上，处理后�ƈ不媄(ji��ng)响最�l�结果�?/p>

count distinct大量相同�Ҏ(gu��)��?/strong>

count distinct�Ӟ��gؓ(f��)�I�的情况单独处理�Q�如果是计算count distinct�Q�可以不用处理，直接�q��o(h��)�Q�在最后结果中�?。如果还有其他计��，需要进行group by�Q�可以先��gؓ(f��)�I�的记录单独处理�Q�再和其他计��结果进行union�?/p>

group by�l�度�q�小�Q?/strong>

采用sum() group by的方式来替换count(distinct)完成计算�?/p>

�Ҏ(gu��)��情况�Ҏ(gu��)��处理�Q?/strong>

在业务逻辑优化效果的不大情况下�Q�有些时候是可以��倾斜的数据单独拿出来处理。最后union回去�?/p>

3典型的业务场�?/strong>

3.1�I��g�生的数据倾斜

场景�Q?/strong>如日志中�Q�常�?x��)有信息丢失的问题，比如日志中�?user_id�Q�如果取其中�?user_id �?用户表中的user_id 兌��Q�会(x��)��到数据倾斜的问题�?/p>

解决�Ҏ(gu��)��1�Q?/strong> user_id为空的不参与兌��Q�红色字体�ؓ(f��)修改后）(j��)

select * from log a   join users b   on a.user_id is not null   and a.user_id = b.user_id union all select * from log a   where a.user_id is null;

解决�Ҏ(gu��)��2 �Q?/strong>赋与�I�值分新的key�?/p>

select *   from log a   left outer join users b   on case when a.user_id is null then concat(‘hive’,rand() ) else a.user_id end = b.user_id;

�l�论�Q?/strong>�Ҏ(gu��)��2比方�?效率更好�Q�不但io��了�Q�而且作业��C��了。解��x��?�?log��d��两次�Q�jobs�?。解��x��? job数是1 。这个优化适合无效 id (比如 -99 , ’’, null �{? 产生的倾斜问题。把�I�值的 key 变成一个字�W�串加上随机敎ͼ��p��把倾斜的数据分��C��同的reduce�?,解决数据倾斜问题�?/p>

3.2不同数据�c�d��兌��产生数据倾斜

场景�Q?/strong>用户表中user_id字段为int�Q�log表中user_id字段既有string�c�d��也有int�c�d��。当按照user_id�q�行两个表的Join操作�Ӟ��默认的Hash操作�?x��)按int型的id来进行分配，�q�样�?x��)导致所有string�c�d��id的记录都分配��C��个Reducer中�?/p>

解决�Ҏ(gu��)��Q?/strong>把数字类型�{换成字符串类�?/p>

select * from users a   left outer join logs b   on a.usr_id = cast(b.user_id as string)

3.3��表不小不大�Q�怎么�?map join 解决倾斜问题

使用 map join 解决��表(记录数少)兌��大表的数据倾斜问题�Q�这个方法��用的频率非常高，但如果小表很大，大到map join�?x��)出现bug或异常，�q�时��需要特别的处理�?nbsp;以下例子:

select * from log a   left outer join users b   on a.user_id = b.user_id;

users 表有 600w+ 的记录，�?users 分发到所有的 map 上也是个不小的开销�Q�而且 map join 不支持这么大的小表。如果用普通的 join�Q�又�?x��)碰到数据倾斜的问题�?/p>

解决�Ҏ(gu��)��Q?/strong>

select /*+mapjoin(x)*/* from log a   
left outer join (     
select  /*+mapjoin(c)*/d.*  from ( 
select distinct user_id from log ) c  join users d       
on c.user_id = d.user_id     ) x   
on a.user_id = b.user_id;

假如�Q�log里user_id有上百万个，�q�就又回到原来map join问题。所�q�，每日的会(x��)员uv不会(x��)太多�Q�有交易的会(x��)员不�?x��)太多，有点�ȝ��会(x��)员不�?x��)太多�Q�有佣金的会(x��)员不�?x��)太多等�{�。所以这个方法能解决很多场景下的数据倾斜问题�?/p>

4�ȝ��

使map的输出数据更均匀的分布到reduce中去�Q�是我们的最�l�目标。由于Hash��法的局限性，按key Hash�?x��)或多或��的造成数据倾斜。大量经验表明数据倾斜的原因是��Zؓ(f��)的徏表疏忽或业务逻辑可以规避的。在此给��为通用的步骤：(x��)

1、采样log表，哪些user_id比较倾斜�Q�得��C��个结果表tmp1。由于对计算框架来说�Q�所有的数据�q�来�Q�他都是不知道数据分布情�늚��Q�所以采��h��q�不可少的�?/p>

2、数据的分布�W�合�C�会(x��)学统计规则，贫富不均。倾斜的key不会(x��)太多�Q�就像一个社�?x��)的富�h不多�Q�奇特的��Z��多一栗��所以tmp1记录��C��(x��)很少。把tmp1和users做map join生成tmp2,把tmp2��d��distribute file cache。这是一个map�q�程�?/p>

3、map��d��users和log�Q�假如记录来自log,则检查user_id是否在tmp2里，如果是，输出到本地文件a,否则生成的key,value对，假如记录来自member,生成的key,value对，�q�入reduce阶段�?/p>

4、最�l�把a文�g�Q�把Stage3 reduce阶段输出的文件合�q��v写到hdfs�?/p>

如果��认业务需要这样倾斜的逻辑�Q�考虑以下的优化方案：(x��)

1、对于join�Q�在判断��表不大�?G的情况下�Q��用map join

2、对于group by或distinct�Q�设�?nbsp;hive.groupby.skewindata=true

3、尽量��用上�q�的SQL语句调节�q�行优化

鸉K�� 2017-07-31 19:57 发表评论

Hive性能调优

鸉K�� — Sun, 30 Jul 2017 05:52:00 GMT
Hive的一般学�?f��n)者和培训者在谈性能优化的时候一般都�?x��)从语法和参数这些雕虫小技的角度谈优化,而不�?x��)革命性的优化Hive的性能,产生�q�种现象的原因有:
1,历史原因和思维定势:大家学习(f��n)SQL的时候一般都是就单机DB,�q�个时候你的性能优化技巧确实主要是SQL语法和参数调�?
2,Hive的核心的性能问题往往是��生在��过规模数据�?例如�?00亿条�U�别的数据集,以及(qi��ng)每天处理上千上万个Hive作业的情况下产生�?

上面的第二点是我们现在Hive性能调优部分要彻底解决的内容;

要从�Ҏ(gu��)��上解军_��显著的解军_��际企业中Hive真正的性能优化问题,必须考虑到底什么是Hive性能的限�?我们按照优先�U�来�?
�W�一重要的是:战略性架�?/span>
解决��量数据下大量Job�q�于频繁的IO问题,而这个问题实质上涉及(qi��ng)了架构方面的分表数据复用以及(qi��ng)分区表等调优的方�?
   补充:1,��量的数据中有些数据是高频��用的数据,而有些是很少使用�?如果能够分离成�ؓ(f��)不同的表,�?x��)极大的提升效�?很多的作业可能会(x��)有共同点,抽离出来先进行计��ƈ保留计算�l�果,后面的作业都可以复用;同时,底层的基��功能
也可以先计算,在上层应用的时候直接拿数据�l�果,而不是每�ơ都重复计算;
   2,合理从用静态分��和动态分��,可以避免数据全局扫描�?qi��ng)计��资源更合理的利�?

   3,数据倾斜的一站式解决�Ҏ(gu��)��;
�W�二重要的是:引擎和物理层�?很多内容都是普通Hive使用�q�不知道�?
   从Hive语法和Job内部的角度去�q�行优化,�q�要求MapReduce以及(qi��ng)Hive如何被翻译成为MapReduce要非常精�?

�W�三重要的是:一些关键的参数;

归根到底,Hive的性能优化主要考虑的是如何最大化和最有效的��用CPU Memory IO;

Hive背后的Mapper调优:
1,Mapper数过�?�?x��)��生大量小文�g,�׃��Mapper是基于虚拟机�?�q�多的Mapper创徏和初始化�?qi��ng)关闭虚拟机都�?x��)消耗大量的��g资源;
   Mapper数太��?�q�发度过��?Job执行旉��q�长,无法充分利用分布式硬件资�?
2,Mapper数据�׃��么决定呢?
   输入文�g数目;
   输入文�g的大��?
   配置参数;
默认情况�?例如一个文�?00M,BLock大小�?28M,那么Mapper数目��是7�?6个Mapper处理的数据是 128M, 1个Mapper处理的数据是32M;再例�?一个目录下有三个文件分别大��问5M 10M 150M
此时�?x��)��?个Mapper,处理的数据分别是5M 10M 128M 22M;

减少Mapper的个�?��p��合�ƈ��文�?�q�种��文件有可能是直接来自于数据源的��文�?也可能是Reducer产生的小文�g;
   set hive.input.format=org.apache.Hadoop.hive.ql.io.CombineHiveInputFormat;
   set hive.merge.mapFiles=true;
   set hive.merge.mapredFiles=true;
   set hive.merge.size.per.task=256000000
   set mapred.max.split.size=256000000
   set mapred.min.split.size.per.node=128000000


增加Mapper的个�?一般是通过控制Hive SQL中上一个Job的Reducer个数来控制的,例如在Join操作的时候会(x��)把多个表分解为多个Job;

set mapred.map.tasks=2;
set hive.merge.mapFiles=true;
set hive.merge.mapredFiles=true;
set hive.merge.size.per.task=256000000

例如我们�?�?00M的文�?按照上面的配�|�会(x��)产生10个Mapper,5个Mapper处理的都�?56M的数�?另外5个Mapper处理的都�?4M的数�?问题�?大的Mapper�?x��)数据倾斜
如何解决,讄��set mapred.map.tasks=6,此时�Ҏ(gu��)��MapRed的运行机�?�?x��)划�?个Mapper,每个Mapper的处理数据的大小�?50M, min(1500M/6, 256M) =250M

Hive背后的Reducer调优:
1,Reducer数目�q�大的话,�?x��)��生很多小文�g,每个Reducer都会(x��)产生一个文�?如果�q�些��文件是下一个JOB的输�?则会(x��)需要对��文件进行合�q?同样启动初始化和销毁Reducer的虚拟机也需要消耗大量的��g;
Reducer数据�q�小的话,Reduce的时间会(x��)比较�?也可能会(x��)出现数据倾斜;
2,如何控制Reducer的个数呢?
set hive.exec.reducers.byte.per.reducer=1G
set hive.exec.reducers.max=999
Reducer个数=min(999, Reducer的数据输入总量/1G);

set mapred.reduce.tasks = 10, 默认�?; 如果说当前的Reducer的结果很�?且被接下来多个Job使用其结�?我们该如何设�|�参数呢?一般都需要调大该参数;

什么情况下只有一个Reducer?如果不进行Group by但却需要汇�?或者说Order by,当然如果最后Reducer的数据小于默认的1G的话,也会(x��)只有一个Reducer;

1,Hive在分布式�q�行的时候最��x��的是数据倾斜,�q�是�׃��分布式系�l�的�Ҏ(gu��)��决定的,因�ؓ(f��)分布式系�l�之所以很快是�׃��作业�q�_��分配�l�了不同的节�?不同节点同心协力,从而达到更快处理完作业的目�?
��Z��说明一�?处理数据倾斜的能力是hadoop�?a title="Apache Spark知识�? target="_blank" style="text-decoration: none; color: #df3434; font-weight: bold;">Spark工程师最核心的竞争力之一;

2,Hive中数据倾斜的原�?
   数据在分布式节点上分布不�q��;
   join时某些key可能特别�?
   groupBy的时候某个Key可能特别�?
   count(distinct)有可能出现数据倾斜,因�ؓ(f��)其内部首先会(x��)�q�行groupBy操作;

3,join,我们希望join时候key是分�?如果一个key的数据量特别�?有可能会(x��)出现数据倾斜和OOM,一个核心点�?��表join大表,在reduce阶段左侧的小表会(x��)加蝲�q�内�?减少OOM的风�?
4,大表join大表的情�?数据倾斜,例如null�?解决办法一般是要打散null�?例如说��用随机数�{?如果数据倾斜比较严重,采用�q�种方式可以提升臛_��一倍的速度;
5,mapJoin:��表join(��?大表的时�?可以采用mapJoin的方式把��表全部加蝲到Mapper端的内存�?*+MAPJOIN(table_name)*/;
6,��表join(��?大表的时�?是否�?x��)自动进行mapJoin,惌��行mapJoin,需要设�|?set hive.auto.convert.join=true,Hive在进行join的时候会(x��)判断左表的大��来军_��是否�q�行mapJoin:
   set hive.mapjoin.smalltable.filesize=128000000;
   set hive.mapjoin.cache.numrows=100000;
   上述参数可以�Ҏ(gu��)��实际的硬件机器的内存�q�行调整,�Ҏ(gu��)��能有至关重要的影响,因�ؓ(f��)没有了Shuffle;
对于mapJoin我们能够使用Mapper端JVM中多大的内存�?
   set hive.mapjoin.followby.gby.localtask.max.momery.usage = 0.8
   set hive.mapjoin.localtask.max.memory.uage=0.9
7,groupBy,我们可以讄��在Mapper端进行部分聚�?最后在Reducer端进行全局聚合
   set hive.map.aggr=true;
   set hive.groupby.mapaggr.checkinterval=100000

   set hive.groupby.skewindata = true 内部�?x��)��生两个Job,�W�一个Job�?x��)通过自己�?a title="��法与数据结构知识库" target="_blank" style="text-decoration: none; color: #df3434; font-weight: bold;">��法打散倾斜的Key�q�进行聚合操作且保留�l�果,�W�二个Job�?x��)完成全部的groupBy操作,�?x��)��生Mapper-Reducer-Reducer的结�?br data-filtered="filtered" />
8, count(distinct),如果某个字段特别�?�Ҏ(gu��)��产生数据倾斜,解决思�\:
   在查询语句中例如对null�q�行�q��o(h��),在结果中�?

9, �W�卡��?d��ng)�?join时候没有on条�g,或者on条�g无效,�q�个时候会(x��)使用Reducer�q�行�W�卡��?d��ng)积的操�?

鸉K�� 2017-07-30 13:52 发表评论

HIVE和HBASE区别

鸉K�� — Fri, 21 Jul 2017 03:44:00 GMT

1. 两者分别是什么？

Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一�U�类SQL语言�Q�这�U�语�a�最�l�被转化为Map/Reduce. 虽然Hive提供了SQL查询功能�Q�但是Hive不能够进行交互查�?-因�ؓ(f��)它只能够在Haoop上批量的执行Hadoop�?/p>
    Apache HBase是一�U�Key/Value�pȝ��Q�它�q�行在HDFS之上。和Hive不一��P��Hbase的能够在它的数据库上实时�q�行�Q�而不是运行MapReduce��d��。Hive被分��Zؓ(f��)表格�Q�表格又被进一步分割�ؓ(f��)列簇。列��必��M��用schema定义�Q�列��将某一�c�d��列集合�v来（列不要求schema定义�Q�。例如，“message”列簇可能包含�Q?#8220;to”, ”from” “date”, “subject”, �?#8221;body”. 每一�?key/value对在Hbase中被定义��Z��个cell�Q�每一个key由row-key�Q�列��、列和时间戳。在Hbase中，行是key/value映射的集合，�q�个映射通过row-key来唯一标识。Hbase利用Hadoop的基��设施�Q�可以利用通用的设备进行水�q�的扩展�?/p>
2. 两者的特点

  Hive帮助熟�?zh��n)�SQL的�h�q�行MapReduce��d��。因为它是JDBC兼容的，同时�Q�它也能够和现存的SQL工具整合在一赗��运行Hive查询�?x��)花费很长时��_(d��)��因�ؓ(f��)它会(x��)默认遍历表中所有的数据。虽然有�q�样的缺点，一�ơ遍历的数据量可以通过Hive的分区机制来控制。分区允许在数据集上�q�行�q��o(h��)查询�Q�这些数据集存储在不同的文�g夹内�Q�查询的时候只遍历指定文�g夹（分区�Q�中的数据。这�U�机制可以用来，例如�Q�只处理在某一个时间范围内的文�Ӟ��只要�q�些文�g名中包括了时间格式�?/p>
    HBase通过存储key/value来工作。它支持四种主要的操作：(x��)增加或者更新行�Q�查看一个范围内的cell�Q�获取指定的行，删除指定的行、列或者是列的版本。版本信息用来获取历史数据（每一行的历史数据可以被删除，然后通过Hbase compactions��可以释攑և��I�间�Q�。虽然HBase包括表格�Q�但是schema仅仅被表格和列簇所要求�Q�列不需要schema。Hbase的表格包括增�?计数功能�?/p>
3. 限制

Hive目前不支持更新操作。另外，�׃��hive在hadoop上运行批量操作，它需要花费很长的旉��Q�通常是几分钟到几个小时才可以获取到查询的�l�果。Hive必须提供预先定义好的schema��文件和目录映射到列�Q��ƈ且Hive与ACID不兼宏V�?/p>
    HBase查询是通过特定的语�a�来编写的�Q�这�U�语�a�需要重新学�?f��n)。类SQL的功能可以通过Apache Phonenix实现�Q�但�q�是以必��L��供schema��Z��L(f��ng)��。另外，Hbase也�ƈ不是兼容所有的ACID�Ҏ(gu��)��，虽然它支持某些特性。最后但不是最重要�?-��Z��q�行Hbase�Q?font style="padding-bottom: 0px; padding-top: 0px; padding-left: 0px; margin: 0px; padding-right: 0px" color="#0000ff">Zookeeper是必��ȝ��Q�zookeeper是一个用来进行分布式协调的服务，�q�些服务包括配置服务�Q�维护元信息和命名空间服务�?/p>
4. 应用场景

    Hive适合用来对一�D�|��间内的数据进行分析查询，例如�Q�用来计��趋势或者网站的日志。Hive不应该用来进行实时的查询。因为它需要很长时间才可以�q�回�l�果�?/p>
    Hbase非常适合用来�q�行大数据的实时查询。Facebook用Hbase�q�行消息和实时的分析。它也可以用来统计Facebook的连接数�?/p>
5. �ȝ��

    Hive和Hbase是两�U�基于Hadoop的不同技�?-Hive是一�U�类SQL的引擎，�q�且�q�行MapReduce��d��Q�Hbase是一�U�在Hadoop之上的NoSQL 的Key/vale数据库。当�?d��ng)��q�两�U�工��h��可以同时使用的。就像用Google来搜索，用FaceBook�q�行�C�交一��P��Hive可以用来�q�行�l�计查询�Q�HBase可以用来�q�行实时查询�Q�数据也可以从Hive写到Hbase�Q�设�|�再从Hbase写回Hive�?/p>

鸉K�� 2017-07-21 11:44 发表评论

Hive分布式安装配�|�Hive+Mysql

鸉K�� — Thu, 20 Jul 2017 07:20:00 GMT
     摘要: 目录 1�Q�环境准�?nbsp;2�Q�安装Hive和配�|�环境变�?nbsp;3�Q�安装MySQL 4�Q�在mysql上创建hive元数据库�Q��ƈ对hive�q�行授权 5�Q�安装jar包到hive 6�Q�配�|�hive-site.xml 7�Q�元数据存储初始�?nbsp;8�Q�启动验证hive 9�Q�报错及(qi��ng)解决�Ҏ(gu��)�� 1�Q�环境准备：(x��) 准备好Hadoop集群�Q�参�?..  阅读全文

鸉K�� 2017-07-20 15:20 发表评论

TCP/UDP区别以及(qi��ng)UDP如何实现可靠传输

鸉K�� — Wed, 19 Jul 2017 14:25:00 GMT

TCP和UDP是OSI模型中的�q�输层中的协议。TCP提供可靠的通信传输�Q�而UDP则常被用于让�q�播和细节控制交�l�应用的通信传输�?/span>

UDP(User Datagram Protocol)

UDP不提供复杂的控制机制�Q�利用IP提供面向无连接的通信服务。�ƈ且它是将应用�E�序发来的数据在收到的那一刻，立刻按照原样发送到�|�络上的一�U�机制�?/span>

即��是出现网�l�拥�늚�情况下，UDP也无法进行流量控制等避免�|�络拥塞的行为。此外，传输途中如果出现了丢包，UDO也不负责重发。甚臛_��出现包的到达��序乱掉时也没有�U�正的功能。如果需要这些细节控�Ӟ��那么不得不交�l�由采用UDO的应用程序去处理。换句话��_(d��)��UDP��部分控制�{�U�d��应用�E�序��d��理，自己却只提供作�ؓ(f��)传输层协议的最基本功能。UDP有点�c�M��于用戯��什么听什么的机制�Q�但是需要用户充分考虑好上层协议类型�ƈ制作相应的应用程序�?/span>

TCP(Transmission Control Protocol)

TCP充分实现爱呢了数据传输时各种控制功能�Q�可以进行丢包的重发控制�Q�还可以�Ҏ(gu��)��序�ؕ掉的分包�q�行��序控制。而这些在UDP中都没有。此外，TCP作�ؓ(f��)一�U�面向有�q�接的协议，只有在确认通信对端存在时才�?x��)发送数据，从而可以控刉��信��量的浪贏V�?/span>

TCP通过��(g��)验和、序列号、确认应�{�、重发控制、连接管理以�?qi��ng)窗口控制等机制实现可靠性传输。此处不一一叙述�?/span>

TCP与UDP如何加以区分使用�Q?/span>

TCP用于在传输层有必要实现可靠性传输的情况。由于它是面向有�q�接�q�具备顺序控制、重发控制等机制的。所以它可以为应用提供可靠传输�?/span>

另一斚w��Q�UDP主要用于那些寚w��速传输和实时性有较高要求的通信或广播通信。�D一个IP�?sh��)话�q�行通话的例子。如果��用TCP�Q�数据在传送途中如果丢失�?x��)被重发�Q�但是这��h��法流畅地传输通话人的声音�Q�会(x��)��D��无法�q�行正常交流。而采用UDP�Q�它不会(x��)�q�行重发处理。从而也��׃��?x��)有声音大幅度�g�q�到辄��问题。即使有部分数据丢失�Q�也只是影响某一��部分的通话。此外，在多播与�q�播通信中也使用UDP而不是UDP。RIP、DHCP�{�基于广播的协议也要依赖于UDP�?/span>

TCP与UDP区别�ȝ��Q?/strong>

1、TCP面向�q�接�Q�如打电(sh��)话要先拨号徏立连接）(j��);UDP是无�q�接的，卛_��送数据之前不需要徏立连�?/span>
2、TCP提供可靠的服务。也��是��_(d��)��通过TCP�q�接传送的数据�Q�无差错�Q�不丢失�Q�不重复�Q�且按序到达;UDP��最大努力交付，即不保证可靠交付
3、TCP面向字节��，实际上是TCP把数据看成一�q�串无结构的字节��?UDP是面向报文的
UDP没有拥塞控制�Q�因此网�l�出现拥塞不�?x��)��源主机的发送速率降低�Q�对实时应用很有用，如IP�?sh��)话�Q�实时视频会(x��)议等�Q?br />4、每一条TCP�q�接只能是点到点�?UDP支持一对一�Q�一对多�Q�多对一和多对多的交互通信
5、TCP首部开销20字节;UDP的首部开销��，只有8个字�?br />
6、TCP的逻辑通信信道是全双工的可靠信道，UDP则是不可靠信�?/span>

UDP如何实现可靠传输

�׃��在传输层UDP已经是不可靠的连接，那就要在应用层自己实��C��些保障可靠传输的机制

��单来�Ԍ��要��用UDP来构建可靠的面向�q�接的数据传输，��p��实现�c�M��于TCP协议�?/span>

��时重传�Q�定时器�Q?/span>

有序接受 �Q�添加包序号�Q?/span>

应答��认 �Q�Seq/Ack应答机制�Q?/span>

滑动�H�口��量控制�{�机�?�Q�滑动窗口协议）(j��)

�{�于说要在传输层的上一层（或者直接在应用层）(j��)实现TCP协议的可靠数据传输机�Ӟ��比如使用UDP数据�?序列��P��UDP数据�?旉��戳等�Ҏ(gu��)��?/span>

目前已经有一些实现UDP可靠传输的机�Ӟ��比如

UDT�Q?span style="font-size: 14px; font-family: arial, 宋体, sans-serif; line-height: 25px">UDP-based Data Transfer Protocol�Q?/span>

��Z��UDP的数据传输协议（UDP-based Data Transfer Protocol�Q�简�U�UDT�Q�是一�U�互联网数据传输协议。UDT的主要目的是支持高速广域网上的��量数据传输�Q�而互联网上的标准数据传输协议TCP在高带宽长距��ȝ��l�上性能很差�?��֐�思义�Q?/span>UDT��Z��UDP之上�Q��ƈ引入新的拥塞控制和数据可靠性控制机制。UDT是面向连接的双向的应用层协议。它同时支持可靠的数据流传输和部分可靠的数据报传输�?/span> �׃��UDT完全在UDP上实玎ͼ�它也可以应用在除了高速数据传输之外的其它应用领域�Q�例如点到点技术（P2P�Q�，防火墙穿透，多媒体数据传输等�{��?/span>

鸉K�� 2017-07-19 22:25 发表评论

一文读懂分布式数据库Hbase

鸉K�� — Wed, 19 Jul 2017 14:24:00 GMT

一�?/p>
1、什么是Hbase�?/p>
�?/span>一个高可靠性、高性能、列存储、可伸羃、实时读写的分布�?a title="MySQL知识�? class="replace_word" style="text-decoration: none; font-weight: bold; color: rgb(223,52,52)" target="_blank">数据�?/a>�pȝ��?/span>

适合于存储非�l�构�?/span>数据�Q�基于列的而不是基于行的模�?/span>

如图�Q?a title="Hadoop知识�? class="replace_word" style="text-decoration: none; font-weight: bold; color: rgb(223,52,52)" target="_blank">Hadoop生态中hbase与其他部分的关系�?br />

2、关�p�L��据库已经��行很多�q�_(d��)��q�且hadoop已经有了HDFS和MapReduce�Q��ؓ(f��)什么需要HBase?

Hadoop可以很好地解军_��规模数据的离�U�批量处理问题，但是�Q�受限于HadoopMapReduce�~�程框架的高延迟数据处理机制�Q��?/span>Hadoop无法满��大规模数据实时处理应用的需�?/span>

HDFS面向扚w��讉K��模式�Q�不是随��问模�?/span>

传统的通用关系型数据库无法应对在数据规模剧增时��D��的系�l�扩展性和性能问题�Q�分库分表也不能很好解决�Q?/span>

传统关系数据库在数据�l�构变化时一般需要停机维护；�I�列��费存储�I�间

因此�Q�业界出��C��一�c�面向半�l�构化数据存储和处理的高可扩展、低写入/查询延迟的系�l�，例如�Q�键值数据库、文档数据库和列族数据库�Q�如BigTable�?/span>HBase�{�）(j��)

HBase已经成功应用于互联网服务领域和传�l�行业的众多在线式数据分析处理系�l�中
3�?/span>HBase与传�l�的关系数据库的区别

�Q?/span>1�Q�数据类型：(x��)关系数据库采用关�p�L��型，��h��丰富的数据类型和存储方式�Q?/span>HBase则采用了更加��单的数据模型�Q�它把数据存储�ؓ(f��)未经解释的字�W�串

�Q?/span>2�Q�数据操作：(x��)关系数据库中包含了丰富的操作�Q�其中会(x��)涉及(qi��ng)复杂的多表连接�?/span>HBase操作则不存在复杂的表与表之间的关�p�，只有��单的插入、查询、删除、清�I�等�Q�因�?/span>HBase在设计上��避免了复杂的表和表之间的关�p?br />�Q?/span>3�Q�存储模式：(x��)关系数据库是��Z��行模式存储的�?/span>HBase是基于列存储的，每个列族都由几个文�g保存�Q�不同列族的文�g是分��ȝ��

�Q?/span>4�Q�数据烦(ch��)引：(x��)关系数据库通常可以针对不同列构建复杂的多个索引�Q�以提高数据讉K��性能�?/span>HBase只有一个烦(ch��)�?#8212;—行键�Q�通过巧妙的设计，HBase中的所有访问方法，或者通过行键讉K��Q�或者通过行键扫描�Q�从而��得整个系�l�不�?x��)慢下�?/span>

�Q?/span>5�Q�数据维护：(x��)在关�p�L��据库中，更新操作�?x��)用最新的当前值去替换记录中原来的旧��|��旧��D��覆盖后就不会(x��)存在。�?span style="color: rgb(255,0,0)">�?/span>HBase中执行更新操作时�Q��ƈ不会(x��)删除数据旧的版本�Q�而是生成一个新的版本，旧有的版本仍然保�?/span>

�Q?/span>6�Q�可伸羃性：(x��)关系数据库很隑֮�现横向扩展，�U�向扩展的空间也比较有限。相反，HBase和BigTable�q�些分布式数据库��是��Z��实现灉|��的水�q�x��展而开发的�Q�能够轻易地通过在集��中增加或者减��硬件数量来实现性能的�׾~?/span>
二、Hbase数据模型

1、模型概�q?/p>

HBase是一个稀疏、多�l�度、排序的映射表，�q�张表的索引是行键、列族、列限定�W�和旉��?/span>

每个值是一个未�l�解释的字符�Ԍ��没有数据�c�d��

用户在表中存储数据，每一行都有一个可排序的行键和��L��多的�?/span>

表在水��^方向�׃��个或者多个列族组成，一个列族中可以包含��L��多个列，同一个列族里面的数据存储在一�?/span>

列族支持动态扩展，可以很轻村֜��d��一个列族或列，无需预先定义列的数量以及(qi��ng)�c�d��Q�所有列均以字符串�Ş式存储，用户需要自行进行数据类型�{�?/span>

HBase中执行更新操作时�Q��ƈ不会(x��)删除数据旧的版本�Q�而是生成一个新的版本，旧有的版本仍然保留（�q�是�?/span>HDFS只允许追加不允许修改的特性相关的�Q?br />

2、数据坐�?br />HBase中需要根据行键、列族、列限定�W�和旉��x��定一个单元格�Q�因此，可以视�ؓ(f��)一�?#8220;四维坐标”�Q�即[行键,列族, 列限定符,旉��?/span>]

�?/span>

�?/span>

[“201505003”,“Info”,“email”, 1174184619081]

“xie@qq.com”

[“201505003”,“Info”,“email”, 1174184620720]

“you@163.com”

3、概念视�?br />

4、物理视�?br />

三、HBase实现原理

1�?span style="color: black">HBase的实现包括三个主要的功能�l��g�Q?/span>

�Q?/span>1�Q�库函数�Q�链接到每个客户�?/span>

�Q?/span>2�Q�一�?/span>Master��L��务器

�Q?/span>3�Q�许多个Region服务�?br />
��L��务器Master负责��理和维护HBase表的分区信息�Q�维�?/span>Region服务器列表，分配Region�Q�负载均�?/span>

Region服务器负责存储和�l�护分配�l�自��q��Region�Q�处理来自客��L(f��ng)��的读写请�?/span>

客户端�ƈ不是直接�?/span>Master��L��务器上读取数据，而是在获�?/span>Region的存储位�|�信息后�Q�直接从Region服务器上��d��数据

客户端�ƈ不依�?/span>Master�Q�而是通过Zookeeper来获�?/span>Region位置信息�Q�大多数客户端甚至从来不�?/span>Master通信�Q�这�U�设计方式��?/span>Master负蝲很小

2、Region
开始只有一�?/span>Region�Q�后来不断分�?/span>

Region拆分操作非常快，接近瞬间�Q�因为拆分之后的Region��d��的仍然是原存储文�Ӟ��直到“合�ƈ”�q�程把存储文件异步地写到独立的文件之后，才会(x��)��d��新文�?/span>

同一�?/span>Region不会(x��)被分拆到多个Region服务�?br />
每个Region服务器存�?/span>10-1000�?/span>Region

元数据表�Q�又�?/span>.META.表，存储�?/span>Region�?/span>Region服务器的映射关系

�?/span>HBase表很大时�Q?/span> .META.表也�?x��)被分裂成多�?/span>Region

�Ҏ(gu��)��据表�Q�又�?/span>-ROOT-表，记录所有元数据的具体位�|?/span>

-ROOT-表只有唯一一�?/span>Region�Q�名字是在程序中被写�ȝ��

Zookeeper文�g记录�?/span>-ROOT-表的位置

客户端访问数据时�?#8220;三��d��”

��Z��加速寻址�Q�客��L(f��ng)��?x��)缓存位�|�信息，同时�Q�需要解决缓存失效问�?/span>

��d��q�程客户端只需要询�?/span>Zookeeper服务器，不需要连�?/span>Master服务�?/span>

3、HBase的三层结构中各层�ơ的名称和作�?/span>

层次

名称

作用

�W�一�?/span>

Zookeper文�g

记录�?/span>-ROOT-表的位置信息

�W�二�?/span>

-ROOT-�?/span>

记录�?/span>.META.表的Region位置信息

-ROOT-表只能有一�?/span>Region。通过-ROOT-表，��可以访�?/span>.META.表中的数�?/span>

�W�三�?/span>

.META.�?/span>

记录了用��h��据表�?/span>Region位置信息�Q?/span>.META.表可以有多个Region�Q�保存了HBase中所有用��h��据表�?/span>Region位置信息

四、HBase�q�行机制
1、HBase�pȝ��架构

(1、客��L(f��ng)��包含讉K��HBase的接口，同时在缓存中�l�护着已经讉K��q�的Region位置信息�Q�用来加快后�l�数据访问过�E?/span>

(2、Zookeeper可以帮助选�D��Z��?/span>Master作�ؓ(f��)集群的�ȝ��Q��ƈ保证在�Q何时��L��L��唯一一�?/span>Master在运行，�q�就避免�?/span>Master�?#8220;单点失效”问题
�Q?span style="color: black">Zookeeper是一个很好的集群��理工具�Q�被大量用于分布式计��，提供配置�l�护、域名服务、分布式同步、组服务�{��?/span>�Q?br />

(3. Master

��L��务器Master主要负责表和Region的管理工作：(x��)

��理用户对表的增加、删除、修攏V��查询等操作

实现不同Region服务器之间的负蝲均衡

�?/span>Region分裂或合�q�后�Q�负责重新调�?/span>Region的分�?/span>

对发生故障失效的Region服务器上�?/span>Region�q�行�q�移

(4. Region服务�?/span>

Region服务器是HBase中最核心的模块，负责�l�护分配�l�自��q��Region�Q��ƈ响应用户的读写请�?/span>
2、Region

(1、用戯��写数据过�E?br />用户写入数据�Ӟ��被分配到相应Region服务器去执行

用户数据首先被写入到MemStore�?/span>Hlog�?/span>

只有当操作写�?/span>Hlog之后�Q?/span>commit()调用才会(x��)��其�q�回�l�客��L(f��ng)��

当用戯��取数据时�Q?/span>Region服务器会(x��)首先讉K��MemStore�~�存�Q�如果找不到�Q�再�ȝ��盘上面的StoreFile中寻�?/span>
(2、缓存的��h��

�pȝ��?x��)周期性地�?/span>MemStore�~�存里的内容刷写到磁盘的StoreFile文�g中，清空�~�存�Q��ƈ�?/span>Hlog里面写入一个标记�?br />每次刷写都生成一个新�?/span>StoreFile文�g�Q�因此，每个Store包含多个StoreFile文�g

每个Region服务器都有一个自��q��HLog文�g�Q�每�ơ启动都��(g��)查该文�g�Q�确认最�q�一�ơ执行缓存刷新操作之后是否发生新的写入操作；如果发现更新�Q�则先写�?/span>MemStore�Q�再刷写�?/span>StoreFile�Q�最后删除旧�?/span>Hlog文�g�Q�开始�ؓ(f��)用户提供服务
(3、StroreFile的合�q?span style="color: black">
每次刷写都生成一个新�?/span>StoreFile�Q�数量太多，影响查找速度

调用Store.compact()把多个合�q�成一�?/span>

合�ƈ操作比较耗费资源�Q�只有数量达��C��个阈值才启动合�ƈ
3、Store工作原理

Store�?/span>Region服务器的核心

多个StoreFile合�ƈ成一�?br />触发分裂操作�Q?/span>1个父Region被分裂成两个�?/span>Region

单个StoreFile�q�大�Ӟ��?/span>
4、HLog工作原理

分布式环境必��要考虑�pȝ��出错�?/span>HBase采用HLog保证�pȝ��恢复

HBase�pȝ��为每�?/span>Region服务器配�|�了一�?/span>HLog文�g�Q�它是一�U�预写式日志�Q?/span>WriteAhead Log�Q?/span>

用户更新数据必须首先写入日志后，才能写入MemStore�~�存�Q��ƈ且，直到MemStore�~�存内容对应的日志已�l�写入磁盘，该缓存内�Ҏ(gu��)��能被刷写到磁�?/span>

Zookeeper�?x��)实时监��每�?/span>Region服务器的状态，当某�?/span>Region服务器发生故障时�Q?/span>Zookeeper�?x��)通知Master

Master首先�?x��)处理该故�?/span>Region服务器上面遗留的HLog文�g�Q�这个遗留的HLog文�g中包含了来自多个Region对象的日志记�?/span>

�pȝ��?x��)根据每条日志记录所属的Region对象�?/span>HLog数据�q�行拆分�Q�分别放到相�?/span>Region对象的目录下�Q�然后，再将失效�?/span>Region重新分配到可用的Region服务器中�Q��ƈ把与�?/span>Region对象相关�?/span>HLog日志记录也发送给相应�?/span>Region服务�?/span>

Region服务器领取到分配�l�自��q��Region对象以及(qi��ng)与之相关�?/span>HLog日志记录以后�Q�会(x��)重新做一遍日志记录中的各�U�操作，把日志记录中的数据写入到MemStore�~�存中，然后�Q�刷新到��盘�?/span>StoreFile文�g中，完成数据恢复

��q��日志优点�Q�提高对表的写操作性能�Q�缺点：(x��)恢复旉��要分拆日�?/span>
五、HBase性能
1�?span style="color: black">行键�Q�RowKey�Q?br />

行键是按�?/span>字典�?/span>存储�Q�因此，设计行键�Ӟ��要充分利用这个排序特点，��经�怸�赯��取的数据存储��C��块，��最�q�可能会(x��)被访问的数据攑֜�一块�?/span>

举个例子�Q�如果最�q�写�?/span>HBase表中的数据是最可能被访问的�Q�可以考虑��时间戳作�ؓ(f��)行键的一部分�Q�由于是字典序排序，所以可以��?/span>Long.MAX_VALUE- timestamp作�ؓ(f��)行键�Q�这栯��保证新写入的数据在读取时可以被快速命中�?/span>

InMemory�Q�创��的时候，可以通过HColumnDescriptor.setInMemory(true)��表攑ֈ�Region服务器的�~�存中，保证在读取的时候被cache命中�?/span>

Max Version�Q�创��的时候，可以通过HColumnDescriptor.setMaxVersions(int maxVersions)讄��表中数据的最大版本，如果只需要保存最新版本的数据�Q�那么可以设�|?/span>setMaxVersions(1)�?/span>

Time To Live创徏表的时候，可以通过HColumnDescriptor.setTimeToLive(inttimeToLive)讄��表中数据的存储生命期�Q�过期数据将自动被删除，例如如果只需要存储最�q�两天的数据�Q�那么可以设�|?/span>setTimeToLive(2* 24 * 60 * 60)�?/span>

2、HBaseMaster默认��Z��Web�?/span>UI服务端口�?/span>60010�Q?/span>HBase region服务器默认基�?/span>Web�?/span>UI服务端口�?/span>60030.如果master�q�行在名�?/span>master.foo.com的主��Z��Q?/span>mater的主��地址��是http://master.foo.com:60010�Q�用户可以通过Web��览器输入这个地址查看该页�?/span>

可以查看HBase集群的当前状�?/span>
3�?span style="color: black">NoSQL区别于关�p�d��数据库的一点就�?/span>NoSQL不��?/span>SQL作�ؓ(f��)查询语言�Q�至于�ؓ(f��)何在NoSQL数据存储HBase上提�?/span>SQL接口

易��用，减少�~�码

4、HBase只有一个针对行健的索引

讉K��HBase表中的行�Q�只有三�U�方式：(x��)

通过单个行健讉K��

通过一个行健的区间来访�?/span>

全表扫描

�ȝ��Q?br />
1、HBase数据库是BigTable的开源实玎ͼ��?/span>BigTable一��P��支持大规模�v量数据，分布式�ƈ发数据处理效率极高，易于扩展且支持动态�׾~�，适用于廉仯��?/span>

2、HBase可以支持NativeJava API�?/span>HBaseShell�?/span>ThriftGateway�?/span>Hive�{�多�U�访问接口，可以�Ҏ(gu��)��具体应用场合选择相应讉K��方式

3、HBase实际上就是一个稀疏、多�l�、持久化存储的映��表�Q�它采用行键、列键和旉��戌��行烦(ch��)引，每个值都是未�l�解释的字符丌Ӏ?/span>

4、HBase采用分区存储�Q�一个大的表�?x��)被分拆许多�?/span>Region�Q�这�?/span>Region�?x��)被分发��C��同的服务器上实现分布式存�?/span>

5、HBase的系�l�架构包括客��L(f��ng)��?/span>Zookeeper服务器�?/span>Master��L��务器�?/span>Region服务器。客��L(f��ng)��包含讉K��HBase的接口；Zookeeper服务器负责提供稳定可靠的协同服务�Q?/span>Master��L��务器主要负责表和Region的管理工作；Region服务器负责维护分配给自己�?/span>Region�Q��ƈ响应用户的读写请�?/span>

鸉K�� 2017-07-19 22:24 发表评论

层次	名称	作用
�W�一�?/span>	Zookeper文�g	记录�?/span>-ROOT-表的位置信息
�W�二�?/span>	-ROOT-�?/span>	记录�?/span>.META.表的Region位置信息 -ROOT-表只能有一�?/span>Region。通过-ROOT-表，��可以访�?/span>.META.表中的数�?/span>
�W�三�?/span>	.META.�?/span>	记录了用��h��据表�?/span>Region位置信息�Q?/span>.META.表可以有多个Region�Q�保存了HBase中所有用��h��据表�?/span>Region位置信息

亚洲精品亚洲人成在线,亚洲精品人成网在线播放影院,亚洲一级毛片视频

POI操作Excel

Yarn 调度器Scheduler详解

一、调度器的选择

二、Capacity Scheduler�Q�容器调度器�Q�的配置

2.1 容器调度介绍

三、Fair Scheduler�Q�公�q����度器�Q�的配置

3.1 公��^调度

3.2 启用Fair Scheduler

hive大数据倾斜�ȝ��

1数据倾斜的原�?/strong>

1.1操作�Q?/strong>

1.2原因�Q?/strong>

1.3表现�Q?/strong>

2数据倾斜的解��x���?/strong>

2.1参数调节�Q?/strong>

2.2 SQL语句调节�Q?/strong>

3典型的业务场�?/strong>

3.1�I���g�生的数据倾斜

3.2不同数据�c�d��兌���产生数据倾斜

3.3���表不小不大�Q�怎么�?map join 解决倾斜问题

4�ȝ��

Hive性能调优

HIVE和HBASE区别

Hive分布式安装配�|�Hive+Mysql

TCP/UDP区别以及(qi��ng)UDP如何实现可靠传输

UDT�Q?span style="font-size: 14px; font-family: arial, 宋体, sans-serif; line-height: 25px">UDP-based Data Transfer Protocol�Q?/span>

一文读懂分布式数据库Hbase

三、Fair Scheduler�Q�公�q��度器�Q�的配置

2数据倾斜的解��x��?/strong>

3.1�I��g�生的数据倾斜

3.2不同数据�c�d��兌��产生数据倾斜

3.3��表不小不大�Q�怎么�?map join 解决倾斜问题