<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    Change Dir

    先知cd——熱愛生活是一切藝術的開始

    統計

    留言簿(18)

    積分與排名

    “?!眰兊牟┛?/h3>

    各個公司技術

    我的鏈接

    淘寶技術

    閱讀排行榜

    評論排行榜

    Hive配置項的含義詳解(2)

    標記粗體的我個人認為在運行hive sql時可以根據數據情況進行設置,當然還有一些join的優化的配置需要單獨研究。

     

    mapred.reduce.tasks:每個作業的reduce任務數,默認是hadoop client的配置1個;

    hive.exec.reducers.bytes.per.reducer:每個reducer的大小,默認是1G,輸入文件如果是10G,那么就會起10個reducer;

    hive.exec.reducers.max:reducer的最大個數,如果在mapred.reduce.tasks設置為負值,那么hive將取該值作為reducers的最大可能值。當然還要依賴(輸入文件大小/hive.exec.reducers.bytes.per.reducer)所得出的大小,取其小值作為reducer的個數,hive默認是999;

    hive.fileformat.check:加載數據文件時是否校驗文件格式,默認是true;

    hive.groupby.skewindata:group by操作是否允許數據傾斜,默認是false,當設置為true時,執行計劃會生成兩個map/reduce作業,第一個MR中會將map的結果隨機分布到reduce中,達到負載均衡的目的來解決數據傾斜,可以參看阿里巴巴數據平臺的這篇文章了解hive對于數據傾斜時group by的處理;

    hive.groupby.mapaggr.checkinterval:map端做聚合時,group by 的key所允許的數據行數,超過該值則進行分拆,默認是100000;

    hive.mapred.local.mem:本地模式時,map/reduce的內存使用量,默認是0,就是無限制;

    hive.mapjoin.followby.map.aggr.hash.percentmemory:map端聚合時hash表的內存占比,該設置約束group by在map join后進行,否則使用hive.map.aggr.hash.percentmemory來確認內存占比,默認值0.3;

    hive.map.aggr.hash.force.flush.memeory.threshold:map端聚合時hash表的最大可用內存,如果超過該值則進行flush數據,默認是0.9;

    hive.map.aggr.hash.min.reduction:如果hash表的容量與輸入行數之比超過這個數,那么map端的hash聚合將被關閉,默認是0.5,設置為1可以保證hash聚合永不被關閉;

    hive.optimize.groupby:在做分區和表查詢時是否做分桶group by,默認開啟true;

    hive.multigroupby.singlemr:將多個group by產出為一個單一map/reduce任務計劃,當然約束前提是group by有相同的key,默認是false;

    hive.optimize.cp:列裁剪,默認開啟true,在做查詢時只讀取用到的列,這個是個有用的優化;

    hive.optimize.index.filter:自動使用索引,默認不開啟false;

    hive.optimize.index.groupby:是否使用聚集索引優化group-by查詢,默認關閉false;

    hive.optimize.ppd:是否支持謂詞下推,默認開啟;所謂謂詞下推,將外層查詢塊的 WHERE 子句中的謂詞移入所包含的較低層查詢塊(例如視圖),從而能夠提早進行數據過濾以及有可能更好地利用索引。這篇中文文章簡單的說明了在關系數據庫里的應用;

    hive.optimize.ppd.storage:謂詞下推開啟時,謂詞是否下推到存儲handler,默認開啟,在謂詞下推關閉時不起作用;

    hive.ppd.recognizetransivity:在等值join條件下是否產地重復的謂詞過濾器,默認開啟;

    hive.join.cache.size:在做表join時緩存在內存中的行數,默認25000;

    hive.mapjoin.bucket.cache.size:mapjoin時內存cache的每個key要存儲多少個value,默認100;

    hive.optimize.skewjoin:是否開啟數據傾斜的join優化,默認不開啟false;

    hive.skewjoin.key:判斷數據傾斜的閾值,如果在join中發現同樣的key超過該值則認為是該key是傾斜的join key,默認是100000;

    hive.skewjoin.mapjoin.map.tasks:在數據傾斜join時map join的map數控制,默認是10000;

    hive.skewjoin.mapjoin.min.split:數據傾斜join時map join的map任務的最小split大小,默認是33554432,該參數要結合上面的參數共同使用來進行細粒度的控制;

    hive.mapred.mode:hive操作執行時的模式,默認是nonstrict非嚴格模式,如果是strict模式,很多有風險的查詢會被禁止運行,比如笛卡爾積的join和動態分區;

    posted on 2013-08-15 14:47 changedi 閱讀(3650) 評論(0)  編輯  收藏 所屬分類: 數據

    主站蜘蛛池模板: 国产男女猛烈无遮挡免费视频| 最新精品亚洲成a人在线观看| 免费视频成人国产精品网站| 亚洲色成人WWW永久网站| 91青青国产在线观看免费| 亚洲av无码专区在线电影天堂 | 亚洲理论精品午夜电影| 日本无吗免费一二区| 精品亚洲永久免费精品| 亚洲熟妇丰满xxxxx| 国产精品久久久亚洲| 四虎在线视频免费观看| 97无码人妻福利免费公开在线视频 | 少妇亚洲免费精品| 最近中文字幕mv免费高清在线 | 久久WWW免费人成一看片| 十八禁的黄污污免费网站| 91亚洲精品自在在线观看| 亚洲综合日韩久久成人AV| 狼友av永久网站免费观看| 99精品热线在线观看免费视频| 色偷偷亚洲男人天堂| 亚洲小说图片视频| 亚洲精品国精品久久99热一| 日本高清免费不卡在线| 日韩精品久久久久久免费| 免费观看四虎精品成人| 亚洲偷偷自拍高清| 亚洲乱亚洲乱淫久久| 亚洲第一黄色网址| 成全视频在线观看免费高清动漫视频下载| 在线免费观看伊人三级电影| 无码色偷偷亚洲国内自拍| 亚洲天堂一区二区三区| 亚洲av无码国产精品色午夜字幕 | 亚洲精品国产电影午夜| 亚洲精品无码AV人在线播放| 亚洲第一网站男人都懂| 色吊丝最新永久免费观看网站| 亚洲人成免费网站| 久久精品中文字幕免费|