<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    Change Dir

    先知cd——熱愛生活是一切藝術的開始

    統計

    留言簿(18)

    積分與排名

    “牛”們的博客

    各個公司技術

    我的鏈接

    淘寶技術

    閱讀排行榜

    評論排行榜

    Hive配置項的含義詳解(2)

    標記粗體的我個人認為在運行hive sql時可以根據數據情況進行設置,當然還有一些join的優化的配置需要單獨研究。

     

    mapred.reduce.tasks:每個作業的reduce任務數,默認是hadoop client的配置1個;

    hive.exec.reducers.bytes.per.reducer:每個reducer的大小,默認是1G,輸入文件如果是10G,那么就會起10個reducer;

    hive.exec.reducers.max:reducer的最大個數,如果在mapred.reduce.tasks設置為負值,那么hive將取該值作為reducers的最大可能值。當然還要依賴(輸入文件大小/hive.exec.reducers.bytes.per.reducer)所得出的大小,取其小值作為reducer的個數,hive默認是999;

    hive.fileformat.check:加載數據文件時是否校驗文件格式,默認是true;

    hive.groupby.skewindata:group by操作是否允許數據傾斜,默認是false,當設置為true時,執行計劃會生成兩個map/reduce作業,第一個MR中會將map的結果隨機分布到reduce中,達到負載均衡的目的來解決數據傾斜,可以參看阿里巴巴數據平臺的這篇文章了解hive對于數據傾斜時group by的處理;

    hive.groupby.mapaggr.checkinterval:map端做聚合時,group by 的key所允許的數據行數,超過該值則進行分拆,默認是100000;

    hive.mapred.local.mem:本地模式時,map/reduce的內存使用量,默認是0,就是無限制;

    hive.mapjoin.followby.map.aggr.hash.percentmemory:map端聚合時hash表的內存占比,該設置約束group by在map join后進行,否則使用hive.map.aggr.hash.percentmemory來確認內存占比,默認值0.3;

    hive.map.aggr.hash.force.flush.memeory.threshold:map端聚合時hash表的最大可用內存,如果超過該值則進行flush數據,默認是0.9;

    hive.map.aggr.hash.min.reduction:如果hash表的容量與輸入行數之比超過這個數,那么map端的hash聚合將被關閉,默認是0.5,設置為1可以保證hash聚合永不被關閉;

    hive.optimize.groupby:在做分區和表查詢時是否做分桶group by,默認開啟true;

    hive.multigroupby.singlemr:將多個group by產出為一個單一map/reduce任務計劃,當然約束前提是group by有相同的key,默認是false;

    hive.optimize.cp:列裁剪,默認開啟true,在做查詢時只讀取用到的列,這個是個有用的優化;

    hive.optimize.index.filter:自動使用索引,默認不開啟false;

    hive.optimize.index.groupby:是否使用聚集索引優化group-by查詢,默認關閉false;

    hive.optimize.ppd:是否支持謂詞下推,默認開啟;所謂謂詞下推,將外層查詢塊的 WHERE 子句中的謂詞移入所包含的較低層查詢塊(例如視圖),從而能夠提早進行數據過濾以及有可能更好地利用索引。這篇中文文章簡單的說明了在關系數據庫里的應用;

    hive.optimize.ppd.storage:謂詞下推開啟時,謂詞是否下推到存儲handler,默認開啟,在謂詞下推關閉時不起作用;

    hive.ppd.recognizetransivity:在等值join條件下是否產地重復的謂詞過濾器,默認開啟;

    hive.join.cache.size:在做表join時緩存在內存中的行數,默認25000;

    hive.mapjoin.bucket.cache.size:mapjoin時內存cache的每個key要存儲多少個value,默認100;

    hive.optimize.skewjoin:是否開啟數據傾斜的join優化,默認不開啟false;

    hive.skewjoin.key:判斷數據傾斜的閾值,如果在join中發現同樣的key超過該值則認為是該key是傾斜的join key,默認是100000;

    hive.skewjoin.mapjoin.map.tasks:在數據傾斜join時map join的map數控制,默認是10000;

    hive.skewjoin.mapjoin.min.split:數據傾斜join時map join的map任務的最小split大小,默認是33554432,該參數要結合上面的參數共同使用來進行細粒度的控制;

    hive.mapred.mode:hive操作執行時的模式,默認是nonstrict非嚴格模式,如果是strict模式,很多有風險的查詢會被禁止運行,比如笛卡爾積的join和動態分區;

    posted on 2013-08-15 14:47 changedi 閱讀(3655) 評論(0)  編輯  收藏 所屬分類: 數據

    主站蜘蛛池模板: av无码东京热亚洲男人的天堂| 亚洲精品和日本精品| 亚洲AV成人无码网天堂| 亚洲精品动漫人成3d在线| 久久爰www免费人成| 亚洲无码一区二区三区| 亚洲人成在线播放网站| 免费a级毛片高清视频不卡 | 特级毛片全部免费播放a一级| 亚洲成AV人在线播放无码| 成人免费福利电影| 精品人妻系列无码人妻免费视频| 亚洲男女一区二区三区| 亚洲精品一级无码中文字幕 | 国产亚洲精久久久久久无码77777| 在线日本高清免费不卡| 国产成人亚洲精品电影| 亚洲高清无在码在线电影不卡 | 亚洲乱人伦中文字幕无码| 国产亚洲精品a在线无码| 国内外成人免费视频| 一级毛片在线观看免费| 色www免费视频| 亚洲理论精品午夜电影| 曰韩亚洲av人人夜夜澡人人爽| 青青久在线视频免费观看| a级毛片黄免费a级毛片| 国产亚洲欧美日韩亚洲中文色| 亚洲国产人成在线观看69网站| 国产午夜免费秋霞影院| 久久精品无码专区免费青青| 精品亚洲成A人在线观看青青| 亚洲黄色免费电影| 亚洲无人区午夜福利码高清完整版| 一个人免费观看视频www| 久久国产精品国产自线拍免费| 国产成人久久精品亚洲小说| 亚洲一欧洲中文字幕在线| 亚洲国产高清在线| 狠狠亚洲婷婷综合色香五月排名 | 亚洲国产成人手机在线电影bd|