<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    posts - 495,comments - 227,trackbacks - 0

    http://www.rigongyizu.com/mapreduce-job-one-map-process-one-file/

    有一批數(shù)據(jù)用hadoop mapreduce job處理時(shí),業(yè)務(wù)特點(diǎn)要求一個(gè)文件對(duì)應(yīng)一個(gè)map來(lái)處理,如果兩個(gè)或多個(gè)map處理了同一個(gè)文件,可能會(huì)有問(wèn)題。開(kāi)始想通過(guò)設(shè)置 dfs.blocksize 或者 mapreduce.input.fileinputformat.split.minsize/maxsize 參數(shù)來(lái)控制map的個(gè)數(shù),后來(lái)想到其實(shí)不用這么復(fù)雜,在自定義的InputFormat里面直接讓文件不要進(jìn)行split就可以了。

    public class CustemDocInputFormat extends TextInputFormat {
     
        @Override
        public RecordReader<LongWritable, Text> createRecordReader(InputSplit split, TaskAttemptContext context) {
            DocRecordReader reader = null;
            try {
                reader = new DocRecordReader(); // 自定義的reader
            } catch (IOException e) {
                e.printStackTrace();
            }
            return reader;
        }
     
        @Override
        protected boolean isSplitable(JobContext context, Path file) {
            return false;
        }
    }

    這樣,輸入文件有多少個(gè),job就會(huì)啟動(dòng)多少個(gè)map了。

    posted on 2014-09-16 09:28 SIMONE 閱讀(531) 評(píng)論(0)  編輯  收藏 所屬分類(lèi): hadoop
    主站蜘蛛池模板: 亚洲精品欧洲精品| 久久久亚洲精品视频| 日本黄页网址在线看免费不卡| 亚洲中文字幕伊人久久无码| 四虎影视成人永久免费观看视频| 亚洲成人免费网址| 亚洲精品线路一在线观看| 一区二区三区四区免费视频| 日本免费高清视频| 色窝窝亚洲AV网在线观看| 亚洲成a人片在线观看日本| 国产在线国偷精品产拍免费| 国产精品美女久久久免费| 亚洲一级在线观看| 亚洲毛片网址在线观看中文字幕| 亚洲欧洲中文日韩av乱码| 久久亚洲中文字幕精品一区四| 毛片免费在线视频| 亚洲免费观看视频| 美女黄网站人色视频免费| 亚洲国产超清无码专区| 国产精品亚洲片在线va| 亚洲AV永久无码精品一百度影院| 免费乱理伦在线播放| 日韩人妻一区二区三区免费| 国产精品高清免费网站| 久久久精品国产亚洲成人满18免费网站| 亚洲欧洲日韩极速播放| 亚洲国产成人久久综合一| 亚洲成a人片在线观看久| 在线观看人成视频免费| 91网站免费观看| 黄网站色视频免费在线观看的a站最新| 青青草原1769久久免费播放| 亚洲三级高清免费| 99ee6热久久免费精品6| AV免费网址在线观看| 亚洲国产精品日韩| 亚洲乱亚洲乱淫久久| 亚洲欧美日韩一区二区三区| 亚洲免费在线观看视频|