亚洲第一成人影院,亚洲美女免费视频,久久久久亚洲av无码专区蜜芽

mapreduce job讓一個(gè)文件只由一個(gè)map來(lái)處理

http://www.rigongyizu.com/mapreduce-job-one-map-process-one-file/

有一批數(shù)據(jù)用hadoop mapreduce job處理時(shí)，業(yè)務(wù)特點(diǎn)要求一個(gè)文件對(duì)應(yīng)一個(gè)map來(lái)處理，如果兩個(gè)或多個(gè)map處理了同一個(gè)文件，可能會(huì)有問(wèn)題。開(kāi)始想通過(guò)設(shè)置 dfs.blocksize 或者 mapreduce.input.fileinputformat.split.minsize/maxsize 參數(shù)來(lái)控制map的個(gè)數(shù)，后來(lái)想到其實(shí)不用這么復(fù)雜，在自定義的InputFormat里面直接讓文件不要進(jìn)行split就可以了。

public class CustemDocInputFormat extends TextInputFormat {

@Override

public RecordReader<LongWritable, Text> createRecordReader(InputSplit split, TaskAttemptContext context) {

DocRecordReader reader = null;

try {

reader = new DocRecordReader(); // 自定義的reader

} catch (IOException e) {

e.printStackTrace();

}

return reader;

}

@Override

protected boolean isSplitable(JobContext context, Path file) {

return false;

}

這樣，輸入文件有多少個(gè)，job就會(huì)啟動(dòng)多少個(gè)map了。

常用鏈接

留言簿(46)

隨筆分類(476)

隨筆檔案(495)

最新隨筆

搜索

積分與排名

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

相關(guān)文章


只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問(wèn) 管理
相關(guān)文章: Storm集成Kafka編程模型 Hadoop作業(yè)調(diào)優(yōu)參數(shù)整理及原理 mapreduce job讓一個(gè)文件只由一個(gè)map來(lái)處理 hadoop用MultipleInputs/MultiInputFormat實(shí)現(xiàn)一個(gè)mapreduce job中讀取不同格式的文件一個(gè)Hadoop程序的優(yōu)化過(guò)程 – 根據(jù)文件實(shí)際大小實(shí)現(xiàn)CombineFileInputFormat