星空网 > 软件开发 > 数据库

六、MapReduce Shuffle 过程

Shuffle描述数据从map task输出到reduce输入的这段过程

1、map端shuffle功能

1)分区:决定将map task 交给哪个reduce程序处理;

2)排序:对分区中的数据做排序处理

3)spill写入磁盘:将内存中数据写入磁盘

4)merge合并:将小文件合并成大文件

说明:设置reduce task的个数在run()方法中使用代码:

job.setNumReduceTasks(3)

2、reduce端shuffle功能

1)从map数据中拷贝属于自己分区的数据

2)对分区数据进行合并

3)分组:将形同key的value值组合在一起

3、MapReduce中间数据压缩配置

1)方式一:全局生效

在mapred-site中新增属性

属性:mapreduce.map.output.compress

值:ture

2)方式二:本次生效

在代码中添加:

configuration.set("mapreduce.map.output.compress","true");




原标题:六、MapReduce Shuffle 过程

关键词:

*特别声明:以上内容来自于网络收集,著作权属原作者所有,如有侵权,请联系我们: admin#shaoqun.com (#换成@)。

马来西亚快递中国:https://www.goluckyvip.com/tag/91817.html
中国发往马来西亚快递:https://www.goluckyvip.com/tag/91818.html
中国去马来西亚快递:https://www.goluckyvip.com/tag/91819.html
重庆寄快递到马来西亚哪个快递便宜:https://www.goluckyvip.com/tag/91820.html
中国邮寄马来西亚哪家快递:https://www.goluckyvip.com/tag/91821.html
马来西亚寄快递到上海:https://www.goluckyvip.com/tag/91822.html
无锡旅游景点竹海 - 无锡的竹海:https://www.vstour.cn/a/363178.html
5月贾汪好玩的地方 贾汪哪有好玩的地方:https://www.vstour.cn/a/363179.html
相关文章
我的浏览记录
最新相关资讯
海外公司注册 | 跨境电商服务平台 | 深圳旅行社 | 东南亚物流