博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
hadoop探究 -- shuffle 和 排序
阅读量:4113 次
发布时间:2019-05-25

本文共 337 字,大约阅读时间需要 1 分钟。

参考《hadoop权威指南》

什么是shuffle

系统执行排序的过程----将map输出作为输入传给reducer。MR确保每个reducer的输入都是按键排序。shuffle是MR的心脏。

map端

map中数据流动方式:每个map都有一个环形内存缓存区(100M),输出先放在该区,当大于一个阀值(0.8)时再写入磁盘。

在写入磁盘前,线程根据数据要传到的不同reducer把数据分成相应的partition,然后每个分区内先内部排序。还有个combiner对排序后的结果合并。

写磁盘时可以对map的输出进行压缩。

reducer通过http凡是得到输出文件的分区。

具体对应的参数和调优,会在下面给出。

reduce端

reduce先进行复制,然后进行排序(合并)

转载地址:http://rjrsi.baihongyu.com/

你可能感兴趣的文章
Unix 命令,常用到的
查看>>
Linux操作系统文件系统基础知识详解
查看>>
部分常用到的SQLite语句
查看>>
堆和栈的区别
查看>>
当异常出现时
查看>>
<iOS>iPhone 应用里实现截屏功能的代码
查看>>
iOS6 中新的控件UIRefreshControl下拉刷新
查看>>
bitbucket和git 进行代码管理
查看>>
在CGD中快速实现多线程的并发控制
查看>>
IOS开发网络篇之──ASIHTTPRequest详解
查看>>
IOS开发网络篇之──ASIHTTPRequest下载示例(支持断点续传)
查看>>
<iOS>通过运行时来实例化一个,只知道名字的类, 名字为变量
查看>>
第三次遇到同样DNS无法解析的问题,不得不把解决方法分享了
查看>>
DLL中建立进程共享数据段需要注意的语法问题
查看>>
重温WIN32 API ------ 最简单的Windows窗口封装类
查看>>
重温WIN32 API ------ Window消息跟踪
查看>>
一个通过捕获ARP发现IP的小工具
查看>>
服务器端技术----Http请求的处理过程
查看>>
用CSDN的代码仓库托管VS解决方案
查看>>
基本Windows内核书籍
查看>>