您的位置 首页 大数据运维

什么是 Hadoop 分布式缓存

什么是 Hadoop 分布式缓存

1)Hadoop 分布式缓存是 Map-Reduce 框架提供的用于缓存应用程序所需文件(文本文件、
存档文件、Jar 文件等)的工具。
2)当 MapReduce 处理大型数据集间的 join 操作时,此时如果一个数据集很大而另外一
个集合很小,以至于可以分发到集群中的每个节点之中。 这种情况下,我们就用到了
Hadoop 的分布式缓存机制,它能够在任务运行过程中及时地将文件和存档复制到任务节点
以供使用。为了节约网络宽带,在每一个作业中,各个文件通常只需要复制到一个节点一次

欢迎来撩 : 汇总all

白眉大叔

关于白眉大叔linux云计算: 白眉大叔

热门文章