hadoop - 我可以在独立模式下使用Hadoop的分布式缓存吗？

我可以在独立模式下使用Hadoop的分布式缓存吗？

时间：2012-06-05 23:43:15

标签： hadoop mapreduce

我正在Hadoop中编写Java MapReduce程序，并且每个reducer都需要访问静态XML文件（其中包含有关将规则应用于值列表的一些业务逻辑）。我决定将此文件存储在分布式缓存中，然后利用分布式缓存API在每个reducer中访问它（序列化它）。我还没有实现这个，但是当在HDFS /分布式模式下使用这个功能时，API似乎很简单。但是，为了我的测试目的，是否可以在伪分布式独立模式下使用它？它会如何工作？

此外，在每个reducer中序列化文件是一个坏主意吗？我打算就其他方式分发全球静态数据＆＃34;减少者。

谢谢！

1 个答案:

答案 0 :(得分：1)

是的，你可以 - 它的工作方式与真实集群中的工作方式相同。

如果未修复分布式缓存，则最好使用它。另一种方法是将数据打包到包含作业代码的jar中，在这种情况下，当你必须更改XML时，它就不会那么灵活（你仍然可以改变jar，但这不是一个干净的方法来解决它）