我可以在独立模式下使用Hadoop的分布式缓存吗?

时间:2012-06-05 23:43:15

标签: hadoop mapreduce

我正在Hadoop中编写Java MapReduce程序,并且每个reducer都需要访问静态XML文件(其中包含有关将规则应用于值列表的一些业务逻辑)。我决定将此文件存储在分布式缓存中,然后利用分布式缓存API在每个reducer中访问它(序列化它)。我还没有实现这个,但是当在HDFS /分布式模式下使用这个功能时,API似乎很简单。但是,为了我的测试目的,是否可以在伪分布式独立模式下使用它?它会如何工作?

此外,在每个reducer中序列化文件是一个坏主意吗?我打算就其他方式分发全球静态数据"减少者。

谢谢!

1 个答案:

答案 0 :(得分:1)

是的,你可以 - 它的工作方式与真实集群中的工作方式相同。

如果未修复分布式缓存,则最好使用它。另一种方法是将数据打包到包含作业代码的jar中,在这种情况下,当你必须更改XML时,它就不会那么灵活(你仍然可以改变jar,但这不是一个干净的方法来解决它)