Mahout单机性能

时间:2013-09-02 09:56:59

标签: java mahout

我正在开发基于Java的应用程序,我决定使用在Mahout库中实现的机器学习算法。我的应用程序将在没有Hadoop的单机上运行。

我想问一下,如果单个节点Mahout还有开销,就像分布式节点一样?我在一本书中看到Mahout在行动,而不是多个集群Mahout有一些开销(初始化,传输数据等)。但是如果我们在没有MapReduce范例的情况下使用Mahout算法,那么应该没有开销,对吧?

1 个答案:

答案 0 :(得分:0)

无论是在单台计算机还是1000节点集群中运行它都没有区别。 Hadoop序列化所有中间数据(MAP的键值输出),并将其保留在磁盘上。在reduce阶段,它将键值对加载回内存。因此,它具有巨大的处理和磁盘访问开销。

基本上,如果您的机器很少(例如< 7台机器),hadoop可能不是一个好的选择,特别是对于加速分析。在这种情况下,您可以使用小型集群检查代码的逻辑,然后再将其部署到更大的环境中。