将Mahout模型输出导出为Weka输入

时间:2012-05-19 15:39:23

标签: hadoop weka mahout decision-tree

我想使用Mahout决策树训练过程的输出模型作为基于Weka的分类器的输入模型。

由于基于数百万个训练记录的复杂决策树的训练对于单个节点Weka分类器来说几乎是不切实际的,我想使用Mahout来构建模型,例如使用Random Forest Partial Implementation。 / p>

虽然上述算法在训练时可能会出现问题,但使用Weka在单台机器上进行预测却相当简单。

关于Mahout wiki site,声明导入的数据格式包括Weka ARFF格式,但不适用于导出。

是否可以使用 Mahout中的一些现有实施来训练模型,这些模型将在基于Weka 的简单系统的生产中使用?

1 个答案:

答案 0 :(得分:1)

我认为不可能做你所要求的:.arff是一种数据格式,导入/导出菜单中的所有其他选项也是如此。实际上,Weka可以保存/加载的分类器是使用Java Classifier接口写入文件的Weka的java Serializable对象。它们不是可移植树,因为它们是Java对象,其持续时间比创建它们的JVM更长。因此,为了做你想做的事,Mahout或Weka必须能够产生/读取彼此的代码,而这不是我能找到任何文档的东西。

我的经验是,有数百万条训练记录(每组包含约45个数字特征/列),使用默认选项的Weka随机森林实现速度非常快(在单个2.26GHz核心上以秒为单位运行),因此可能没有必要打扰Mahout。但是,您的数据集可能会有不同的结果。