我想使用Mahout决策树训练过程的输出模型作为基于Weka的分类器的输入模型。
由于基于数百万个训练记录的复杂决策树的训练对于单个节点Weka分类器来说几乎是不切实际的,我想使用Mahout来构建模型,例如使用Random Forest Partial Implementation。 / p>
虽然上述算法在训练时可能会出现问题,但使用Weka在单台机器上进行预测却相当简单。
关于Mahout wiki site,声明导入的数据格式包括Weka ARFF格式,但不适用于导出。
是否可以使用 Mahout中的一些现有实施来训练模型,这些模型将在基于Weka 的简单系统的生产中使用?
答案 0 :(得分:1)
我认为不可能做你所要求的:.arff是一种数据格式,导入/导出菜单中的所有其他选项也是如此。实际上,Weka可以保存/加载的分类器是使用Java Classifier
接口写入文件的Weka的java Serializable
对象。它们不是可移植树,因为它们是Java对象,其持续时间比创建它们的JVM更长。因此,为了做你想做的事,Mahout或Weka必须能够产生/读取彼此的代码,而这不是我能找到任何文档的东西。
我的经验是,有数百万条训练记录(每组包含约45个数字特征/列),使用默认选项的Weka随机森林实现速度非常快(在单个2.26GHz核心上以秒为单位运行),因此可能没有必要打扰Mahout。但是,您的数据集可能会有不同的结果。