Question

我正在尝试从使用R获得的随机森林模型生成PMML。我使用randomForest软件包4.6-12和最后一个版本的PMML for R.但每次我尝试生成PMML时都会获得错误。这是代码：

data_train.rf  <- randomForest( TARGET ~ ., data = train, ntree=100, na.action=na.omit, importance=TRUE)

pmml_file = pmml(data_train.rf)
[1] "Now converting tree  1  to PMML"
Error in append.XMLNode(rfNode, splitNode) : object 'splitNode' not found

我还没有找到问题的根源，有什么想法吗？提前谢谢，

阿尔瓦罗

Answer 1

看起来变量splitNode尚未在“pmml”包中初始化。初始化路径取决于拆分变量的数据类型（例如，数字，逻辑，因子）。请参阅“pmml”包中的/R/pmml.randomForest.R文件的源代码。

那么，train data.frame对象中的列是什么？

或者，您可以试用r2pmml package，因为它在处理randomForest模型类型方面要好得多。

Answer 2

pmml代码假设变量的数据类型是数字，简单逻辑或因子。如果您使用的数据是其他类型，它将无法工作;以DateTime为例。如果您的问题可以重现，这将有所帮助;理想情况下，您将提供您使用的数据集。如果没有，至少它的一个样本或它的描述......可能总结一下。您还应该考虑直接通过电子邮件发送软件包维护人员。

Answer 3

我可能已经找到了这个问题的根源。在我的数据集中，我有大约500000个事件和30个变量，其中10个变量是因子，其中一些变量具有弱填充水平，在某些情况下只有1个事件。

我构建了几个随机森林模型，每次都包含模型的额外变量。我开始在模型中添加数值变量而没有生成PMML的问题，对于所有级别大量填充的分类变量也是如此，当我尝试包含弱填充级别的分类变量时我得到了错误：

Error in append.XMLNode(rfNode, splitNode) : object 'splitNode' not found

我认为问题的根源在于，在某些情况下，当构建一个水平较弱的树时，没有分裂，因为只有一个案例，尽管randomForest包知道如何处理在这些情况下，pmml包不会。

Answer 4

我的测试表明，当分类变量的级别数超出randomForest函数允许的最大数量时，会出现此问题。林子列表中定义的拆分不再是分类对象的拆分定义所需的正整数。减少修复问题的级别数。

R中随机森林PMML生成问题

4 个答案: