Spark中的RandomForest预测性能较差

时间:2015-08-03 06:05:18

标签: python-3.x apache-spark random-forest pyspark

这可能是一个很长的镜头,但任何人使用带有Mllib的RandomForest会遇到非常差的预测性能?这就是我正在做的事情:

  • 使用PySpark的Spark 1.4.1
  • Python 3.4.2
  • ~30,000文字推文
  • 12289 1s和15956 0s
  • 使用10,000个功能进行特征选择的空白标记化和散列技巧
  • 使用100棵树和maxDepth为4运行RF,然后使用所有1s观测值的特征进行预测。

所以理论上,我应该得到接近12289 1s的预测(特别是如果模型过度拟合)。但我得到的确是0 1,这对我来说听起来很荒谬,让我怀疑我的代码有问题或者我错过了什么。如果我玩这些设置,我会注意到类似的行为(虽然不是那么极端)。但我正在使用其他分类器获得正常行为,所以我认为这不是我的设置问题。

例如:

IMyInterface

这段代码都是背靠背运行的,所以我没有改变它们之间的任何东西。有没有人对此有可能的解释?

0 个答案:

没有答案