Pyspark中的过采样或SMOTE

时间:2018-12-26 20:31:36

标签: machine-learning pyspark random-forest oversampling

我有7个课程,总共有115条记录,我希望对这些数据运行随机森林模型。但是由于数据不足以获取高精度。因此,我想对所有类别进行过采样,以使多数类别本身获得更高的计数,然后再获得少数类别。 PySpark有可能吗?

{{1}}

2 个答案:

答案 0 :(得分:2)

此项目可能对您的目标有用: Spark SMOTE

但是我认为115条记录不足以构成一个随机森林。您可以使用其他最简单的技术,例如决策树

您可以检查以下答案:

Is Random Forest suitable for very small data sets?

答案 1 :(得分:0)

这是我过去使用过的Pyspark和Scala smote的另一种实现。我已经遍及了referenced the source的代码,因为它很小:

Pyspark:

/company/

scala:

/order/