Question

我有7个课程，总共有115条记录，我希望对这些数据运行随机森林模型。但是由于数据不足以获取高精度。因此，我想对所有类别进行过采样，以使多数类别本身获得更高的计数，然后再获得少数类别。 PySpark有可能吗？

{{1}}

Answer 1

此项目可能对您的目标有用： Spark SMOTE

但是我认为115条记录不足以构成一个随机森林。您可以使用其他最简单的技术，例如决策树

您可以检查以下答案：

Answer 2

这是我过去使用过的Pyspark和Scala smote的另一种实现。我已经遍及了referenced the source的代码，因为它很小：

Pyspark：

/company/

scala：

/order/