我有7个课程,总共有115条记录,我希望对这些数据运行随机森林模型。但是由于数据不足以获取高精度。因此,我想对所有类别进行过采样,以使多数类别本身获得更高的计数,然后再获得少数类别。 PySpark有可能吗?
{{1}}
答案 0 :(得分:2)
答案 1 :(得分:0)
这是我过去使用过的Pyspark和Scala smote的另一种实现。我已经遍及了referenced the source的代码,因为它很小:
Pyspark:
/company/
scala:
/order/