应用错误收集

我正在尝试使用sparklyr在Spark中构建随机森林模型。由于数据集高度不平衡，因此我尝试使用综合少数族裔过采样技术（“ Smote”），并且将样本数据提取到R环境后，召回值显着增加。

由于我的数据集很大，因此将数据提取到R环境中效率不高。我必须实现我的模型并处理Spark中的不平衡数据。但是，Sparklyr软件包中不存在“远程”技术。有没有办法处理Sparklyr中不平衡的数据集？