标签: r apache-spark sparklyr
我正在尝试使用sparklyr在Spark中构建随机森林模型。由于数据集高度不平衡,因此我尝试使用综合少数族裔过采样技术(“ Smote”),并且将样本数据提取到R环境后,召回值显着增加。
由于我的数据集很大,因此将数据提取到R环境中效率不高。我必须实现我的模型并处理Spark中的不平衡数据。 但是,Sparklyr软件包中不存在“远程”技术。有没有办法处理Sparklyr中不平衡的数据集?