标签: scala apache-spark bigdata
EDITED:对于带标签的数据,我们可以使用LabeledPoint进行培训和测试。但是,如果我有一个未标记数据的数据框,那么找到它属于哪个类的概率的最佳方法是什么(假设二进制分类)?
假设数据框看起来像
DataPoint的数量|特征1 |特征2 | ... |功能1000 |
虽然特征的维度与训练中的LabeledPoints的维度相同。所有代码都在Scala中使用Spark 2.x。