我在Hive中有火车设置表。有600列,0~599列是年龄,性别等特征.....最后一列是0和1的标签。 我把表读成df,df也有600列。
但我发现在spark(python)中的docs中,模型就像随机林一样,只接受libsvm格式数据。
data = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")
所以我想知道MLLib是否只接受libsvm数据格式? 如果是这样,我如何将我的数据集转换为libsvm格式,因为我的数据集是存储为hive表的分发数据。
由于
答案 0 :(得分:-2)