MLLib只接受libsvm数据格式吗?

时间:2017-03-16 04:56:23

标签: apache-spark pyspark spark-dataframe apache-spark-mllib

我在Hive中有火车设置表。有600列,0~599列是年龄,性别等特征.....最后一列是0和1的标签。 我把表读成df,df也有600列。

但我发现在spark(python)中的docs中,模型就像随机林一样,只接受libsvm格式数据。

data = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")

所以我想知道MLLib是否只接受libsvm数据格式? 如果是这样,我如何将我的数据集转换为libsvm格式,因为我的数据集是存储为hive表的分发数据。

由于

1 个答案:

答案 0 :(得分:-2)

如果您的数据存储在配置单元中,您可以通过spark sql读取它们并获得数据帧,那么您可以通过sqark训练数据帧。可以在此处输入示例代码进入链接描述