Question

我在Hive中有火车设置表。有600列，0~599列是年龄，性别等特征.....最后一列是0和1的标签。我把表读成df，df也有600列。

但我发现在spark（python）中的docs中，模型就像随机林一样，只接受libsvm格式数据。

data = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")

所以我想知道MLLib是否只接受libsvm数据格式？如果是这样，我如何将我的数据集转换为libsvm格式，因为我的数据集是存储为hive表的分发数据。

由于

Answer 1

如果您的数据存储在配置单元中，您可以通过spark sql读取它们并获得数据帧，那么您可以通过sqark训练数据帧。可以在此处输入示例代码进入链接描述