我是Apacha Spark和MLlib的新手。除了一件事,我对使用库(MLlib)有了公平的理解。我不明白如何为各种算法准备输入数据文件。请帮忙。感谢。
答案 0 :(得分:0)
如果查看MLlib页面上提供的示例,您将能够找到详细创建输入数据的示例。 要提供指针,假设您的存储中有一个文本csv文件,其中最后一行是标签。然后,以下代码将为您制作标记点RDD,可以将其提交给MLlib算法。
val inputData = trainTextData.map { lines =>
val parts = lines.split(",")
LabeledPoint(parts(index).toDouble, Vectors.dense(remove(parts,index).map(x => if(x=="NULL") (0.0).toDouble else x.toDouble).toArray))
}.cache
您可以使用相同的方式编写地图以从输入中创建数据。它会在很大程度上取决于您的数据。