在Spark中加载机器学习数据

时间:2017-09-05 07:31:07

标签: apache-spark machine-learning apache-spark-mllib

我有一个数据集,我想执行一些监督任务(回归,决策树)。数据集在这里: http://archive.ics.uci.edu/ml/datasets/Statlog+%28German+Credit+Data%29

数据以纯文本文件格式

Data1 Data2 Data3 .....

我查看了来自https://spark.apache.org/docs/latest/mllib-decision-tree.html的Spark Mlib教程 并且他们使用libSVM格式的数据,因此他们使用了loadLibSVMFile函数。

我的问题是:现在我没有这种格式如何加载数据并传递变量的标签。我应该使用哪种方法?

我检查了MLutil数据文档,没有任何方法可以让我成为我需要的https://spark.apache.org/docs/2.1.0/api/java/org/apache/spark/mllib/util/MLUtils.html

提前致谢

0 个答案:

没有答案