将包含分类数据的数据保存到spark决策树中的libsvm格式

时间:2016-05-19 12:56:55

标签: python scala apache-spark tree bigdata

对于使用“MLUtils.saveAsLibSVMFile”,数据参数应该是标记点的RDD。假设我们在分类变量中有3个类别(响应变量)。我们如何创建带有3个类别的标记点的RDD作为标签?我已经将我的分类变量转换为二进制特征。

I am trying with this code.

 from pyspark.mllib.regression import LabeledPoint
 from pyspark import SparkContext
 sc=SparkContext()
 laxman = sc.textFile("G:\converted data.txt")
 labeled_point_rdd=laxman.map(lambda row: row.split(',')).map(lambda seq:      LabeledPoint(seq[-3],seq[:-4]))

 print (labeled_point_rdd.take(2))

0 个答案:

没有答案