应用错误收集

对于使用“MLUtils.saveAsLibSVMFile”，数据参数应该是标记点的RDD。假设我们在分类变量中有3个类别（响应变量）。我们如何创建带有3个类别的标记点的RDD作为标签？我已经将我的分类变量转换为二进制特征。

I am trying with this code.

 from pyspark.mllib.regression import LabeledPoint
 from pyspark import SparkContext
 sc=SparkContext()
 laxman = sc.textFile("G:\converted data.txt")
 labeled_point_rdd=laxman.map(lambda row: row.split(',')).map(lambda seq:      LabeledPoint(seq[-3],seq[:-4]))

 print (labeled_point_rdd.take(2))

将包含分类数据的数据保存到spark决策树中的libsvm格式

0 个答案: