对于使用“MLUtils.saveAsLibSVMFile”,数据参数应该是标记点的RDD。假设我们在分类变量中有3个类别(响应变量)。我们如何创建带有3个类别的标记点的RDD作为标签?我已经将我的分类变量转换为二进制特征。
I am trying with this code.
from pyspark.mllib.regression import LabeledPoint
from pyspark import SparkContext
sc=SparkContext()
laxman = sc.textFile("G:\converted data.txt")
labeled_point_rdd=laxman.map(lambda row: row.split(',')).map(lambda seq: LabeledPoint(seq[-3],seq[:-4]))
print (labeled_point_rdd.take(2))