线性回归的PySpark docs/examples格式为:
print training
DataFrame [label:double,features:vector]
我当前的Spark DataFrame是:
print df
DataFrame [_c0:String,col1:double,col2:double,col3:double,... colN:double]
如何将我的DataFrame与PySparks线性回归模块一起使用?
答案 0 :(得分:1)
虽然某些ML框架(如sklearn)使用一列作为目标而许多列作为要素,但spark ML需要目标列和包含向量的要素列。
为了从许多列到包含列的单个向量,有一个名为VectorAssembler的指定saprk函数。