应用错误收集

将PySpark数据帧转换为LinearRegression所需的训练数据格式？

时间：2017-04-27 18:24:38

标签： pyspark

线性回归的PySpark docs/examples格式为：

print training

DataFrame [label：double，features：vector]

我当前的Spark DataFrame是：

print df

DataFrame [_c0：String，col1：double，col2：double，col3：double，... colN：double]

如何将我的DataFrame与PySparks线性回归模块一起使用？

1 个答案:

答案 0 :(得分：1)

虽然某些ML框架（如sklearn）使用一列作为目标而许多列作为要素，但spark ML需要目标列和包含向量的要素列。

为了从许多列到包含列的单个向量，有一个名为VectorAssembler的指定saprk函数。

请参阅文档中的详细信息：http://spark.apache.org/docs/latest/api/python/pyspark.ml.html?highlight=vector#pyspark.ml.feature.VectorAssembler