将Spark的数据框中的列转换为带有pyspark的数组

时间:2018-03-24 16:08:20

标签: python arrays apache-spark dataframe pyspark

如何将Spark数据帧中的列从字符串转换为数组?我需要这个,因为public function store(Request $request) { foreach ($request->employee_id as $key => $val) { $payrolls = new Payroll; if (in_array($val, $request->checked)) { $payrolls->basic = $request->basic[$key]; $payrolls->employee_id = $val; $payrolls->save(); } } return redirect('/'); } 算法需要一个数组来创建模型。

fpgroth

数据:

列的类型:

这是错误:

1 个答案:

答案 0 :(得分:-1)

在Pyspark for mllib库中,您需要将所有功能转换为单个功能向量。您可以使用Vector Assembler执行相同的操作:https://spark.apache.org/docs/latest/ml-features.html#vectorindexer

from pyspark.ml.feature import VectorAssembler
assembler = VectorAssembler(inputCols=inputColumnsList,outputCol='features')
assembler.transform(df)

其中inputColsList包含一个列表,可以是要转换的单个列或要转换的多个列