从火花数据框中提取值的 ndarray

时间:2021-03-09 11:16:43

标签: arrays dataframe apache-spark pyspark

我有一个 pyspark sql 数据框,我想从中提取一个 ndarray 值。使用熊猫数据框,我知道我可以通过运行来实现这一点:

coordinates = df[['latitude','longitude']].values

array([[52.375816,  4.964433],
       [52.375816,  4.964433],
       [52.375816,  4.964433],
       ...,
       [52.362133,  4.908233],
       [52.362133,  4.908233],
       [52.362133,  4.908233]], dtype=float32)

我应该如何在 spark 中做到这一点?

1 个答案:

答案 0 :(得分:0)

转换为熊猫数据框并使用您在问题中显示的方法应该可以完成工作:

df[['latitude','longitude']].toPandas().values

或者你可以使用

import numpy as np

np.array(df[['latitude', 'longitude']].collect())