Question

我有一个 pyspark sql 数据框，我想从中提取一个 ndarray 值。使用熊猫数据框，我知道我可以通过运行来实现这一点：

coordinates = df[['latitude','longitude']].values

array([[52.375816,  4.964433],
       [52.375816,  4.964433],
       [52.375816,  4.964433],
       ...,
       [52.362133,  4.908233],
       [52.362133,  4.908233],
       [52.362133,  4.908233]], dtype=float32)

我应该如何在 spark 中做到这一点？

Answer 1

转换为熊猫数据框并使用您在问题中显示的方法应该可以完成工作：

df[['latitude','longitude']].toPandas().values

或者你可以使用

import numpy as np

np.array(df[['latitude', 'longitude']].collect())

从火花数据框中提取值的 ndarray

1 个答案: