我有一个 pyspark sql 数据框,我想从中提取一个 ndarray 值。使用熊猫数据框,我知道我可以通过运行来实现这一点:
coordinates = df[['latitude','longitude']].values
array([[52.375816, 4.964433],
[52.375816, 4.964433],
[52.375816, 4.964433],
...,
[52.362133, 4.908233],
[52.362133, 4.908233],
[52.362133, 4.908233]], dtype=float32)
我应该如何在 spark 中做到这一点?
答案 0 :(得分:0)
转换为熊猫数据框并使用您在问题中显示的方法应该可以完成工作:
df[['latitude','longitude']].toPandas().values
或者你可以使用
import numpy as np
np.array(df[['latitude', 'longitude']].collect())