Question

我正在尝试将numpy数组传递给python函数，如下所示：

polygonArr = np.empty([3,2])
for i in range(0,3):
    polygonArr[i,0]=someValue
    polygonArr[i,1]=somevalue

polygonArrObj = np.asarray(polygonArr)

point_inside_polygon_ = udf(point_inside_polygon,BooleanType())

df1=df.where(point_inside_polygon_(df_gst['lattd_c'],df_gst['lngtd_c'],polygonArrObj))

df1和df是火花数据帧

函数point_in_a_polygon_需要一个数组。但是当我尝试运行它时，我收到了错误

AttributeError: 'numpy.ndarray' object has no attribute '_get_object_id'

我是否需要将numpy.ndarray更改为普通数组对象，否则我会遗漏其他内容？如果我需要更改为数组对象，我该怎么做？

Answer 1

Spark SQL UDF只能将列或列文字作为参数。它不能采取任意Python对象。由于VectorUDT没有文字语法，因此您必须使用闭包传递polygonArrObj：

def inside_polygon_(polygon):
    return udf(
        lambda lat, long: point_inside_polygon(lat, long, polygon),
        BooleanType()
    )

df.where(inside_polygon_(polygonArrObj)('lattd_c', 'lngtd_c'))

AttributeError：'numpy.ndarray'对象没有属性'_get_object_id'

1 个答案: