如何访问Spark DataFrame中VectorUDT列的元素?

时间:2016-09-18 09:00:19

标签: apache-spark dataframe pyspark apache-spark-sql apache-spark-ml

我的数据框df的{​​{1}}列名为VectorUDT。如何获取列的元素,比如第一个元素?

我尝试过以下

features

但我收到from pyspark.sql.functions import udf first_elem_udf = udf(lambda row: row.values[0]) df.select(first_elem_udf(df.features)).show() 错误。如果我改为net.razorvine.pickle.PickleException: expected zero arguments for construction of ClassDict(for numpy.dtype),则会出现同样的错误。

我也试过了first_elem_udf = first_elem_udf(lambda row: row.toArray()[0]),但我收到错误,因为它需要数组或地图类型。

我认为这应该是一种常见的操作。

4 个答案:

答案 0 :(得分:15)

将输出转换为float

from pyspark.sql.types import DoubleType
from pyspark.sql.functions import lit, udf

def ith_(v, i):
    try:
        return float(v[i])
    except ValueError:
        return None

ith = udf(ith_, DoubleType())

使用示例:

from pyspark.ml.linalg import Vectors

df = sc.parallelize([
    (1, Vectors.dense([1, 2, 3])),
    (2, Vectors.sparse(3, [1], [9]))
]).toDF(["id", "features"])

df.select(ith("features", lit(1))).show()

## +-----------------+
## |ith_(features, 1)|
## +-----------------+
## |              2.0|
## |              9.0|
## +-----------------+

说明:

必须将输出值重新序列化为等效的Java对象。如果您想访问values(谨防SparseVectors),请使用item方法:

v.values.item(0)

返回标准的Python标量。同样,如果要将所有值作为密集结构访问:

v.toArray().tolist()

答案 1 :(得分:1)

如果您更喜欢使用spark.sql,则可以使用以下自定义函数“ to_array”将向量转换为arrary。然后,您可以将其作为数组进行操作。

 from pyspark.sql.types import ArrayType, DoubleType
 def to_array_(v):
        return v.toArray().tolist()
 from pyspark.sql import SQLContext
 sqlContext=SQLContext(spark.sparkContext, sparkSession=spark, jsqlContext=None) 
 sqlContext.udf.register("to_array",to_array_,  ArrayType(DoubleType()))

示例

    from pyspark.ml.linalg import Vectors

    df = sc.parallelize([
        (1, Vectors.dense([1, 2, 3])),
        (2, Vectors.sparse(3, [1], [9]))
    ]).toDF(["id", "features"])

    df.createOrReplaceTempView("tb")

    spark.sql("""select * , to_array(features)[1] Second from  tb   """).toPandas()

输出

    id  features    Second
0   1   [1.0, 2.0, 3.0] 2.0
1   2   (0.0, 9.0, 0.0) 9.0

答案 2 :(得分:1)

由于无法使用explode(),我遇到了同样的问题。您可以做的一件事是使用pyspark.ml.feature库中的VectorSlice。像这样:

from pyspark.ml.feature import VectorSlicer
from pyspark.ml.linalg import Vectors
from pyspark.sql.types import Row

slicer = VectorSlicer(inputCol="features", outputCol="features_one", indices=[0])

output = slicer.transform(df)

output.select("features", "features_one").show()

答案 3 :(得分:0)

对于尝试将 PySpark ML 模型训练后生成的概率列拆分为可用列的任何人。这不使用 UDF 或 numpy。这仅适用于二进制分类。这里 lr_pred 是具有逻辑回归模型预测的数据框。

prob_df1=lr_pred.withColumn("probability",lr_pred["probability"].cast("String"))

prob_df =prob_df1.withColumn('probabilityre',split(regexp_replace("probability", "^[|]", ""), ",")[1].cast(DoubleType()))