我可以从apache spark UDF(在java中)返回一个Tuple2吗?

时间:2017-01-09 21:27:15

标签: java apache-spark apache-spark-sql user-defined-functions

我需要一个UDF2,它接受两个参数作为输入,对应于String和mllib.linalg.Vector类型的两个Dataframe列,并返回一个Tuple2。这可行吗?如果是,我该如何注册这个udf()?

hiveContext.udf().register("getItemData", get_item_data, WHAT GOES HERE FOR RETURN TYPE?);

udf的定义如下:

UDF2<String, org.apache.spark.mllib.linalg.Vector, Tuple2<String, org.apache.spark.mllib.linalg.Vector>> get_item_data =
            (String id, org.apache.spark.mllib.linalg.Vector features) -> {
        return new Tuple2<>(id, features);
    };

1 个答案:

答案 0 :(得分:1)

有一个schema可以定义如下:

import org.apache.spark.sql.types.DataType;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.mllib.linalg.VectorUDT;

List<StructField> fields = new ArrayList<>();
fields.add(DataTypes.createStructField("id", DataTypes.StringType, false));
fields.add(DataTypes.createStructField("features", new VectorUDT(), false));
DataType schema = DataTypes.createStructType(fields);

但是,如果您只需要一个struct而没有任何额外的处理org.apache.spark.sql.functions.struct应该可以做到这一点:

df.select(struct(col("id"), col("features"));