无法理解Spark中的UDF,尤其是Java中的UDF

时间:2018-10-08 23:43:19

标签: java apache-spark dataset user-defined-functions

我正在尝试根据另一列的值在Spark数据集中创建一个新列。在json文件中搜索另一列的值作为键,并返回其值,该值是用于新列的值。

这是我尝试过的代码,但是它不起作用,而且我不确定UDF的工作方式。在这种情况下,如何使用withColumn或udf添加列?

Dataset<Row> df = spark.read().format("csv").option("header", "true").load("file path");
        Object obj = new JSONParser().parse(new FileReader("json path"));
        JSONObject jo = (JSONObject) obj;

        df = df.withColumn("cluster", functions.lit(jo.get(df.col("existing col_name")))));

任何帮助将不胜感激。提前致谢!

2 个答案:

答案 0 :(得分:2)

Spark允许您使用 udf 函数创建自定义的用户定义函数(UDF)。

以下是如何定义UDF的scala代码段。

IHostedService.StartAsync

定义函数后,可以将其转换为UDF,如下所示:

IHostedService.StartAsync

有两种使用UDF的方法。

  1. val obj = new JSONParser().parse(new FileReader("json path")); val jo = obj.asInstanceOf[JSONObject]; def getJSONObject(key: String) = { jo.get(key) }

  2. 如果使用的是Spark sql,则必须先在sqlContext中注册udf。

    val getObject = udf(getJSONObject _)

    然后您可以将其用作

    df.withColumn("cluster", lit(getObject(col("existing_col_name"))))

其中,使用完全是主观的。

答案 1 :(得分:0)

感谢@Constantine。通过您的示例,我能够更好地理解UDF。这是我的Java代码:

        Object obj = new JSONParser().parse(new FileReader("json path"));
        JSONObject jo = (JSONObject) obj;

        spark.udf().register("getJsonVal", new UDF1<String, String>() {
            @Override
            public String call(String key) {
                return  (String) jo.get(key.substring(0, 5));
            }
        }, DataTypes.StringType);

        df = df.withColumn("cluster", functions.callUDF("getJsonVal", df.col("existing col_name")));
        df.show(); // SHOWS NEW CLUSTER COLUMN