我正在尝试根据另一列的值在Spark数据集中创建一个新列。在json文件中搜索另一列的值作为键,并返回其值,该值是用于新列的值。
这是我尝试过的代码,但是它不起作用,而且我不确定UDF的工作方式。在这种情况下,如何使用withColumn或udf添加列?
Dataset<Row> df = spark.read().format("csv").option("header", "true").load("file path");
Object obj = new JSONParser().parse(new FileReader("json path"));
JSONObject jo = (JSONObject) obj;
df = df.withColumn("cluster", functions.lit(jo.get(df.col("existing col_name")))));
任何帮助将不胜感激。提前致谢!
答案 0 :(得分:2)
Spark允许您使用 udf 函数创建自定义的用户定义函数(UDF)。
以下是如何定义UDF的scala代码段。
IHostedService.StartAsync
定义函数后,可以将其转换为UDF,如下所示:
IHostedService.StartAsync
有两种使用UDF的方法。
val obj = new JSONParser().parse(new FileReader("json path"));
val jo = obj.asInstanceOf[JSONObject];
def getJSONObject(key: String) = {
jo.get(key)
}
如果使用的是Spark sql,则必须先在sqlContext中注册udf。
val getObject = udf(getJSONObject _)
然后您可以将其用作
df.withColumn("cluster", lit(getObject(col("existing_col_name"))))
其中,使用完全是主观的。
答案 1 :(得分:0)
感谢@Constantine。通过您的示例,我能够更好地理解UDF。这是我的Java代码:
Object obj = new JSONParser().parse(new FileReader("json path"));
JSONObject jo = (JSONObject) obj;
spark.udf().register("getJsonVal", new UDF1<String, String>() {
@Override
public String call(String key) {
return (String) jo.get(key.substring(0, 5));
}
}, DataTypes.StringType);
df = df.withColumn("cluster", functions.callUDF("getJsonVal", df.col("existing col_name")));
df.show(); // SHOWS NEW CLUSTER COLUMN