应用错误收集

什么是Spark UDFS？

时间：2015-06-19 14:47:45

标签： scala apache-spark

我一直在写一些变形金刚和估算器，我一直注意到udfs。我已经阅读了消息来源并对他们的用途有一般的了解，但我希望有人可以给我一个高级别的解释。

我从代码中收集到的是，您可以创建一个udf并应用它，使其在特定列的数据框中的每一行上运行。我想我很好奇为什么这样做呢？

2 个答案:

答案 0 :(得分：1)

您在RDD和DataFrame上编写的所有自定义操作基本上都是用户定义的函数＆＃34;。您可以注册一个UDF，以便能够在Spark-SQL中使用的select语句中使用它（sqlContext.sql（＆＃34;从myRegistredDF中选择myUDF（fieldname）＆＃34;）... < / p>

答案 1 :(得分：0)

UDF（用户定义的函数）和UDAF（用户定义的聚合函数）允许扩展语言构造以对分布式数据集进行即席处理。您可以参考此博客以获取详细说明。 https://ragrawal.wordpress.com/2015/10/02/spark-custom-udf-example/