什么是Spark UDFS?

时间:2015-06-19 14:47:45

标签: scala apache-spark

我一直在写一些变形金刚和估算器,我一直注意到udfs。我已经阅读了消息来源并对他们的用途有一般的了解,但我希望有人可以给我一个高级别的解释。

我从代码中收集到的是,您可以创建一个udf并应用它,使其在特定列的数据框中的每一行上运行。我想我很好奇为什么这样做呢?

2 个答案:

答案 0 :(得分:1)

您在RDD和DataFrame上编写的所有自定义操作基本上都是用户定义的函数&#34;。您可以注册一个UDF,以便能够在Spark-SQL中使用的select语句中使用它(sqlContext.sql(&#34;从myRegistredDF中选择myUDF(fieldname)&#34;)... < / p>

答案 1 :(得分:0)

UDF(用户定义的函数)和UDAF(用户定义的聚合函数)允许扩展语言构造以对分布式数据集进行即席处理。 您可以参考此博客以获取详细说明。 https://ragrawal.wordpress.com/2015/10/02/spark-custom-udf-example/