Spark DataFrame中的领域特定语言API是什么?

时间:2019-05-25 13:48:39

标签: apache-spark dataframe

需要示例帮助以了解Spark DataFram中的DSL

“ DataFrame允许开发人员将结构强加到分布式数据集合上,从而允许更高级别的抽象;它提供了特定于域的语言API来操纵您的分布式数据”

在上面的定义中,什么是特定于域的语言API来操纵您的分布式数据?这是什么意思。请用一些代码示例进行解释

1 个答案:

答案 0 :(得分:0)

没有上下文很难确定,但是我认为作者的意思是:

DataFrame具有一个API(可以调用它的一组函数),该API提供了一种处理内部数据的方式,这是一种处理数据方向的更高层次的抽象。

例如,要执行“分组依据”(类似于SQL),您可以将数据存储在数组中,并使用for循环在其上循环,同时保留包含分组键和相应值的字典。或者,您可以直接在DataFrame上调用“ groupBy”,这向您隐藏了复杂性-通过允许您使用更抽象的分组概念,而不是通过数据遍历数组的更具体概念,它“抽象了”

这种抽象有时也称为DSL,因为您可以将函数调用视为一种编程语言,而该编程语言本身特定于此类问题/域(即DataFrame中的数据)。