需要示例帮助以了解Spark DataFram中的DSL
“ DataFrame允许开发人员将结构强加到分布式数据集合上,从而允许更高级别的抽象;它提供了特定于域的语言API来操纵您的分布式数据”
在上面的定义中,什么是特定于域的语言API来操纵您的分布式数据?这是什么意思。请用一些代码示例进行解释
答案 0 :(得分:0)
没有上下文很难确定,但是我认为作者的意思是:
DataFrame具有一个API(可以调用它的一组函数),该API提供了一种处理内部数据的方式,这是一种处理数据方向的更高层次的抽象。
例如,要执行“分组依据”(类似于SQL),您可以将数据存储在数组中,并使用for循环在其上循环,同时保留包含分组键和相应值的字典。或者,您可以直接在DataFrame上调用“ groupBy”,这向您隐藏了复杂性-通过允许您使用更抽象的分组概念,而不是通过数据遍历数组的更具体概念,它“抽象了”
这种抽象有时也称为DSL,因为您可以将函数调用视为一种编程语言,而该编程语言本身特定于此类问题/域(即DataFrame中的数据)。