我刚刚介绍了Spark-SQL。尽管我以前在RDBMS sql(Oracle,Teradata,Sql Server等)方面有丰富的经验,但我希望在Spark-SQL中扩展我的知识,为什么要在Spark-SQL中学习高级功能/概念。
因此,在此过程中,我遇到了DISTRIBUTE BY和CLUSTER BY子句。但是,我无法弄清楚这些子句在Spark SQL中是否起作用,如果起作用,它们如何起作用。
因此,有人能指出我正确的方向吗?如果有人用一些示例解释了这两个子句(前提是它们可以在Spark-Sql中使用)并向我指出学习Spark-Sql高级功能的资源,那就太好了。
谢谢。