我有许多大型JSON文件,我想对其进行一些分析。我刚刚开始使用SparkSQL,并且我正在努力确保理解从文件中获取SparkSQL read the JSON records into an RDD/DataFrame(并推断模式)或run a SparkSQL query on the files directly之间的好处。如果您有任何使用SParkSQL的经验,我会有兴趣听听哪种方法更受欢迎以及为什么。
提前感谢您的时间和帮助!
答案 0 :(得分:2)
您可以在数据集上将explain()
称为操作,而不是show()
或count()
。然后Spark会向您显示所选的物理计划。
您可以找到上面的图片here。据我所知,应该没有区别。但我更喜欢使用read()
方法。当我使用IDE时,我可以看到所有可用的方法。当您使用SQL执行此操作时,可能会出现错误,例如slect
而不是select
,但在运行代码时,您将首先收到错误。