应用错误收集

SparkSQL：直接读取JSON或对文件执行查询？

时间：2016-11-08 18:47:38

标签： json apache-spark

我有许多大型JSON文件，我想对其进行一些分析。我刚刚开始使用SparkSQL，并且我正在努力确保理解从文件中获取SparkSQL read the JSON records into an RDD/DataFrame（并推断模式）或run a SparkSQL query on the files directly之间的好处。如果您有任何使用SParkSQL的经验，我会有兴趣听听哪种方法更受欢迎以及为什么。

提前感谢您的时间和帮助！

1 个答案:

答案 0 :(得分：2)

您可以在数据集上将explain()称为操作，而不是show()或count()。然后Spark会向您显示所选的物理计划。

您可以找到上面的图片here。据我所知，应该没有区别。但我更喜欢使用read()方法。当我使用IDE时，我可以看到所有可用的方法。当您使用SQL执行此操作时，可能会出现错误，例如slect而不是select，但在运行代码时，您将首先收到错误。