如何在hadoop / Spark集群上处理(遍历)大型JSON文件?

时间:2018-03-06 15:35:37

标签: hadoop apache-spark

我现在已经看了一段时间了,发现了很多破碎的例子和过去的链接,但我有一个2 GB的json数据文件,我需要逐行处理,运行一个重要的每行上的代码量,并将重新格式化的数据保存到集群中。

我一直试图在Spark 2.0 / PySpark中做到这一点,但我没有太多运气。我可以在一个较小的文件上执行此操作,但在我的实际文件中,我的导向器会耗尽堆内存。

当我尝试分解文件时,我收到此处列出的错误(Spark __getnewargs__ error),但原因显然不同,因为我没有引用列。

我现在使用Hortonworks,单机群集在CentOS6上。我实际上正在寻找更多的东西"我应该做什么"而不仅仅是如何做到这一点。我知道Spark 可以这样做,但如果有更好的方法,那么我也很乐意探索它。

1 个答案:

答案 0 :(得分:0)

您可以使用JSON serde在JSON文件的顶部定义Hive表,然后使用Hive或Spark进行分析。