hadoop - spark独立模式下的50-60 gb数据 - Thinbug

spark独立模式下的50-60 gb数据

时间：2016-06-11 04:49:13

标签： hadoop apache-spark machine-learning statistics bigdata

我正在尝试分析大约50-60 gb的数据。我想过使用spark来做到这一点，但是我无法访问集群中的多个节点。可以使用spark独立模式完成此级别的处理吗？如果是，我想知道处理数据所需的估计时间。谢谢！

1 个答案:

答案 0 :(得分：1)

简答：是的。

Spark会将此文件分区为许多较小的块。在您的情况下，一次只执行几个块。这几个块应该适合内存（你需要使用配置来实现这一点）

总而言之，您将能够做到这一点，但如果您拥有更多内存/内核，那么它会更快，因此您可以并行处理更多内容。