如何在数据帧上使用并发API?

时间:2016-10-04 17:01:39

标签: scala spark-dataframe

我需要并行化Scala数据框以加载各种表。我有一个事实表,大约有1.7 TB的数据。加载大约需要5分钟。我想同时加载我的维度表,以便我可以减少我的整体scala。我不熟悉Scala中的Concurrent API。

1 个答案:

答案 0 :(得分:0)

您需要阅读Spark - 它的全部意义在于并行处理超出单机范围的数据。基本上Spark会根据您并行运行的任务来并行化负载 - 这一切都取决于您如何设置集群 - 从我猜测您只使用的问题以及您在本地模型中运行它的问题,在这种情况下,您至少应该使用本地[您拥有的处理器数量]

运行它

如果我没有说清楚,你也不应该使用任何其他Scala并发API