我需要并行化Scala数据框以加载各种表。我有一个事实表,大约有1.7 TB的数据。加载大约需要5分钟。我想同时加载我的维度表,以便我可以减少我的整体scala。我不熟悉Scala中的Concurrent API。
答案 0 :(得分:0)
您需要阅读Spark - 它的全部意义在于并行处理超出单机范围的数据。基本上Spark会根据您并行运行的任务来并行化负载 - 这一切都取决于您如何设置集群 - 从我猜测您只使用的问题以及您在本地模型中运行它的问题,在这种情况下,您至少应该使用本地[您拥有的处理器数量]
运行它如果我没有说清楚,你也不应该使用任何其他Scala并发API