标签: apache-spark apache-drill
我想知道当您在Spark(2.2.1)和Drill(v.1.14)上对镶木地板表(从几GB到2TB)进行多次联接运行SQL复杂查询时,您的经验如何。
我的钻探群集如下:
Direct_Memory:42GB
钻头数量:10
堆内存:8GB
每个钻头上的岩心:8
我在等效的Spark集群上运行测试(就资源而言)。而且我发现Spark比Drill快得多。同样,Drill有时会在执行过程中因一些更复杂的查询而失败(例如,数据中包含SKEW),而Spark可以轻松处理它们。