应用错误收集

使用apache spark在两个巨大的表上执行连接操作

时间：2016-01-08 14:26:11

标签： apache-spark apache-spark-sql

我的数据库中有2个表。每个表都有1亿行。

有没有办法加入这两个表并以最快的方式使用apache spark提取数据？

1 个答案:

答案 0 :(得分：0)

我想说最有效的方法是使用DataFrames并调用join，然后是其他任何标准。好处是某些过滤器或选择将被尽可能地推下来以减少网络负载......只会拉动所需的数据。

如果没有更多信息，这是我能给出的最佳建议。