使用apache spark在两个巨大的表上执行连接操作

时间:2016-01-08 14:26:11

标签: apache-spark apache-spark-sql

我的数据库中有2个表。每个表都有1亿行。

有没有办法加入这两个表并以最快的方式使用apache spark提取数据?

1 个答案:

答案 0 :(得分:0)

我想说最有效的方法是使用DataFrames并调用join,然后是其他任何标准。好处是某些过滤器或选择将被尽可能地推下来以减少网络负载......只会拉动所需的数据。

如果没有更多信息,这是我能给出的最佳建议。