标签: apache-spark apache-spark-sql
我的数据库中有2个表。每个表都有1亿行。
有没有办法加入这两个表并以最快的方式使用apache spark提取数据?
答案 0 :(得分:0)
我想说最有效的方法是使用DataFrames并调用join,然后是其他任何标准。好处是某些过滤器或选择将被尽可能地推下来以减少网络负载......只会拉动所需的数据。
join
如果没有更多信息,这是我能给出的最佳建议。