Question

我面临一个问题，即尝试加入1.5M记录数据集到另一个拥有150条记录的DF。性能非常差，并且显示不正确的结果。你能否建议使用Scala建议使用LargeDF与小DF连接的广播连接？

谢谢！

Answer 1

你可以明确地使用广播功能，虽然如评论中所提到的，spark应自动加入小型DF。

import org.apache.spark.sql.functions.broadcast

dfBig.join(broadcast(dfSmall))