标签: apache-spark apache-spark-sql spark-dataframe
我面临一个问题,即尝试加入1.5M记录数据集到另一个拥有150条记录的DF。性能非常差,并且显示不正确的结果。你能否建议使用Scala建议使用LargeDF与小DF连接的广播连接?
谢谢!
答案 0 :(得分:0)
你可以明确地使用广播功能,虽然如评论中所提到的,spark应自动加入小型DF。
import org.apache.spark.sql.functions.broadcast dfBig.join(broadcast(dfSmall))