标签: apache-spark spark-dataframe
我一直在考虑Spark Dataframe join命令的可伸缩性。由于数据帧没有编入索引,也不一定按顺序排列,因此可以说数据帧连接命令是O(n ^ 2)吗?
我目前正在使用SQL存储过程JOIN语句并将它们转换为Spark SQL / Spark Dataframes,并且加入命令在Spark中需要更长的时间。