标签: apache-spark apache-spark-mllib lsh
我正在使用Apache Spark ML LSH的roximatedSimilarityJoin方法将2个数据集连接起来,其中一个拥有600万个数据集,另一个具有1100万个记录。
我尝试将洗牌分区从500改为2000,最后2个任务永远卡住了。 执行器有50个执行器内存是50GB
还有什么可以做的?