性能问题Spark LSH MinHash近似相似

时间:2019-09-29 02:18:21

标签: apache-spark apache-spark-mllib lsh

我正在使用Apache Spark ML LSH的roximatedSimilarityJoin方法将2个数据集连接起来,其中一个拥有600万个数据集,另一个具有1100万个记录。

我尝试将洗牌分区从500改为2000,最后2个任务永远卡住了。 执行器有50个执行器内存是50GB

还有什么可以做的?

0 个答案:

没有答案