应用错误收集

性能问题Spark LSH MinHash近似相似

时间：2019-09-29 02:18:21

标签： apache-spark apache-spark-mllib lsh

我正在使用Apache Spark ML LSH的roximatedSimilarityJoin方法将2个数据集连接起来，其中一个拥有600万个数据集，另一个具有1100万个记录。

我尝试将洗牌分区从500改为2000，最后2个任务永远卡住了。执行器有50个执行器内存是50GB

还有什么可以做的？

0 个答案:

没有答案