Question

我正在做MinHashLSH，以使用pyspark python查找数据帧的模糊匹配。但是，当我运行roximiseSimilarityJoin时，执行代码需要很长时间。

我为解决此问题所做的事情：

我的数据很小，只有800 Kb（仅4万行）
我已经设置了提高性能的阈值
我增加了VM上的CPU数量
我已将broadcastTimeout增加为config（“ spark.sql.broadcastTimeout”，“ 36000”）

但是，同样的问题也会发生。我该怎么做才能解决此问题？

代码：

mh = MinHashLSH(inputCol="features", outputCol="hashes", numHashTables=5)
model = mh.fit(rescaledData)
res = model.approxSimilarityJoin(rescaledData, rescaledData, 0.5, distCol="JaccardDistance")

res.show()

config：

spark = (SparkSession
        .builder
        .master('local')
        .appName('LSH-Cosine')
        .config("spark.sql.broadcastTimeout", "36000")
        .config("spark.sql.shuffle.partitions" ,"300")
        .getOrCreate())

python pyspark需要更长的时间来运行近似

0 个答案: