我正在做MinHashLSH,以使用pyspark python查找数据帧的模糊匹配。但是,当我运行roximiseSimilarityJoin时,执行代码需要很长时间。
我为解决此问题所做的事情:
但是,同样的问题也会发生。我该怎么做才能解决此问题?
代码:
mh = MinHashLSH(inputCol="features", outputCol="hashes", numHashTables=5)
model = mh.fit(rescaledData)
res = model.approxSimilarityJoin(rescaledData, rescaledData, 0.5, distCol="JaccardDistance")
res.show()
config:
spark = (SparkSession
.builder
.master('local')
.appName('LSH-Cosine')
.config("spark.sql.broadcastTimeout", "36000")
.config("spark.sql.shuffle.partitions" ,"300")
.getOrCreate())