python pyspark需要更长的时间来运行近似

时间:2020-09-04 02:09:34

标签: python pyspark lsh

我正在做MinHashLSH,以使用pyspark python查找数据帧的模糊匹配。但是,当我运行roximiseSimilarityJoin时,执行代码需要很长时间。

我为解决此问题所做的事情:

  • 我的数据很小,只有800 Kb(仅4万行)
  • 我已经设置了提高性能的阈值
  • 我增加了VM上的CPU数量
  • 我已将broadcastTimeout增加为config(“ spark.sql.broadcastTimeout”,“ 36000”)

但是,同样的问题也会发生。我该怎么做才能解决此问题?

代码:

mh = MinHashLSH(inputCol="features", outputCol="hashes", numHashTables=5)
model = mh.fit(rescaledData)
res = model.approxSimilarityJoin(rescaledData, rescaledData, 0.5, distCol="JaccardDistance")

res.show()

config:

spark = (SparkSession
        .builder
        .master('local')
        .appName('LSH-Cosine')
        .config("spark.sql.broadcastTimeout", "36000")
        .config("spark.sql.shuffle.partitions" ,"300")
        .getOrCreate())

0 个答案:

没有答案