全文比较矩阵计算

时间:2018-11-28 16:09:46

标签: apache-spark pyspark

我正在考虑解决以下问题的最佳策略,我想知道您对此的想法。

我有两个带有以下各列的表(ID_A,TEXT_A)和(ID_B,TEXT_B),并且我必须使用NLP模型评估每对ID_A,ID_B的文本相似性。

自然地,考虑到交叉连接,此类问题导致产生大量配对。因此,我放弃了创建具有计算所需的所有信息(ID_A,ID_B,TEXT_A,TEXT_B)的表的想法,然后尝试使用两个广播字典{ID:TEXT},然后将其用于UDF内获取对应于检查对的文本。

但是,随着两个表的大小随着时间的推移而增加,我认为此解决方案的伸缩性不是很好。

另一种方法是迭代地解决该问题,考虑每个表块,并将结果逐步附加到输出存储中。

还有其他选择吗?

谢谢!

0 个答案:

没有答案