我正在考虑解决以下问题的最佳策略,我想知道您对此的想法。
我有两个带有以下各列的表(ID_A,TEXT_A)和(ID_B,TEXT_B),并且我必须使用NLP模型评估每对ID_A,ID_B的文本相似性。
自然地,考虑到交叉连接,此类问题导致产生大量配对。因此,我放弃了创建具有计算所需的所有信息(ID_A,ID_B,TEXT_A,TEXT_B)的表的想法,然后尝试使用两个广播字典{ID:TEXT},然后将其用于UDF内获取对应于检查对的文本。
但是,随着两个表的大小随着时间的推移而增加,我认为此解决方案的伸缩性不是很好。
另一种方法是迭代地解决该问题,考虑每个表块,并将结果逐步附加到输出存储中。
还有其他选择吗?
谢谢!