加速文本比较(使用稀疏矩阵)

时间:2009-09-21 19:23:57

标签: text comparison matrix analysis

我有一个函数,它接受两个字符串,并给出余弦相似度值,显示两个文本之间的关系。

如果我想比较75个文本,我需要进行5,625次单一比较,以便将所有文本相互比较。

有没有办法减少这种比较次数?例如稀疏矩阵或k均值?

我不想谈论我的功能或比较文本的方法。只是减少比较次数。

2 个答案:

答案 0 :(得分:1)

如果您的算法是成对的,那么根据定义,您可能无法减少比较次数。

如果你想减少比较次数,你需要使用不同的算法,或者至少预处理你的输入。

如果没有你的功能细节,很难给出任何具体的帮助。

答案 1 :(得分:1)

Ben说这是真的,为了得到更好的帮助,你需要告诉我们目标是什么。

例如,一个可能的优化如果你想找到相似的字符串是将字符串向量存储在空间数据结构中,例如四叉树,你可以直接丢弃太远的向量相互之间,避免了很多比较。