一个句子与字符串向量

时间:2018-04-20 13:52:02

标签: c++

我正在尝试使用一种算法来告诉你两个句子之间的相似性百分比。我在考虑创建一个字符向量。对于每个字符,句子中的句子与另一个句子中的所有其他字符相比较。然后,相对于字符总数相同的字符数量应该给我%...但是如果你们有更快,更有效的方法来做到这一点。非常感谢。

2 个答案:

答案 0 :(得分:0)

您正在寻找的可能是Vector Space Model [wiki link]之类的算法。这是网络搜索引擎用于将相关网站提供给用户输入的字符串的常用算法。

它不是唯一能够做这种事情的算法(比较文本和给出相似值),但是大多数都没有过于复杂,C ++中已经有了库,它们有效地实现了它们,例如{{ 3}}或Lucene。如果你跳过他们的文档,你几乎肯定会找到一个函数,只需要两个字符串,并返回它们的语义相似性的标量表示。

答案 1 :(得分:0)

您可以使用Levenshtein距离来计算两个字符串之间的相似性 - 有关详细信息,请参阅https://en.m.wikipedia.org/wiki/Levenshtein_distance