是否有任何库可以轻松比较C#中2个字符串的“相似度”?我在想的是,如果你有字符串,
"This is a test" // 100%
"THIS IS A TEST" // 95%
" This is a test" // 98%
"This is" // 60%
"Foobar" // 0%
"this test is a" // 70%
等。与基本字符串相比,它们每个都会得到一个分数。
答案 0 :(得分:4)
看看Levenstein。
Levenshtein距离是两个弦之间的差异。我在网络爬虫应用程序中使用它来比较网页的新旧版本。如果它已经改变了,我会在我的数据库中更新它。
CodeProject在http://www.codeproject.com/KB/recipes/Levenshtein.aspx有一个实现。