计算一组字符串的相似性(推文)

时间:2012-06-28 23:33:59

标签: python string levenshtein-distance

我的应用程序显示了约100个热门话题的推文。问题是它们中的很多都非常相似(即同一条推文使用不同的网址),这就是为什么我要忽略非常类似的推文。

我正在尝试使用python找到一种有效的方法。我正在考虑使用:http://code.google.com/p/pylevenshtein/来解决这个问题,但我必须将很多推文相互比较,也许还有一种更简单的方法。

2 个答案:

答案 0 :(得分:2)

尝试difflib.get_close_matches将每条推文与其他推文进行比较。

答案 1 :(得分:2)

你真的要试试difflib,它有一些很酷的东西。这是我的最爱之一:

>>>from difflib import SequenceMatcher as sm
>>> dif = sm(a='hello', b='maybe hello')
>>> dif.ratio()
0.625
>>> dif = sm(a='hello', b='Hello')
>>> dif.ratio()
0.8
>>> dif = sm(a=[1,2,3,4], b=[2,3,5,6])
>>> dif.ratio()
0.5