计算列表中所有元素与单个句子的相似度

时间:2012-12-04 04:57:33

标签: python string comparison

  1. 我需要量化长列表中所有句子与单个句子的相似性。也许使用Levenshtein或difflib。
  2. 然后,我必须删除超出某个给定阈值的列表中的那些句子,例如,在difflib中删除90%。
  3. 你能帮忙吗? 谢谢!

1 个答案:

答案 0 :(得分:4)

>>> mylist = ['ham and eggs', 'spam and legs', "it's time to die, mr bond!"]
>>> import difflib
>>> close_matches = difflib.get_close_matches('spam and eggs', mylist)
>>> close_matches
['spam and legs', 'ham and eggs']
>>> set(mylist) - set(close_matches)
set(["it's time to die, mr bond!"])