我想在列表中存储很多单词。其中许多词语非常相似。例如,我有单词afrykanerskojęzyczny
和许多单词,例如afrykanerskojęzycznym
,afrykanerskojęzyczni
,nieafrykanerskojęzyczni
。找到两个字符串之间的差异并从第一个字符串恢复第二个字符串并进行差异的有效(快速并给出小的差异大小)解决方案是什么?
答案 0 :(得分:72)
您可以在difflib模块中使用ndiff来执行此操作。它具有将一个字符串转换为另一个字符串所需的所有信息。
一个简单的例子:
import difflib
cases=[('afrykanerskojęzyczny', 'afrykanerskojęzycznym'),
('afrykanerskojęzyczni', 'nieafrykanerskojęzyczni'),
('afrykanerskojęzycznym', 'afrykanerskojęzyczny'),
('nieafrykanerskojęzyczni', 'afrykanerskojęzyczni'),
('nieafrynerskojęzyczni', 'afrykanerskojzyczni'),
('abcdefg','xac')]
for a,b in cases:
print('{} => {}'.format(a,b))
for i,s in enumerate(difflib.ndiff(a, b)):
if s[0]==' ': continue
elif s[0]=='-':
print(u'Delete "{}" from position {}'.format(s[-1],i))
elif s[0]=='+':
print(u'Add "{}" to position {}'.format(s[-1],i))
print()
打印:
afrykanerskojęzyczny => afrykanerskojęzycznym
Add "m" to position 20
afrykanerskojęzyczni => nieafrykanerskojęzyczni
Add "n" to position 0
Add "i" to position 1
Add "e" to position 2
afrykanerskojęzycznym => afrykanerskojęzyczny
Delete "m" from position 20
nieafrykanerskojęzyczni => afrykanerskojęzyczni
Delete "n" from position 0
Delete "i" from position 1
Delete "e" from position 2
nieafrynerskojęzyczni => afrykanerskojzyczni
Delete "n" from position 0
Delete "i" from position 1
Delete "e" from position 2
Add "k" to position 7
Add "a" to position 8
Delete "ę" from position 16
abcdefg => xac
Add "x" to position 0
Delete "b" from position 2
Delete "d" from position 4
Delete "e" from position 5
Delete "f" from position 6
Delete "g" from position 7
答案 1 :(得分:9)
我喜欢ndiff的答案,但是如果你想将它全部吐入只有变化的列表中,你可以做类似的事情:
import difflib
case_a = 'afrykbnerskojęzyczny'
case_b = 'afrykanerskojęzycznym'
output_list = [li for li in difflib.ndiff(case_a, case_b) if li[0] != ' ']
答案 2 :(得分:2)
您可以查看regex module(模糊部分)。我不知道你是否可以得到实际的差异,但至少你可以指定允许的不同类型的更改数量,如插入,删除和替换:
import regex
sequence = 'afrykanerskojezyczny'
queries = [ 'afrykanerskojezycznym', 'afrykanerskojezyczni',
'nieafrykanerskojezyczni' ]
for q in queries:
m = regex.search(r'(%s){e<=2}'%q, sequence)
print 'match' if m else 'nomatch'
答案 3 :(得分:2)
您要求的是一种特殊的压缩形式。 xdelta3是为这种特殊的压缩而设计的,并且它有一个python绑定,但你可能直接使用zlib。您希望zlib.compressobj
和zlib.decompressobj
使用zdict
参数设置为&#34;基本单词&#34;,例如afrykanerskojęzyczny
。
仅在python 3.3及更高版本中支持zdict
注意事项,如果你有相同的基础词,那么它最容易编码。你所有的差异,可能是你想要的也可能不是。
答案 4 :(得分:-1)
我在上面对原始问题的评论的答案让我觉得这就是他想要的:
loopnum = 0
word = 'afrykanerskojęzyczny'
wordlist = ['afrykanerskojęzycznym','afrykanerskojęzyczni','nieafrykanerskojęzyczni']
for i in wordlist:
wordlist[loopnum] = word
loopnum += 1
这将执行以下操作:
对于wordlist中的每个值,将wordlist的值设置为原始代码。
您需要做的就是将这段代码放在需要更改wordlist的位置,确保在wordlist中存储需要更改的单词,并且原始单词是正确的。
希望这有帮助!