比较python中两个列表中的两个单词

时间:2013-10-02 20:33:01

标签: list python-2.7 compare words

我想比较两个不同列表中的单词,例如,我有:
    ['冻结','狗','困难','回答']和另一个清单     [ 'freaze', '点', '难治', '雁']。我想比较这个列表中的单词并给出错误字母的标记。所以,+1表示正确,-1表示错误。为了给出一些上下文,在拼写测试中,第一个列表将是答案,第二个列表将是学生的答案。我该怎么做呢?

1 个答案:

答案 0 :(得分:2)

假设两个列表长度相同,并且您有一些函数grade(a,b),其中a,b是字符串:

key = ['freeze','dog','difficult','answer']
ans = ['freaze','dot','dificult','anser']

pairs = zip(key, ans)
score = sum(grade(k,v) for (k,v) in pairs)

可能的评分功能是:

def grade(a,b):
    return 1 if a == b else -1

评分函数惩罚每个错误的字符并给出1pt的正确拼写(听起来很苛刻......)可能是:

def grade(a,b):
    score = sum(a == b for (a,b) in zip(a,b)) - max(len(a), len(b))
    return score if score else 1

如果你想要Levenshtein距离,你可能希望你的grade函数成为下面的包装器,它可以在Wikibooks找到,并且看起来效率很高:

def levenshtein(seq1, seq2):
    oneago = None
    thisrow = range(1, len(seq2) + 1) + [0]
    for x in xrange(len(seq1)):
        twoago, oneago, thisrow = oneago, thisrow, [0] * len(seq2) + [x + 1]
        for y in xrange(len(seq2)):
            delcost = oneago[y] + 1
            addcost = thisrow[y - 1] + 1
            subcost = oneago[y - 1] + (seq1[x] != seq2[y])
            thisrow[y] = min(delcost, addcost, subcost)
    return thisrow[len(seq2) - 1]

您还可以查看difflib来执行更复杂的操作。