检查字符串列表中的重复项

时间:2017-01-16 20:33:52

标签: python python-3.x numpy duplicates

我想检查具有随机大小的列中的某些字符串是否重复。如果是,python应该打印出哪个行观察到错误。

我的代码如下:

import numpy as np
data = np.array([["s154090","Lis",1,0],["s151515","Lars",2,3],["s151515","Preben",1,0],["s154080","Rene",5,7]])

def sortGrades(data):

    studentId = data[:,0]
    xs = studentId
    s = set()
    if any(i in s or s.add(i) for i in xs):
        s = set()
        duplicates = set(i for i in xs if i in s or s.add(i))
        print("Error in line {},".format(i),"Det følgende Studie ID går igen",duplicates)
    else:
        print("Ingen Fejl")
        return ""

但它不起作用,因为i未定义。

  

---> 11打印(“行{}中的错误”,。格式(i),“DetfølgendeStudieIDgårgegen”,重复)

     

NameError:名称'i'未定义

我正在使用python 3.5。

1 个答案:

答案 0 :(得分:0)

除了例外你的方法有点太复杂了。例如,您只需要对数据进行一次传递:

def sortGrades(data):
    studentId = data[:,0]
    xs = studentId
    s = set()
    for line, val in enumerate(xs):
        if val in s:  # if the current value was already seen print the error message
            print("Error in line {},".format(line),"Det følgende Studie ID går igen", val)
        # Add the value
        s.add(val)

>>> sortGrades(data)
Error in line 2, Det følgende Studie ID går igen s151515

当您尝试在其范围之外访问理解的循环变量时,会发生异常(这是不可能的,至少在python-3.x中)。因此,一旦您的理解完成,您就无法再访问i了。

这就是我使用显式for循环的原因。这样你就可以访问循环变量了。

如果您想要非常懒惰,您还可以使用我撰写的外部模块中的函数:iteration_utilities.duplicates

from iteration_utilities import duplicates
from operator import itemgetter

for line, val in duplicates(enumerate(data[:,0]), key=itemgetter(1)):
    print("Error in line {},".format(line),"Det følgende Studie ID går igen", val)