我正在尝试编写csv解析器,因此,如果我在名称列中使用相同的名称,则将删除第二个名称的行。例如:
['CSE_MAIN\\LC-CSEWS61', 'DEREGISTERED', '2018-04-18-192446'],
['CSE_MAIN\\IT-Laptop12', 'DEREGISTERED', '2018-03-28-144236'],
['CSE_MAIN\\LC-CSEWS61', 'DEREGISTERED', '2018-03-28-144236']]
我需要删除最后一行,因为它与第一行的名称相同。
我写的是:
file2 = str(sys.argv[2])
print ("The first file is:" + file2)
reader2 = csv.reader (open(file2))
with open("result2.csv",'wb') as result2:
wtr2= csv.writer( result2 )
for r in reader2:
wtr2.writerow( (r[0], r[6], r[9] ))
newreader2 = csv.reader (open("result2.csv"))
sortedlist2 = sorted(newreader2, key=lambda col: col[2] , reverse = True)
for i in range(len(sortedlist2)):
for j in range(len(sortedlist2)-1):
if (sortedlist2[i][0] == sortedlist2[j+1][0] and sortedlist2[i][1]!=sortedlist2[j+1][1]):
if(sortedlist2[i][1]>sortedlist2[j+1][1]):
del sortedlist2[i][0-2]
else:
del sortedlist2[j+1][0-2]
谢谢。
答案 0 :(得分:0)
尝试熊猫:
import pandas as pd
df = pd.read_csv('path/name_file.csv')
df = df.drop_duplicates([0]) #0 this is columns which will compare.
df.to_csv('New_file.csv') #save to csv
此方法删除第1列中的所有重复项。
如果需要简单删除,可以使用drop方法。
#You file after use pandas (print(df)):
0 1 2
0 CSE_MAIN\LC-CSEWS61 DEREGISTERED 2018-04-18-192446
1 CSE_MAIN\IT-Laptop12 DEREGISTERED 2018-03-28-144236
2 CSE_MAIN\LC-CSEWS61 DEREGISTERED 2018-03-28-144236
例如,您需要删除2行。
df.drop(2,axis=0, inplace=True) #axis=0 means row, if you switch 1 this is columns.
输出:
0 1 2
0 CSE_MAIN\LC-CSEWS61 DEREGISTERED 2018-04-18-192446
1 CSE_MAIN\IT-Laptop12 DEREGISTERED 2018-03-28-144236
答案 1 :(得分:0)
如果您想使用csv
模块,那么dict
可能是最简单的选择:
>>> {x[0]:x[1:] for x in list(csv.reader(open('bla')))[::-1]}
{'CSE_MAIN\\\\LC-CSEWS61': ['DEREGISTERED', '2018-04-18-192446'], 'CSE_MAIN\\\\IT-Laptop12': ['DEREGISTERED', '2018-03-28-144236']}
需要反转([::-1]
)是确保将选择键的第一个匹配项,而不是最后一个。更好但更多的行选项可能是:
res = {}
for a,b,c in csv.reader(open('bla')):
if a not in res:
res[a]=(b,c)
那么您将获得一个“干净”的命令,并且不需要像一个衬里这样的两次迭代。