如何使用熊猫从Excel文件中删除重复项

时间:2018-07-01 12:24:55

标签: python pandas

我正在处理Excel工作表:

animal name    age
dog    puppy   1
dog    doggy   2
dog    snooppy 3
cat    pussy   1
pig    piggy   1
pig    cutty   2
rabit  robby   1
rabbit bunny   2

在这里,我应该检查动物年龄是否为1,应该删除该行并打印下一行,如果没有重复,则删除重复项,应该打印该行,并且此输出应该在其他excel工作表中打印。

有什么可以帮助我吗?

import 
imatplotlib.pyplot as plt
import pandas as pd

data = pd.read_excel(r"C:\Users\c_ssaiva\Desktop\sampladata.xlsx")
for index,row in data.iterrows():
print(index,row['animal'],row['name'],row['age'])
for j,row in data.iterrows():

 if a[i] == a[j]:
 if a[i] == 1
 print a[j]
 else:
 print (a[i])
 df = data
 df.to_excel(r"C:\Users\c_ssaiva\Desktop\selcol.xlsx")          

1 个答案:

答案 0 :(得分:0)

Hej Shrvya。熊猫很棒,可以无循环地完成您所要求的一切:) 您可以一站式完成

df = data[data['age'] != 1].drop_duplicates()

我们创建了一个新的df,删除了'age'!= 1的所有记录,然后删除重复的记录:)

我不确定输出值的目的是什么。为什么要在屏幕上打印值?