识别手动数据输入错误(Python Pandas)

时间:2018-08-06 04:23:46

标签: python pandas

我对Python完全陌生(<1周),所以如果这个问题很简单,请原谅:

我正在尝试识别15k +行中输入错误的数据。每行包含多列:

  • 名字
  • 姓氏
  • 员工编号(EID)
  • 电话号码
  • 地址等

由于输入是手动的,因此可能会输入错误的信息。我正在考虑透视数据,但我不知道这是否是最佳解决方案,或者如何使透视表仅将值保留在例如名字/姓氏相同,但EID不同(以下示例)。

到目前为止,我仅涉及数据透视表部分,很乐意对此进行任何输入!这可能不是执行此操作的最佳方法,所以我愿意接受任何想法。

import pandas as pd

df = pd.read_excel("Data.xlsx")
pd.pivot_table(df,index=["FirstName", "Surname","EID"],aggfunc=[len])

Example output

我希望枢轴可以只保留John Doe和Jane Doe,而不显示John Peters / Jane Clark(因为名称相同,但EID不同)。根据计数,我们知道EID 1234和6789可能是正确的值,而其他EID是输入错误。

提前谢谢!

0 个答案:

没有答案