我对Python完全陌生(<1周),所以如果这个问题很简单,请原谅:
我正在尝试识别15k +行中输入错误的数据。每行包含多列:
由于输入是手动的,因此可能会输入错误的信息。我正在考虑透视数据,但我不知道这是否是最佳解决方案,或者如何使透视表仅将值保留在例如名字/姓氏相同,但EID不同(以下示例)。
到目前为止,我仅涉及数据透视表部分,很乐意对此进行任何输入!这可能不是执行此操作的最佳方法,所以我愿意接受任何想法。
import pandas as pd
df = pd.read_excel("Data.xlsx")
pd.pivot_table(df,index=["FirstName", "Surname","EID"],aggfunc=[len])
我希望枢轴可以只保留John Doe和Jane Doe,而不显示John Peters / Jane Clark(因为名称相同,但EID不同)。根据计数,我们知道EID 1234和6789可能是正确的值,而其他EID是输入错误。
提前谢谢!