CSV文件中的输出行是基于其中一列(python)中的重复项?

时间:2017-11-20 22:40:07

标签: python csv duplicates output

我一直在尝试编写一个脚本,根据第一列中的重复值从CSV输出行。

数据如下所示:

FULLNAME, ADDRESS_1, ADDRESS_2, CITY, STATE, ZIPCODE
JANE DOE, MAIN STREET 1, APT 1, METROPOLIS, NEW YORK, 10000

我使用的脚本如下所示:

import pandas as pd

df = pd.read_csv('FILE.csv', dtype=str)
names = df["FULLNAME"]
df[names.isin(names[names.duplicated()])].sort_values("FULLNAME")

print(df)

我遇到的问题是,不是“FULLNAME”具有重复值的行,而是打印整个文件。

任何帮助将不胜感激!

1 个答案:

答案 0 :(得分:0)

您的线路正常运行,但您只是获取值,而不是设置df。所以当你打印(df)时,你只是打印原始列表。

这将做你想要的事情

# assign duplicate entries to variable dupes
dupes = df[names.isin(names[names.duplicated()])].sort_values("FULLNAME")
print(dupes)