我一直在尝试编写一个脚本,根据第一列中的重复值从CSV输出行。
数据如下所示:
FULLNAME, ADDRESS_1, ADDRESS_2, CITY, STATE, ZIPCODE
JANE DOE, MAIN STREET 1, APT 1, METROPOLIS, NEW YORK, 10000
我使用的脚本如下所示:
import pandas as pd
df = pd.read_csv('FILE.csv', dtype=str)
names = df["FULLNAME"]
df[names.isin(names[names.duplicated()])].sort_values("FULLNAME")
print(df)
我遇到的问题是,不是“FULLNAME”具有重复值的行,而是打印整个文件。
任何帮助将不胜感激!
答案 0 :(得分:0)
您的线路正常运行,但您只是获取值,而不是设置df。所以当你打印(df)时,你只是打印原始列表。
这将做你想要的事情
# assign duplicate entries to variable dupes
dupes = df[names.isin(names[names.duplicated()])].sort_values("FULLNAME")
print(dupes)