Question

我一直在尝试编写一个脚本，根据第一列中的重复值从CSV输出行。

数据如下所示：

FULLNAME, ADDRESS_1, ADDRESS_2, CITY, STATE, ZIPCODE
JANE DOE, MAIN STREET 1, APT 1, METROPOLIS, NEW YORK, 10000

我使用的脚本如下所示：

import pandas as pd

df = pd.read_csv('FILE.csv', dtype=str)
names = df["FULLNAME"]
df[names.isin(names[names.duplicated()])].sort_values("FULLNAME")

print(df)

我遇到的问题是，不是“FULLNAME”具有重复值的行，而是打印整个文件。

任何帮助将不胜感激！

Answer 1

您的线路正常运行，但您只是获取值，而不是设置df。所以当你打印（df）时，你只是打印原始列表。

这将做你想要的事情

# assign duplicate entries to variable dupes
dupes = df[names.isin(names[names.duplicated()])].sort_values("FULLNAME")
print(dupes)

CSV文件中的输出行是基于其中一列（python）中的重复项？

1 个答案: