我有一个尺寸为 (20000,3000)
的 Pandas 数据框,我希望有一些重复的列,但它们有不同的标题。我将如何删除这些重复项,但将原始列保留在 Pandas 中
答案 0 :(得分:1)
您可以使用以下方法根据值删除重复的列:
df=df.T.drop_duplicates().T
如下:
import pandas as pd
df = pd.DataFrame(
{'A': [2, 4, 8, 0],
'B': [2, 0, 0, 0],
'B_duplicated': [2, 0, 0, 0],
'C': [10, 2, 1, 8]})
df = df.T.drop_duplicates().T
这将导致:
A B C
0 2 2 10
1 4 0 2
2 8 0 1
3 0 0 8