Question

我刚刚开始使用pandas，我会通过以这种方式合并我的DataFrame来减少数据量：

加载df
检查所有值相同的列
删除其他列
将df降低为单个系列

返回

def merge_df(in_df):
    alist = []
    for col in in_df.columns:
         if len(in_df[col].unique()) == 1:
         alist.append(col)
    return in_df[alist].T.squeeze()[1]

还有更多的优雅方式吗？例如。没有遍历所有列？

Answer 1

是的，您可以通过pandas简单功能删除重复数据。 df.drop_duplicates() 您可以参考文档here.

要删除特定列冗余数据，您可以将列名称作为参数“子集”传递。它会删除重复数据的整行。

Pandas - 当所有列值相同时，将DataFrame合并到Series。

1 个答案: