Question

我刚刚获得了一项任务，我在csv文件中获得了很多功能（如列）和记录（作为行）。

使用Python（包括pandas）清理数据：

A,B,C
1,1,1
0,0,0
1,0,1

感谢。

Answer 1

我想删除具有相同值的所有重复列，并且只保留其中一个。 A将是唯一留下的第一列。

你的意思是A和C中唯一保留的那个，对吗？（B不会复制任何内容。）

您可以使用DataFrame.drop_duplicates

df = df.T.drop_duplicates().T

它适用于行而不是列，所以我在调用它之前/之后进行转置。

我想将具有高Pearson相关性的列与目标值组合，我该怎么做？

您可以对所有列进行循环匹配并计算与DataFrame.corr或numpy.corrcoef的相关性。