仅按其值删除重复列

时间:2016-02-13 18:08:28

标签: python pandas

我刚刚获得了一项任务,我在csv文件中获得了很多功能(如列)和记录(作为行)。

使用Python(包括pandas)清理数据:

A,B,C
1,1,1
0,0,0
1,0,1
  1. 我想删除所有具有相同值的重复列,并且只保留其中一个。 A B 将是唯一保留的列。

  2. 我想将具有高Pearson相关性的列与目标值组合,我该怎么做?

  3. 感谢。

1 个答案:

答案 0 :(得分:1)

  

我想删除具有相同值的所有重复列,并且只保留其中一个。 A将是唯一留下的第一列。

你的意思是AC中唯一保留的那个,对吗? (B不会复制任何内容。)

您可以使用DataFrame.drop_duplicates

df = df.T.drop_duplicates().T

它适用于行而不是列,所以我在调用它之前/之后进行转置。

  

我想将具有高Pearson相关性的列与目标值组合,我该怎么做?

您可以对所有列进行循环匹配并计算与DataFrame.corrnumpy.corrcoef的相关性。