我刚刚获得了一项任务,我在csv文件中获得了很多功能(如列)和记录(作为行)。
使用Python(包括pandas)清理数据:
A,B,C
1,1,1
0,0,0
1,0,1
我想删除所有具有相同值的重复列,并且只保留其中一个。 A 和 B 将是唯一保留的列。
我想将具有高Pearson相关性的列与目标值组合,我该怎么做?
感谢。
答案 0 :(得分:1)
我想删除具有相同值的所有重复列,并且只保留其中一个。
A
将是唯一留下的第一列。
你的意思是A
和C
中唯一保留的那个,对吗? (B
不会复制任何内容。)
您可以使用DataFrame.drop_duplicates
df = df.T.drop_duplicates().T
它适用于行而不是列,所以我在调用它之前/之后进行转置。
我想将具有高Pearson相关性的列与目标值组合,我该怎么做?
您可以对所有列进行循环匹配并计算与DataFrame.corr
或numpy.corrcoef
的相关性。