熊猫在选择列后收集数据

时间:2019-04-02 20:55:17

标签: python pandas

我有一个(2.3m x 33)尺寸的数据框。就像我在选择要保留的列时一样,我使用

colsToKeep = ['A','B','C','D','E','F','G','H','I']
df = df[colsToKeep]  

但是,这次,这些列下的数据在运行代码时变得完全混乱了。例如,A行的条目可能在D行中。完全是随机的。

有人曾经经历过这种行为吗?在运行这些行之前,数据没有什么异常,df完全可以。在问题开始之前运行代码:

with open('file.dat','r') as f:
    df = pd.DataFrame(l.rstrip().split() for l in f)

#rename columns with the first row
df.columns = df.iloc[0]

#drop first row which is now duplicated
df = df.iloc[1:]

#. 33 nan columns - Remove all the nan columns that appeared    
df = df.loc[:,df.columns.notnull()]

colsToKeep = ['A','B','C','D','E','F','G','H','I']
df = df[colsToKeep]  

数据突然无法正确格式化,例如:

A  B  C  D  E  F  G  H  I
1  2  3  4  5  6  7  8  9
1  2  3  4  5  6  7  8  9
1  2  3  4  5  6  7  8  9

更随机的内容,例如:

A  B  C  D  E  F  G  H  I
7  9  3  4  5  1  2  8  6
3  2  9  2  1  6  7  8  4
2  1  3  6  5  4  7  9  8

0 个答案:

没有答案