Question

我有一个（2.3m x 33）尺寸的数据框。就像我在选择要保留的列时一样，我使用

colsToKeep = ['A','B','C','D','E','F','G','H','I']
df = df[colsToKeep]

但是，这次，这些列下的数据在运行代码时变得完全混乱了。例如，A行的条目可能在D行中。完全是随机的。

有人曾经经历过这种行为吗？在运行这些行之前，数据没有什么异常，df完全可以。在问题开始之前运行代码：

with open('file.dat','r') as f:
    df = pd.DataFrame(l.rstrip().split() for l in f)

#rename columns with the first row
df.columns = df.iloc[0]

#drop first row which is now duplicated
df = df.iloc[1:]

#. 33 nan columns - Remove all the nan columns that appeared    
df = df.loc[:,df.columns.notnull()]

colsToKeep = ['A','B','C','D','E','F','G','H','I']
df = df[colsToKeep]

数据突然无法正确格式化，例如：

A  B  C  D  E  F  G  H  I
1  2  3  4  5  6  7  8  9
1  2  3  4  5  6  7  8  9
1  2  3  4  5  6  7  8  9

更随机的内容，例如：

A  B  C  D  E  F  G  H  I
7  9  3  4  5  1  2  8  6
3  2  9  2  1  6  7  8  4
2  1  3  6  5  4  7  9  8

熊猫在选择列后收集数据

0 个答案: