我有一个(2.3m x 33)尺寸的数据框。就像我在选择要保留的列时一样,我使用
colsToKeep = ['A','B','C','D','E','F','G','H','I']
df = df[colsToKeep]
但是,这次,这些列下的数据在运行代码时变得完全混乱了。例如,A行的条目可能在D行中。完全是随机的。
有人曾经经历过这种行为吗?在运行这些行之前,数据没有什么异常,df完全可以。在问题开始之前运行代码:
with open('file.dat','r') as f:
df = pd.DataFrame(l.rstrip().split() for l in f)
#rename columns with the first row
df.columns = df.iloc[0]
#drop first row which is now duplicated
df = df.iloc[1:]
#. 33 nan columns - Remove all the nan columns that appeared
df = df.loc[:,df.columns.notnull()]
colsToKeep = ['A','B','C','D','E','F','G','H','I']
df = df[colsToKeep]
数据突然无法正确格式化,例如:
A B C D E F G H I
1 2 3 4 5 6 7 8 9
1 2 3 4 5 6 7 8 9
1 2 3 4 5 6 7 8 9
更随机的内容,例如:
A B C D E F G H I
7 9 3 4 5 1 2 8 6
3 2 9 2 1 6 7 8 4
2 1 3 6 5 4 7 9 8