我有一个数据框df
,看起来像:
A B C
abc 10 20
def 30 50
cfg 90 60
70 str 50
xyz 75 56
我想摆脱数据类型不匹配的第四行
我的代码:
df = pd.read_csv(file_path+files, delimiter='\t', error_bad_lines=False)
df.dtypes
A object
B int64
C object
dtype: object
答案 0 :(得分:0)
如果您不知道列的dtypes是什么,我将大步走出去,说这不是要解决的小问题。
出于这个问题的目的,我假设您在DataFrame中只有字符串和数字类型。
v = df.apply(pd.to_numeric, errors='coerce').isna()
df[~((x.mean() >=.5) ^ x)].dropna()
A B C
0 abc 10 20
1 def 30 50
2 cfg 90 60
4 xyz 75 56
这里的想法是删除不共享大多数数据dtype的行。