从模糊的数据框中删除有问题的列

时间:2019-02-17 00:28:52

标签: python pandas dataframe dask

我有一个dask数据帧,其中有一个有问题的列,(我相信)是每次我尝试对该数据帧执行任何操作时都会抛出的特定错误的源(可能是head,或to_csv,甚至当我尝试使用(不同)列作为子集时,该错误很可能是由于数据类型不匹配而出现的,如下所示:

ValueError: invalid literal for int() with base 10: 'FIPS'

因此,我决定使用

删除该列('FIPS'
df = df.drop('FIPS', axis=1)

现在,当我执行df.columns时,我再也看不到'FIPS'了,这意味着它确实已被删除。但是当我尝试向文件中写入不同的列

df.column_a.to_csv('example.csv')

我不断收到相同的错误

ValueError: invalid literal for int() with base 10: 'FIPS'

我认为这与dask的惰性方法有关,因此延迟了下降,但是任何变通方法都将非常有帮助。

基本上,我只需要从column_a中提取单个列(df)。

1 个答案:

答案 0 :(得分:0)

尝试在拖放后转换为熊猫数据框

df.compute()

然后才写入csv