Question

我担心的是使用熊猫删除其中包含“未知”关键字的空值。当我上传.csv文件时，这个特定的数据集碰巧已经具有该关键字的所有NaN空值了。

图片： Data head: 121 values, 8 columns 有关数据集本身的信息如下：

<class 'pandas.core.frame.DataFrame'>
Index: 119 entries, ROMANIA to CZECH REPUBLIC
Data columns (total 7 columns):
authority               119 non-null object
date                    119 non-null object
fine                    119 non-null object
controller/processor    119 non-null object
quoted article          119 non-null object
type                    119 non-null object
infos                   119 non-null object
dtypes: object(7)
memory usage: 9.9+ KB

我已经使用gdpr_fines.isnull().sum()，gdpr_fines.dropna()和gdpr_fines = gdpr_fines.drop_duplicates()函数清除数据，但没有成功。

当我尝试专门过滤'fine'列（fines = gdpr_fines['fine']）并尝试使用float（fines）函数将其从字符串转换为float时，会出现此问题，但是出现以下错误：

TypeError：无法将系列转换为

我不是100％肯定的问题是，熊猫根本无法识别好数量的数字，或者由于列中包含一些“未知” NaN值单元格而导致出现错误。

Answer 1

如果将所有值'Unknown'替换为np.nan，则可以在数据框中执行.dropna()。

import numpy as np
gdpr_fines = gdpr_fines.replace('Unknown', np.nan)
gdpr_fines = gdpr_fines.dropna()

使用Pandas使用某些关键字删除空值：NaN值或字符串以进行浮点转换问题？

1 个答案: