Python中的数据预处理

时间:2018-02-17 07:47:17

标签: python scikit-learn

Heyy,我是数据科学的新手,在这里我试图在其中一个列中找到缺失的数据。但是,我遇到一个错误,指出" X未定义"。有人能帮我吗?

#missing data
from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values='NaN', strategy ='mean', axis =0)
imputer = imputer.fit(X[:, 1:3])
X[:, 1:3] = imputer.transform(X[:, 1:3])

2 个答案:

答案 0 :(得分:2)

要查找单个列的缺失数据,必须使用以下代码。

dataset_name ['column_name']。isnull()。sum()

注意:如果我们需要查找丢失的数据,则不必担心X变量。 当您尝试使用一些平均值/中位数/众数值填充缺失数据时,需要使用X和y变量。

答案 1 :(得分:0)

“X”表示主数据框架的numpy.ndarray,减去目标变量。

X = df.iloc[:, :-1].values

试试这个。应该工作。