将缺失的数据视为另一个类别

时间:2016-05-31 19:55:33

标签: classification graphlab sframe

我有一些主要是用户人口统计数据的数据。有许多调查问题,人们已经回答了#34;是"或"不"。但是数据自然包含许多缺失值。我不想归咎于缺失的价值观。我想把它当作第三类。所以每个问题都有三个可能的答案 - "是","否"和" NotSure"。

到目前为止我所做的是:

model = graphlab.boosted_trees_classifier.create(train,
validation_set=None, target = target, max_iterations = 80, verbose = False)

其中target是我所预测的(它是二进制1或-1)。现在我的traintest数据集都有很多缺失值,所以我到目前为止所做的是:

predictions = model.predict(test, missing_value_action='impute')

但这些预测并没有给我很好的准确性。我想将每个两个类别的答案(是/否)转换为三个类别(是/否/不是)。如何去做?

我试过了:

colNames = train.column_names()
for i in colNames[6:]:
    train.fillna(i,'NotSure')

这没有任何错误地执行但它不起作用。

0 个答案:

没有答案