我有一些主要是用户人口统计数据的数据。有许多调查问题,人们已经回答了#34;是"或"不"。但是数据自然包含许多缺失值。我不想归咎于缺失的价值观。我想把它当作第三类。所以每个问题都有三个可能的答案 - "是","否"和" NotSure"。
到目前为止我所做的是:
model = graphlab.boosted_trees_classifier.create(train,
validation_set=None, target = target, max_iterations = 80, verbose = False)
其中target
是我所预测的(它是二进制1或-1)。现在我的train
和test
数据集都有很多缺失值,所以我到目前为止所做的是:
predictions = model.predict(test, missing_value_action='impute')
但这些预测并没有给我很好的准确性。我想将每个两个类别的答案(是/否)转换为三个类别(是/否/不是)。如何去做?
我试过了:
colNames = train.column_names()
for i in colNames[6:]:
train.fillna(i,'NotSure')
这没有任何错误地执行但它不起作用。