我是数据挖掘的初学者。我正在使用weka。该数据集有109个变量,其中许多是具有多个级别(1到8)的名义变量。我的问题是:
1.我应该将分类变量(最多8级)转换为二进制或按原样使用吗?
注意:我将使用逻辑回归,随机森林,朴素贝叶斯算法。
答案 0 :(得分:0)
它们应该按原样运行,但如果您将分类数据预处理为二进制数据,则可能会有不同的结果。
Logistic回归,随机森林和朴素贝叶斯似乎在Weka中使用名义价值。如果将属性转换为二进制,则其中一些模型可能会有不同的表现。我不认为Logistic回归会产生太大的影响,但我对随机森林或朴素贝叶斯不太确定。