我有数据挖掘问题,希望对方法部分提出您的建议/意见。
这是一个多类问题,我需要构建分类器,对于新的数据点,算法应该能够识别数据点是属于现有类还是属于新类(C + 1)。
我遵循的当前方法是,如果特定类的概率> 60%,则记录被分类到该类,如果没有类具有> 60%概率,那么记录将被分类到新课(C + 1)。
但新类认可的准确性很低(约30%至40%)。我使用了C5.0提升的决策树算法。
95%的功能都有二进制数据。
任何人都可以为此建议任何其他替代方法/算法。
斯
答案 0 :(得分:0)
有许多监督分类备选方案,对于R的情况,一个优秀选项是使用e1071包的支持向量机分类。我还建议尝试评估softmax神经网络。