在正常的2级或多级分类问题中,我们可以使用任何着名的机器学习算法,如Naive Bayes或SVM来训练和测试模型。 我的问题是我已经获得了天气数据,标签变量的格式为“20%降雨,80%干燥”或“30%多云,70%降雨”等。 我该如何处理这个问题?我是否需要以某种方式将问题转化为回归?在这种情况下,如果数据中有三个标签(下雨,干燥,阴天),将百分比信息转换为连续值的正确方法是什么? 谢谢你的时间
答案 0 :(得分:1)
我会推荐一个带有三个输出标签Rain,Dry,Cloud的神经网络。
如果您的数据标签为“20%rain”,则实例的重量将为0.2。如果没有“雨”标签应该包含“假”。其他方法是3种不同的回归分类器,具有相同的转换约定。我认为回归会更好。
神经网络将是一个不错的选择,因为它可以同时进行所有三个回归/分类,它们可以相互影响。此外,训练算法很简单。
答案 1 :(得分:1)
假设表达“20%降雨,80%干燥”和“30%混浊,70%降雨”代表概率,那些类是相互排斥的,我们可能会忽略可能的序数关系(例如“干>其中,多项逻辑回归等模型可能适合这些值,就像它们被分组或复制一样。
我认为其他的 ad hoc 程序也可以使用,这样可以最大限度地减少Kullback-Leibler分歧。