我有一个由5个温度值组成的1000个样本的l2维数据集, 5个价格值,一个整数值代表人类专家的判断(未定的= 0,好= 1,坏= 2,危险= 4)和我想要学习预测的二元决策变量。
如何找到分类器而不是处理这种异构数据?
我正在考虑为每个可能的人类判断(0,1,2,4)构建一个分类器,因此有4个分类器。 因此,对于每个人类的判断价值,我会: - 居中并降低温度和价格 - 也许使用PCA删除一些不相关的功能 - 使用机器学习方法进行分类(如多层神经网络或SVM)
我的方法是否正确? (如果有1000个可能的人类判断而不是4个怎么办?)
答案 0 :(得分:2)
为SVM或ANN编码类别的典型方法是1-of-C编码:
通常几乎每个分类器都可以处理异构数据。但是你必须预处理输入(scale,normalize,...)。我给你的链接应该有很多提示。