多维数据的分类

时间:2017-04-13 10:31:52

标签: algorithm machine-learning classification training-data supervised-learning

我想对一些多维数据进行分类:

输入数据如下:

Data1: [[a1,b1,f1], [a2,b2,f2], ... [an,bn,fn]] where: fn = F(an,bn) --> ClassA
Data2: [[c1,d1,g1], [c2,d2,g2], ... [cn,dn,gn]] where: gn = G(cn,dn) --> ClassB
...

因此,给定Datax,如下所示,我们希望将其归类为我们拥有的有限类之一:

Datax: [[x1,y1,z1], [x2,y2,z2], ... [xn,yn,zn]] where: zn = Z(xn,yn) --> which class?

我可能会为每条记录压平数组并训练我的分类器:

Data1: [a1,b1,f1,a2,b2,f2,...,an,bn,fn]

但我认为因为第三个值本身是前两个值的函数(例如fn = F(an,bn)),我应该在训练中考虑这种关系,而不是用于平面数组。

它有什么不同吗?或者解决这个问题的最佳方法是什么?

1 个答案:

答案 0 :(得分:0)

如果每个元组的第3个数据是相同确定性函数的乘积(每行可以不同但行的每个三元组必须相同) 然后你可以简单地剪切zn因为它没有带来任何新的信息。

例如:z1 = 3x1 + 2y1; z2 = 3x1 + 2y1; [...]; zn = 3xn + 2yn

如果不是这样,那么你应该离开z1。

说这个,我认为你可以压扁数组,因为大多数模型会自动理解这些依赖。