我想对一些多维数据进行分类:
输入数据如下:
Data1: [[a1,b1,f1], [a2,b2,f2], ... [an,bn,fn]] where: fn = F(an,bn) --> ClassA
Data2: [[c1,d1,g1], [c2,d2,g2], ... [cn,dn,gn]] where: gn = G(cn,dn) --> ClassB
...
因此,给定Datax,如下所示,我们希望将其归类为我们拥有的有限类之一:
Datax: [[x1,y1,z1], [x2,y2,z2], ... [xn,yn,zn]] where: zn = Z(xn,yn) --> which class?
我可能会为每条记录压平数组并训练我的分类器:
Data1: [a1,b1,f1,a2,b2,f2,...,an,bn,fn]
但我认为因为第三个值本身是前两个值的函数(例如fn = F(an,bn)
),我应该在训练中考虑这种关系,而不是用于平面数组。
它有什么不同吗?或者解决这个问题的最佳方法是什么?
答案 0 :(得分:0)
如果每个元组的第3个数据是相同确定性函数的乘积(每行可以不同但行的每个三元组必须相同) 然后你可以简单地剪切zn因为它没有带来任何新的信息。
例如:z1 = 3x1 + 2y1; z2 = 3x1 + 2y1; [...]; zn = 3xn + 2yn
如果不是这样,那么你应该离开z1。
说这个,我认为你可以压扁数组,因为大多数模型会自动理解这些依赖。