我是数据挖掘的新手,目前我正在考虑根据一组公式构建特征向量。
特别是,我有一些数据,每个数据都是一个公式,如下所示:
Y = (x1 * 5) >> 4 + (x2 * 6)
请注意,公式不是很大。
我基本上想要在每个公式的基础上提取特征向量,并进行经典的k均值聚类算法。
然而,我被困从公式中生成一个好的特征向量。
我当然可以从这开始:
(N_number_of_variable, N_number_of_const, N_number_of_operator)
但请注意,每个公式实际上都很小,实际上我有很多一个变量公式,如下所示:
Y1 = X2
Y2 = X3
....
所以我猜上面的天真方法可能不是一个好方法。
由于我之前基本上没有数据挖掘项目的经验,我想问一下,鉴于我的情况,是否有一种很好的方法来构建特征向量。
我清楚了吗?谢谢!亲爱的,我在这里附上了更多数据样本:
reg8 - 4 - 4 - 4 - 4 - 12
reg8 - 44
reg8
reg8 + 44
reg8 - 4 - 4 - 20
reg8
reg8 + 24 + 4
reg8
reg8 + 60 + 4 + 4 + 4 + 4
reg8
reg8
我想做什么:
实际上,上面的每个符号公式都代表CPU寄存器执行某些CPU指令时的语义信息。
我想通过查看(聚类)其相应的符号公式来识别一系列特定 CPU指令。
例如:
如果在聚类之后,下面的符号公式已聚集到一个类别中:
reg8 + 60 + 4 + 4 + 4 + 4
reg8 + 24 + 4
reg8 + 44
然后我将查看基本事实,并检查相应的指令序列是否肯定是我正在寻找的特定指令序列。