基于公式构造特征向量的好习惯是什么?

时间:2015-09-16 00:36:35

标签: machine-learning data-mining feature-extraction feature-selection

我是数据挖掘的新手,目前我正在考虑根据一组公式构建特征向量。

特别是,我有一些数据,每个数据都是一个公式,如下所示:

Y = (x1 * 5) >> 4 + (x2 * 6)

请注意,公式不是很大。

我基本上想要在每个公式的基础上提取特征向量,并进行经典的k均值聚类算法。

然而,我被困从公式中生成一个好的特征向量。

我当然可以从这开始:

(N_number_of_variable, N_number_of_const, N_number_of_operator)

但请注意,每个公式实际上都很小,实际上我有很多一个变量公式,如下所示:

Y1 = X2
Y2 = X3
....

所以我猜上面的天真方法可能不是一个好方法。

由于我之前基本上没有数据挖掘项目的经验,我想问一下,鉴于我的情况,是否有一种很好的方法来构建特征向量。

我清楚了吗?谢谢!

亲爱的,我在这里附上了更多数据样本:

reg8 - 4 - 4 - 4 - 4 - 12

reg8 - 44

reg8

reg8 + 44

reg8 - 4 - 4 - 20

reg8

reg8 + 24 + 4

reg8

reg8 + 60 + 4 + 4 + 4 + 4

reg8

reg8

我想做什么:

实际上,上面的每个符号公式都代表CPU寄存器执行某些CPU指令时的语义信息。

我想通过查看(聚类)其相应的符号公式来识别一系列特定 CPU指令。

例如:

如果在聚类之后,下面的符号公式已聚集到一个类别中:

reg8 + 60 + 4 + 4 + 4 + 4 
reg8 + 24 + 4
reg8 + 44

然后我将查看基本事实,并检查相应的指令序列是否肯定是我正在寻找的特定指令序列。

0 个答案:

没有答案