Question

我是数据挖掘的新手，目前我正在考虑根据一组公式构建特征向量。

特别是，我有一些数据，每个数据都是一个公式，如下所示：

Y = (x1 * 5) >> 4 + (x2 * 6)

请注意，公式不是很大。

我基本上想要在每个公式的基础上提取特征向量，并进行经典的k均值聚类算法。

然而，我被困从公式中生成一个好的特征向量。

我当然可以从这开始：

(N_number_of_variable, N_number_of_const, N_number_of_operator)

但请注意，每个公式实际上都很小，实际上我有很多一个变量公式，如下所示：

Y1 = X2
Y2 = X3
....

所以我猜上面的天真方法可能不是一个好方法。

由于我之前基本上没有数据挖掘项目的经验，我想问一下，鉴于我的情况，是否有一种很好的方法来构建特征向量。

我清楚了吗？谢谢！

亲爱的，我在这里附上了更多数据样本：

reg8 - 4 - 4 - 4 - 4 - 12

reg8 - 44

reg8

reg8 + 44

reg8 - 4 - 4 - 20

reg8

reg8 + 24 + 4

reg8

reg8 + 60 + 4 + 4 + 4 + 4

reg8

reg8

我想做什么：

实际上，上面的每个符号公式都代表CPU寄存器执行某些CPU指令时的语义信息。

我想通过查看（聚类）其相应的符号公式来识别一系列特定 CPU指令。

例如：

如果在聚类之后，下面的符号公式已聚集到一个类别中：

reg8 + 60 + 4 + 4 + 4 + 4 
reg8 + 24 + 4
reg8 + 44

然后我将查看基本事实，并检查相应的指令序列是否肯定是我正在寻找的特定指令序列。