机器学习集群或分类程序

时间:2018-04-19 10:32:59

标签: machine-learning code-analysis

我正在研究一种表示C / C ++程序代码的方法。为了创建数据集并在那之后进行一些机器学习。

将代码视为文本并进行一些文本挖掘对我来说似乎不正确。因为我对计算的语义和精确性更感兴趣。

那么什么可以成为程序的良好代表性载体?

感谢。

1 个答案:

答案 0 :(得分:0)

我认为您不想将您的程序表示为令牌序列。

请记住,您不必将代码实际表示为单词。如果您对语义关系感兴趣,可以使用更高级别的描述 - 例如,您可以使用表达式的解析树而不是标记。

您还可以进一步采用这种语法方法,并将整个程序表示为某些语法中的解析树而不是一系列标记。有一些可以处理树状结构数据的循环网络。