我正在研究一种表示C / C ++程序代码的方法。为了创建数据集并在那之后进行一些机器学习。
将代码视为文本并进行一些文本挖掘对我来说似乎不正确。因为我对计算的语义和精确性更感兴趣。
那么什么可以成为程序的良好代表性载体?
感谢。
答案 0 :(得分:0)
我认为您不想将您的程序表示为令牌序列。
请记住,您不必将代码实际表示为单词。如果您对语义关系感兴趣,可以使用更高级别的描述 - 例如,您可以使用表达式的解析树而不是标记。
您还可以进一步采用这种语法方法,并将整个程序表示为某些语法中的解析树而不是一系列标记。有一些可以处理树状结构数据的循环网络。