如何衡量用编程语言

时间:2017-05-29 08:34:01

标签: machine-learning nlp similarity

我正在尝试解决以下问题。 给定一个特定的代码片段,我需要回复代码片段的热门评论评论,这里我们要给出类似代码片段的所有评论。

我试图将其形成为机器学习问题。我认为我们可以使用KNN算法,但在这里我不确定如何衡量两个代码片段之间的相似性?是否有预先存在的相似性度量?我试图在谷歌搜索但没有找到任何有用的链接

请帮助

1 个答案:

答案 0 :(得分:0)

包含所考虑的注释的两个字符串之间的

编辑距离可能是一种有用的相似度量。

此外,n-gram 余弦距离可能很有用,也就是说,你提取n-gram(例如3-char-segment),构建计算这些n-gram的向量并计算余弦距离。

另一个是n-gram向量之间的 Jaccard相似性(如上所述)。