我正在尝试解决以下问题。 给定一个特定的代码片段,我需要回复代码片段的热门评论评论,这里我们要给出类似代码片段的所有评论。
我试图将其形成为机器学习问题。我认为我们可以使用KNN算法,但在这里我不确定如何衡量两个代码片段之间的相似性?是否有预先存在的相似性度量?我试图在谷歌搜索但没有找到任何有用的链接
请帮助
答案 0 :(得分:0)
编辑距离可能是一种有用的相似度量。
此外,n-gram 余弦距离可能很有用,也就是说,你提取n-gram(例如3-char-segment),构建计算这些n-gram的向量并计算余弦距离。
另一个是n-gram向量之间的 Jaccard相似性(如上所述)。