TF-IDF如何用于编程源代码抄袭检测?

时间:2019-02-23 22:09:15

标签: algorithm bigdata data-science tf-idf plagiarism-detection

我简要地了解了TF-IDF的工作原理,对于检测文章中的gi窃行为确实有道理。

现在,我被告知要针对编程源代码使用它,这将如何工作?在文章中,大多数单词是自然语言单词,说英语,您可以计算这些单词。现在,在源代码中,每个人都可以定义各种奇怪的变量名称,因此对单词的这种计数对我来说没有太大意义。

即使我只想计算函数名称,我自己的函数名称也可能很奇怪,而系统/库函数名称对于TF很有用。

有人可以帮助解释更多吗?谢谢!

0 个答案:

没有答案