标签: algorithm bigdata data-science tf-idf plagiarism-detection
我简要地了解了TF-IDF的工作原理,对于检测文章中的gi窃行为确实有道理。
现在,我被告知要针对编程源代码使用它,这将如何工作?在文章中,大多数单词是自然语言单词,说英语,您可以计算这些单词。现在,在源代码中,每个人都可以定义各种奇怪的变量名称,因此对单词的这种计数对我来说没有太大意义。
即使我只想计算函数名称,我自己的函数名称也可能很奇怪,而系统/库函数名称对于TF很有用。
有人可以帮助解释更多吗?谢谢!