algorithm - TF-IDF如何用于编程源代码抄袭检测？

我简要地了解了TF-IDF的工作原理，对于检测文章中的gi窃行为确实有道理。

现在，我被告知要针对编程源代码使用它，这将如何工作？在文章中，大多数单词是自然语言单词，说英语，您可以计算这些单词。现在，在源代码中，每个人都可以定义各种奇怪的变量名称，因此对单词的这种计数对我来说没有太大意义。

即使我只想计算函数名称，我自己的函数名称也可能很奇怪，而系统/库函数名称对于TF很有用。

有人可以帮助解释更多吗？谢谢！