Question

我对NLTK很新，我正在努力做点什么。

在两个文本体之间找到常用词的最佳方法是什么？基本上，我有一个长文本文件说text1，另一个说text2。我想找到使用NLTK出现在两个文件中的常用词。

有直接的方法吗？什么是最好的方法？

谢谢！

Answer 1

在我看来，除非你需要在语言处理方面做一些特殊的事情，否则你不需要NLTK：

words1 = "This is a simple test of set intersection".lower().split()
words2 = "Intersection of sets is easy using Python".lower().split()

intersection = set(words1) & set(words2)

>>> set(['of', 'is', 'intersection'])

在NLTK中查找两个文本语料库之间的常用词

1 个答案: