在NLTK中查找两个文本语料库之间的常用词

时间:2013-05-03 04:46:27

标签: python nltk

我对NLTK很新,我正在努力做点什么。

在两个文本体之间找到常用词的最佳方法是什么?基本上,我有一个长文本文件说text1,另一个说text2。我想找到使用NLTK出现在两个文件中的常用词。

有直接的方法吗?什么是最好的方法?

谢谢!

1 个答案:

答案 0 :(得分:0)

在我看来,除非你需要在语言处理方面做一些特殊的事情,否则你不需要NLTK:

words1 = "This is a simple test of set intersection".lower().split()
words2 = "Intersection of sets is easy using Python".lower().split()

intersection = set(words1) & set(words2)

>>> set(['of', 'is', 'intersection'])