我对NLTK很新,我正在努力做点什么。
在两个文本体之间找到常用词的最佳方法是什么?基本上,我有一个长文本文件说text1,另一个说text2。我想找到使用NLTK出现在两个文件中的常用词。
有直接的方法吗?什么是最好的方法?
谢谢!
答案 0 :(得分:0)
在我看来,除非你需要在语言处理方面做一些特殊的事情,否则你不需要NLTK:
words1 = "This is a simple test of set intersection".lower().split()
words2 = "Intersection of sets is easy using Python".lower().split()
intersection = set(words1) & set(words2)
>>> set(['of', 'is', 'intersection'])