Question

我已经在使用StanfordCoreNLP，所以我想尽可能利用它。

更具体地说，我应该使用哪个annotator以及如何标记内容/词汇词？

我尝试了pos，但它没有区分功能和内容词。

PS。我使用lemma注释器来获取我想忽略的单词。

PPS。我使用pyconlp。

Answer 1

功能词（停用词）通常是手动策划的，因为它们因域而异。您可以在NLTK中找到通用列表。 CoreNLP还有一个here

from nltk.corpus import stopwords
stops = stopwords.words('english')

但是，您仍然应该查看它们，看看它们是否对您的用例有意义。我最近一直在使用技术语言，因此我将其删除了＃c;＆＃39;从我的名单中选择，因为＆＃39; IT＆＃39;是这个领域的首字母缩略词，因此是一个内容词。

对于您的注释器，您可以使用通用TokenizerAnnotator，它将您的文本分成＆＃34;单词＆＃34;。然后，您可以检查每个单词以查看它是否存在于您的禁用词列表中。如果您正在使用字符串，只需尝试在空格上拆分它们并删除或标记停用词作为直肠检查。