功能与内容词

时间:2017-01-23 17:07:25

标签: nlp stanford-nlp

如何区分function/structure words and content/lexical words

我已经在使用StanfordCoreNLP,所以我想尽可能利用它。

更具体地说,我应该使用哪个annotator以及如何标记内容/词汇词?

我尝试了pos,但它没有区分功能和内容词。

PS。我使用lemma注释器来获取我想忽略的单词。

PPS。我使用pyconlp

1 个答案:

答案 0 :(得分:0)

功能词(停用词)通常是手动策划的,因为它们因域而异。您可以在NLTK中找到通用列表。 CoreNLP还有一个here

from nltk.corpus import stopwords
stops = stopwords.words('english')

但是,您仍然应该查看它们,看看它们是否对您的用例有意义。我最近一直在使用技术语言,因此我将其删除了#c;'从我的名单中选择,因为' IT'是这个领域的首字母缩略词,因此是一个内容词。

对于您的注释器,您可以使用通用TokenizerAnnotator,它将您的文本分成"单词"。然后,您可以检查每个单词以查看它是否存在于您的禁用词列表中。如果您正在使用字符串,只需尝试在空格上拆分它们并删除或标记停用词作为直肠检查。