如何区分function/structure words and content/lexical words?
我已经在使用StanfordCoreNLP,所以我想尽可能利用它。
更具体地说,我应该使用哪个annotator以及如何标记内容/词汇词?
我尝试了pos
,但它没有区分功能和内容词。
PS。我使用lemma
注释器来获取我想忽略的单词。
PPS。我使用pyconlp
。
答案 0 :(得分:0)
功能词(停用词)通常是手动策划的,因为它们因域而异。您可以在NLTK中找到通用列表。 CoreNLP还有一个here
from nltk.corpus import stopwords
stops = stopwords.words('english')
但是,您仍然应该查看它们,看看它们是否对您的用例有意义。我最近一直在使用技术语言,因此我将其删除了#c;'从我的名单中选择,因为' IT'是这个领域的首字母缩略词,因此是一个内容词。
对于您的注释器,您可以使用通用TokenizerAnnotator,它将您的文本分成"单词"。然后,您可以检查每个单词以查看它是否存在于您的禁用词列表中。如果您正在使用字符串,只需尝试在空格上拆分它们并删除或标记停用词作为直肠检查。