人们如何处理标有“' Conjunction'而WordNet词形还原?

时间:2017-08-19 22:08:24

标签: nlp nltk wordnet lemmatization

计算了NLTK标记POS后的简化标签。

simplified = [(word, simplify_wsj_tag(tag)) for word, tag in posTagged]
print(simplifiedTags)
#[('And', 'CONJ'), ('now', 'ADV'), ('for', 'ADP'), ('something', 'NOUN'), ('completely', 'ADV'), ('different', 'ADJ')]

现在必须找到每个单词的引理。除了结合之外,这些中的每一个都可以映射到wordnet POS类 - 名词,形容词,副词,动词。应该用标记为Conjuction的单词做什么?这四个班级中哪一个是最接近的亲戚?或者他们应该一起从句子中删除?

2 个答案:

答案 0 :(得分:0)

我认为我们可以为pos标记器使用默认值,它是除VERB,ADVERB,ADJECTIVE,NOUN以外的语音部分的名词。

https://bommaritollc.com/2014/06/30/advanced-approximate-sentence-matching-python/

上述网站的方法6做同样的事情。

答案 1 :(得分:0)

连接词已经处于引理形式,因此您可以跳过它们