计算了NLTK标记POS后的简化标签。
simplified = [(word, simplify_wsj_tag(tag)) for word, tag in posTagged]
print(simplifiedTags)
#[('And', 'CONJ'), ('now', 'ADV'), ('for', 'ADP'), ('something', 'NOUN'), ('completely', 'ADV'), ('different', 'ADJ')]
现在必须找到每个单词的引理。除了结合之外,这些中的每一个都可以映射到wordnet POS类 - 名词,形容词,副词,动词。应该用标记为Conjuction的单词做什么?这四个班级中哪一个是最接近的亲戚?或者他们应该一起从句子中删除?
答案 0 :(得分:0)
我认为我们可以为pos标记器使用默认值,它是除VERB,ADVERB,ADJECTIVE,NOUN以外的语音部分的名词。
https://bommaritollc.com/2014/06/30/advanced-approximate-sentence-matching-python/
上述网站的方法6做同样的事情。
答案 1 :(得分:0)
连接词已经处于引理形式,因此您可以跳过它们