Spacy - 代词的词形化给出了一些错误的输出

时间:2018-05-26 14:26:23

标签: machine-learning nlp spacy

通过[token.lemma_ for token in doc]对代词进行词形简化,为代词提供了词形词-PRON-,这是一个错误吗?

2 个答案:

答案 0 :(得分:1)

以下代码段可以帮助您从小写的修饰词文本中消除-PRON-

[token.lemma_.lower() if token.lemma_ != '-PRON-' else token.lower_ for token in doc]

答案 1 :(得分:0)

不,这实际上是预期的行为。请参阅文档here

  

与动词和普通名词不同,人称代词没有明确的基本形式。应该是" me"是"我"或者我们是否应该使人正常化,给予"它" - 或者可能"他"? spaCy的解决方案是引入一个新的符号-PRON-,用作所有人称代词的引理。

值得注意的是,此公约将来可能会发生变化,因为spaCy会更好地与Universal Dependencies格式兼容。