[token.lemma_ for token in doc]
对代词进行词形简化,为代词提供了词形词-PRON-
,这是一个错误吗?
答案 0 :(得分:1)
以下代码段可以帮助您从小写的修饰词文本中消除-PRON-
。
[token.lemma_.lower() if token.lemma_ != '-PRON-' else token.lower_ for token in doc]
答案 1 :(得分:0)
不,这实际上是预期的行为。请参阅文档here:
与动词和普通名词不同,人称代词没有明确的基本形式。应该是" me"是"我"或者我们是否应该使人正常化,给予"它" - 或者可能"他"? spaCy的解决方案是引入一个新的符号
-PRON-
,用作所有人称代词的引理。
值得注意的是,此公约将来可能会发生变化,因为spaCy会更好地与Universal Dependencies格式兼容。