带有小写字母的德语小写缩略词

时间:2020-04-06 13:09:09

标签: python nlp spacy

德语中带有spacy的名词单数化似乎存在问题。 Spacy似乎依靠大写单词来将它们识别为名词。一个例子:

import spacy
nlp = spacy.load("C:\\Users\\somepath\\spacy\\de_core_md\\de_core_news_md\\de_core_news_md-2.2.5")

def lemmatize_text(text):
    """returns the text with each word in its basic form"""
    doc = nlp(text)
    return [word.lemma_ for word in doc]

lemmatize_text('Das Wort Tests wird erkannt. Allerdings werden tests nicht erkannt')
--> ['der', 'Wort', 'Test', 'werden', 'erkennen', '.', 'Allerdings', 'werden', 'tests', 'nicht', 'erkennen']

# should say 'Test' for both sentences

如果我立即对原始文本进行词素化,那将不是问题。但是,我的预处理看起来像这样:

  1. 转到小写
  2. 删除标点符号
  3. 删除停用词
  4. 使化容

执行上述步骤是否有建议的顺序?

我不是先进行词形限制,因为句子开头的单词随后无法正确识别:

lemmatize_text('Größer wird es nicht mehr. größer wird es nicht mehr.')
--> ['Größer', 'werden', 'ich', 'nicht', 'mehr', '.', 'groß', 'werden', 'ich', 'nicht', 'mehr', '.']

# should say 'groß' for both sentences

0 个答案:

没有答案