德语中带有spacy的名词单数化似乎存在问题。 Spacy似乎依靠大写单词来将它们识别为名词。一个例子:
import spacy
nlp = spacy.load("C:\\Users\\somepath\\spacy\\de_core_md\\de_core_news_md\\de_core_news_md-2.2.5")
def lemmatize_text(text):
"""returns the text with each word in its basic form"""
doc = nlp(text)
return [word.lemma_ for word in doc]
lemmatize_text('Das Wort Tests wird erkannt. Allerdings werden tests nicht erkannt')
--> ['der', 'Wort', 'Test', 'werden', 'erkennen', '.', 'Allerdings', 'werden', 'tests', 'nicht', 'erkennen']
# should say 'Test' for both sentences
如果我立即对原始文本进行词素化,那将不是问题。但是,我的预处理看起来像这样:
执行上述步骤是否有建议的顺序?
我不是先进行词形限制,因为句子开头的单词随后无法正确识别:
lemmatize_text('Größer wird es nicht mehr. größer wird es nicht mehr.')
--> ['Größer', 'werden', 'ich', 'nicht', 'mehr', '.', 'groß', 'werden', 'ich', 'nicht', 'mehr', '.']
# should say 'groß' for both sentences