我正在处理此文本`处理任务,其中涉及将句子标记化并用西班牙语标记POS。我已经编写了一个有效的代码(下面有一些在线教程),但是POS标签是英语的,并且不能正确地标记为西班牙语单词。因此,我的查询是,如何指示python使用西班牙语Cess模块?
我已经导入了NLTK标记程序pos_tag,pos_tag_sents,并且从nltk.corpus导入了cess_esp作为cess
我想使用此代码,因为它确实保存了{token,POS}的元组,但只需在其中添加西班牙文pos标签。 我真的很感谢任何反馈。 非常感谢!
df['text']
tagger = cess
texts = df['text'].tolist()
tagged_texts = pos_tag_sents(map(word_tokenize, texts))
tagged_texts
df['POS'] = tagged_texts
pos_tag_sents( df['text'].apply(word_tokenize).tolist() )
df['POS'] = pos_tag_sents( df['text'].apply(word_tokenize).tolist() )