标签: nlp nltk
我需要对多种语言的文本进行名称实体提取:西班牙语,葡萄牙语,希腊语,捷克语,中文。
这两个函数是否包含所有支持语言的列表?是否有一种方法可以使用其他语料库以便包含这些语言?
答案 0 :(得分:3)
默认情况下,这两个功能仅支持英文文本。它不是真的在文档中,但你可以通过查看源代码来看到它:
pos_tag()函数从此文件加载标记器:'taggers/maxent_treebank_pos_tagger/english.pickle'。 (see here)
pos_tag()
'taggers/maxent_treebank_pos_tagger/english.pickle'
word_tokenize()函数使用Treebank标记生成器,它使用正则表达式来标记文本,如(英语)Penn Treebank语料库中所示。 (see here)
word_tokenize()