nltk.word_tokenize和nltk.pos_tag支持哪些语言

时间:2013-02-27 11:40:21

标签: nlp nltk

我需要对多种语言的文本进行名称实体提取:西班牙语,葡萄牙语,希腊语,捷克语,中文。

这两个函数是否包含所有支持语言的列表?是否有一种方法可以使用其他语料库以便包含这些语言?

1 个答案:

答案 0 :(得分:3)

默认情况下,这两个功能仅支持英文文本。它不是真的在文档中,但你可以通过查看源代码来看到它:

  1. pos_tag()函数从此文件加载标记器:'taggers/maxent_treebank_pos_tagger/english.pickle'。 (see here

  2. word_tokenize()函数使用Treebank标记生成器,它使用正则表达式来标记文本,如(英语)Penn Treebank语料库中所示。 (see here