nlp - nltk.word_tokenize和nltk.pos_tag支持哪些语言 - Thinbug

nltk.word_tokenize和nltk.pos_tag支持哪些语言

时间：2013-02-27 11:40:21

标签： nlp nltk

我需要对多种语言的文本进行名称实体提取：西班牙语，葡萄牙语，希腊语，捷克语，中文。

这两个函数是否包含所有支持语言的列表？是否有一种方法可以使用其他语料库以便包含这些语言？

1 个答案:

答案 0 :(得分：3)

默认情况下，这两个功能仅支持英文文本。它不是真的在文档中，但你可以通过查看源代码来看到它：

pos_tag()函数从此文件加载标记器：'taggers/maxent_treebank_pos_tagger/english.pickle'。（see here）
word_tokenize()函数使用Treebank标记生成器，它使用正则表达式来标记文本，如（英语）Penn Treebank语料库中所示。（see here）