应用错误收集

NLTK / pyNLTK可以“按语言”工作（即非英语），以及如何工作？

时间：2009-11-25 08:17:32

标签： python nlp nltk

我如何告诉NLTK以特定语言处理文本？

有一段时间我会编写一个专门的NLP例程，在非英语（但仍然是后欧洲）的文本域上进行POS标记，标记等操作。

这个问题似乎只涉及不同的语料库，而不是代码/设置的变化： POS tagging in German

或者，是否有任何专门用于python的希伯来语/西班牙语/波兰语NLP模块？

1 个答案:

答案 0 :(得分：8)

我不确定你所指的是代码/设置的变化。 NLTK主要依靠机器学习，而“设置”通常是从训练数据中提取的。

当涉及到POS标记时，结果和标记将取决于您使用/训练的标记器。如果你训练自己，你当然需要一些西班牙/波兰训练数据。这些可能很难找到的原因是缺乏公开的黄金标准材料。有一些工具可以做到这一点，但这个工具不适用于python（http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/）。

nltk.tokenize.punkt.PunktSentenceTokenizer标记器将根据多语言句子边界对句子进行标记，其详细信息可在本文中找到（http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485）。