Question

阅读 this 文章后，我发现我可以使用荷兰语句子标记器，如下所示：

nltk.download('punkt')
tokenizer = nltk.data.load('tokenizers/punkt/dutch.pickle')
tokernizer.tokenize('Ik liep naar huis. Dat deed ik gisteren')

但是有没有办法使用荷兰语单词分词器？英文（默认的“punkt”）似乎有效，但我猜它可能会在某个时候出错。

Answer 1

nltk.tokenize.word_tokenize(text, language='english', preserve_line=False)

您似乎可以指定语言：

nltk.word_tokenize('Ik liep naar huis. Dat deed ik gisteren', language='dutch')

还要注意，'punkt' 是一个句子标记器，它会将文档分割成句子。 nltk.word_tokenize 执行 punt，然后执行分词器。

或者，您可以检查 spacy。