标记荷兰语单词

时间:2021-03-01 12:02:18

标签: python python-3.x nlp nltk

阅读 this 文章后,我发现我可以使用荷兰语句子标记器,如下所示:

nltk.download('punkt')
tokenizer = nltk.data.load('tokenizers/punkt/dutch.pickle')
tokernizer.tokenize('Ik liep naar huis. Dat deed ik gisteren')

但是有没有办法使用荷兰语单词分词器?英文(默认的“punkt”)似乎有效,但我猜它可能会在某个时候出错。

1 个答案:

答案 0 :(得分:2)

来自documentation

nltk.tokenize.word_tokenize(text, language='english', preserve_line=False)

您似乎可以指定语言:

nltk.word_tokenize('Ik liep naar huis. Dat deed ik gisteren', language='dutch')

还要注意,'punkt' 是一个句子标记器,它会将文档分割成句子。 nltk.word_tokenize 执行 punt,然后执行分词器。

或者,您可以检查 spacy