阅读 this 文章后,我发现我可以使用荷兰语句子标记器,如下所示:
nltk.download('punkt')
tokenizer = nltk.data.load('tokenizers/punkt/dutch.pickle')
tokernizer.tokenize('Ik liep naar huis. Dat deed ik gisteren')
但是有没有办法使用荷兰语单词分词器?英文(默认的“punkt”)似乎有效,但我猜它可能会在某个时候出错。
答案 0 :(得分:2)
nltk.tokenize.word_tokenize(text, language='english', preserve_line=False)
您似乎可以指定语言:
nltk.word_tokenize('Ik liep naar huis. Dat deed ik gisteren', language='dutch')
还要注意,'punkt' 是一个句子标记器,它会将文档分割成句子。 nltk.word_tokenize
执行 punt,然后执行分词器。
或者,您可以检查 spacy。