我有一个带有南非荷兰语纯文本句子的文本文件。我希望能够在此文本文件上执行nltk语料库功能,但找不到任何如何执行此操作的示例。
我想做的事情如下:
mytext.concordance("woord")
mytext.similar("woord")
任何人都可以帮助我吗?
答案 0 :(得分:1)
管理以解决问题:
# How to load a text file as a corpus.
import nltk
from nltk.corpus import PlaintextCorpusReader
from nltk.corpus.util import LazyCorpusLoader
afrikaans = LazyCorpusLoader('afrikaans', PlaintextCorpusReader, r'(?!\.).*\.txt')
afrikaans.sents()[1]
af = nltk.Text(afrikaans.words())
af.concordance("mense")
这假设您的语料库文本文件位于C:\ nltk_data \ corpora \ afrikaans \ afrikaans.txt