Question

我正在尝试使用from

创建标记语料库

nltk.corpus.reader import TaggedCorpusReader
reader = TaggedCorpusReader('.', r'.*\.pos')

工作正常。但似乎它将每个.pos文件显示为一个句子，但是一个文件可能包含多行。我怎么能把它们分开来行？

请提出我正在制作的错误。我在Python2.x上使用带有MS-Windows的NLTK3.1。

我正在尝试尝试使用多行的小文件，部分/ NN / PP语音/ NN标记/ NN是/ AV / DT过程/ NN / PP识别/ NN / DT部分/ NN / PP语音/ NN标签/ NN / PP / DT字/ NN大多数/ JJ / PP / DT时间/ NN a / DT标签/ NN必须/ NN首先/ ADJ是/ ADJ训练/ VB开/ PRP a / DT训练/ NN语料库/ NN ./ .How/WH到/ PP train / NN和/ CONJ使用/ VV a / DT tagger / NN是/ AV覆盖/ VB in / PRP详细信息/ NN in / JJ章节/ NN 4 / NN部分/ NN / ADJ语音/ NN标记/ NN但/ PRP第一/ ADJ我们/ PRP必须/ JJ知道/ VB如何/ WH / PRP创建/ VB和/ CONJ使用/ VB a / DT培训/ ADJ语料库/ NN / PRP部分/ NN / PRP语音/ NN标记/ NN字/ NN。

我检查了棕色语料库的原始格式并尝试在两行之间给出\ n但没有帮助。

阅读NLTK语料库阅读器中的bigfiles

0 个答案: