应用错误收集

我有一个格式如下：

sentence in english \t sentence in french \t score
sentence in english \t sentence in french \t score

每个句子都被标记化（由whitespac分隔）。

现在我需要使用NLTK加载这句话。我怎样才能做到这一点？我可以使用CorpusReader中的哪种方法？

在这个例子中，我可以加载NLTK提供的comtrans语料库：

from nltk.corpus.util import LazyCorpusLoader
from nltk.corpus.reader import AlignedCorpusReader

comtrans = LazyCorpusLoader(
    'comtrans', AlignedCorpusReader, r'(?!\.).*\.txt',
     encoding='iso-8859-1')

fe=comtrans.aligned_sents('alignment-en-fr.txt')[0]
print fe

事实上，我需要做同样的事情，但是我自己创建一个文件。

在最后一步中，我需要将英语句子中的每个单词弄清楚。

使用NLTK加载并行语料库并将英语句子解释

0 个答案: