使用NLTK加载并行语料库并将英语句子解释

时间:2014-12-08 15:49:05

标签: python nlp nltk corpus lemmatization

我有一个格式如下:

sentence in english \t sentence in french \t score
sentence in english \t sentence in french \t score

每个句子都被标记化(由whitespac分隔)。

现在我需要使用NLTK加载这句话。我怎样才能做到这一点 ?我可以使用CorpusReader中的哪种方法?

在这个例子中,我可以加载NLTK提供的comtrans语料库:

from nltk.corpus.util import LazyCorpusLoader
from nltk.corpus.reader import AlignedCorpusReader

comtrans = LazyCorpusLoader(
    'comtrans', AlignedCorpusReader, r'(?!\.).*\.txt',
     encoding='iso-8859-1')

fe=comtrans.aligned_sents('alignment-en-fr.txt')[0]
print fe

事实上,我需要做同样的事情,但是我自己创建一个文件。

在最后一步中,我需要将英语句子中的每个单词弄清楚。

0 个答案:

没有答案